提起互聯網行業工作,一般人能直接想到的就是碼農、程序員和高薪。實際上,互聯網行業還有一個更大的工種、藏在暗處的工作——不被大廠公關宣傳提起也不被大眾關注的工作——審核、數據標注。
當然,審核、數據標注這些業務一般都是大廠公司外包給第三方公司——業務沒有技術含量,也不直接產生收益,還是勞動密集型業務,不值得大廠自己耗費精力去管理經營。各大廠基本只把技術、算法、數據分析……等重點崗位拿在手里。
像字節、抖音、百度、美團等在武漢、石家莊、西安等二線城市都有外包出去的審核業務、數據標注業務。
互聯網平臺,每一秒都有大量內容產出,等著審核完畢再推薦給用戶,基本都采取AI模型機器審核+人工審核結合模型,既不是全部人工審核,也不是完全交給AI模型機器審核。
審核邏輯一般是,機器判斷這個內容沒有問題,就不必人工審;機器無法判斷或懷疑內容有問題,再交給人工審核。
而機器模型如何判斷內容質量有沒有問題,又涉及到另外一個基礎工作:數據標注——給各類數據打標簽,訓練AI模型。
沒日沒夜倒班,到手4000
審核工作根據審核對象可以細分成用戶審核、投訴審核、視頻審核、圖文審核、商品審核、廣告審核、評論審核、高展審核(審核平臺高展示高數據的內容)、直播審核、社區審核等等。
![]()
審核都要求大專學歷及以上
在互聯網的世界,每一秒鐘都有無數內容產出,每一秒都有無數內容等著審核。人工審核崗位跟工廠流水線一樣,通常實行倒班制,全年365天*24小時都有人在崗,上班時間一般三班倒,或多或少都有通宵班,比如,可能早班9:30-21:30,中班12:00-0:00,晚班21:30-9:30(通宵班業內俗稱大夜班)。也有的公司相對溫柔一點,一個班次9小時或者8小時輪班,通宵時間是23:00-8:00或者00:00-8:00,也有公司根據業務量設置成N班倒,根據一天的階段送審量變化情況,調節每一個小時的在崗審核人力,將人力安排最大效率化。
曾有媒體稱,審核這種工作類型類似于工廠流水線,源源不斷產出的內容就像24小時不間斷轟鳴的機器。審核這個工作線,沒有辦法停下來,停下來意味著“重大事故”,比如外包公司斷電斷網,導致審核中斷,面臨的就是潮水一樣的內容積壓。因此,許多審核員的生活中不存在“周末”,可能周三周四休息,周日周六上班,也不存在春節、國慶等假期,節假日也需要按照排班表工作。
審核工作作為新的工廠流水線,工作地點不是工廠,而是在各個城市名頭鮮亮的“科技產業園”或者“商務寫字樓”里,比如,武漢光谷世貿中心。武漢因為高校多,應屆畢業大學生多,是很多大廠的外包公司駐扎地。
檢索武漢的招聘,大部分審核員都要求大專及以上學歷,薪資范疇在4k-6k,同時會注明是否倒班和調休。但大部分審核員都表示,倒班是必須的,但實際工資只有4000多,只有瘋狂加班卷工作量才有高工資,也有個別二線城市的審核員表示自己到手工資就3000多,跟保安差不多,還要上通宵。
“三班倒,上通宵,真的受不了,”某已經離職的前審核員如是說,“就是血汗工廠,很多人干不到半年。同事之間也很少交流,就是不停干活。流動性非常大,能堅持干的人,真的不是一般人。”在排班制度下,可能今天早班明天晚班,有時又連續通宵班,審核員生物鐘混亂,對很多審核員來說,休息的日子也沒有實現“休息”,大家一般都用來補覺,沒有精力出去玩出去放松。
![]()
某廠復雜的倒班制度
審核員離職率高,要保持業務開展,很多大型外包公司基本每月每周每天都在招聘審核員。招聘一般都會靠“五險一金”“雙休”“文職”“坐班”等優點來宣傳審核這個崗位。“現在這個形勢,審核也比較容易找到本科生,有工作總比沒有好。”
有的公司招聘審核員會明確要求不超過32歲、甚至不能超過28歲,有審核員自嘲,只招年輕人,主要是每個月都有夜班,怕你年紀大了,熬夜猝死在電腦前面。
![]()
某大廠審核崗位招聘
不要干審核,沒前途
不同審核業務工作量要求不一,但普遍審核量大,低的業務線可能一天要求審核500條,高的業務線可能要求一天審核2000條。所有外包公司都對審核員有績效考核要求,要組內比較,誰工作量墊底,誰質檢正確率墊底,如果連續兩個月或三個月績效墊底,就會淘汰,無經濟補償。另一方面,審核的結果可能不會讓“被審核”的用戶滿意,用戶會認為審核員“亂審”“瞎審”“隨心所欲”進行投訴,而投訴可能會影響審核員績效。
在網上搜“某互聯網公司名字+審核”都能找到“避雷帖”“勸退帖”“吐槽帖”,勸人不要來這家公司當外包審核。
“真心勸你不要干審核”,來自武漢的某大廠千外包審核小B表示,“干什么不好啊干審核。”據小A描述,他的工作是視頻審核,審核就是不停看視頻,看視頻,看到眼瞎,看到麻木,看到下班后一點也不想點開任何視頻APP。
審核視頻看視頻都是看視頻抽幀,用4x、8x速度看,沒有人能“慢慢看視頻”。根本慢不下來,也不能慢下來。慢了,人效不過關,績效低,到手工資就低。同時業務方又要求準確率,審核后臺會展示這個視頻的多張抽幀截圖,方便審核員判斷這個視頻內容質量,但是你怎么能確定,機器沒有抽到的這一幀,里面沒有問題呢?但只要你審核通過的內容,出了問題,鍋就是你的了。
“卷”,是另外一個審核員小B對審核工作的看法。比如,某個審核業務線原本每天要求審核800條/人,結果有人為了績效,卷到2000條/天,“卷王”自己工資高了,但所有人全部被迫卷起來了,結果所有人都做到900-1000條/天。上面業務主管一看,原來每人1000條/天也能做,人效要求就直接改成1000條/天,就這么“降本增效”了。
學不到東西,是審核員對審核工作最普遍的看法。每個人審核員基本只了解自己接觸業務的審核規則,比如圖片有無違規、有無違禁內容,或者機器打的標簽對不對、應該打什么標簽。但至于更多更上層的邏輯、算法、流程,比如,機器怎么判斷的某條內容的標簽、自己打好標簽的內容怎么推給用戶的、具體的審核流程、推薦策略,一線審核員完全不了解不清楚,也無法通過本職工作學習。
互聯網行業的世界,就像是郝景芳筆下的折疊世界,界限分明,底層業務永遠就是底層業務。
在社交平臺上,也能看到很多審核工作從業者勸大家不要做審核。這個工作,不需要你思考太多,不需要你深入學習,就是按照工作審核標準、工作要求,不停審核,不停審核,每個審核員就只是內容生產-審核-推薦流程上一個不起眼的螺絲釘,毫無成長性,可替代性極大。
訓練AI,讓AI淘汰我自己淘汰人工
不少人都會質疑,為什么在技術如此發達的今天,還需要如此大量的人工審核。答案也很簡單,因為機器判斷不了,而要提高機器判斷能力就需要優化機器模型,這個工作又需要大量的人工來標注數據。
基本每個使用數據大模型的公司都有會個工作業務是“數據標注”,即標注數據,訓練AI模型機器,幫助AI模型學習,提高AI模型的準確率和效率。數據標注員需要標注什么項目,每個項目標注多少量,由負責該AI模型的算法和產品決定。
“數據標注跟審核其實差不多,就是按照規則要求選出想要的內容,”來自某大廠外包的數據標注員小C表示,“類型非常多,視頻,圖片,文本,用戶行為,都可以是標注數據。”比如,品類、時效、三俗程度,都可以由人工去標記大量數據,然后去AI模型根據這些數據去不斷調整自己的判斷:識別文本,識別圖片,識別視頻,識別情緒,識別物體、識別動作……
標注數據比審核工作好的一點是,不用三班倒,標注數據的工作對時間的要求沒有審核強。但數據標注員也普遍都認為自己跟審核員一樣,只是工具,是機器。一方面需要記很多規則,不同的項目需要標注不同的東西,另一方面是需要一直盯著屏幕,傷眼睛,不停重復操作,一天1000個工作量起步。比如文本標注,可能一毛錢一條幾分錢一條。
比如輔助駕駛AI大模型業務,需要人工給大量實況交通內容數據標注,大部分時候給要求找到的東西“拉框”,比如交通警示柱、車、水馬。標注員的工作,就是從早到晚坐在電腦前拉框,面對畫不完的車、畫不完的交通警示、畫不完的水馬……一般會按拉框個數和準確性計算工作量。比如一個月拉3萬個框,可能能有3000多元4000元。
![]()
數據標注后臺
比如標注視頻類的三俗模型,需要按照規則去標記,到底什么算三俗。需要標注員判斷一個美女類視頻是否三俗擦邊,具體是什么問題,是衣著暴露嗎?漏腰還是漏大腿了?還是女生表情偏迷惑人,還是動作具有誘導性?……通過大量的數據標注,告訴AI模型,到底什么是三俗,俗到什么程度需要審核下線,什么程度可以推送給部分特定人群但不能被大量曝光。
![]()
一般此類特意突出胸部、臀部會被算為低俗誘導
有的數據標注員表示,這個工作非常枯燥,實際就是給AI機器模型喂食物,告訴它這是車,這也是車,這個東西長得模糊但它也是車……而當AI機器模型成熟了,準確率高到一定程度,就可以替代人工了——我的工作,是為了淘汰自己,淘汰人工。
整體來看,審核和數據標注,基本是互聯網行業最底層的工作,表現為時薪低、強度大、沒有話語權。要審核什么,要標注什么,都是大廠業務方決定的。前些年就掀起過討論,互聯網行業已經變成勞動密集型產業了嗎?實際上,在每一個大廠業績的背后,都有成百上千的審核員、標注員自認為“在當廉價牛馬”。
從全球來看,依然如此。據不完全統計,各大科技公司的內容審核員工都來自第三世界國家或是不發達地區。其中,在菲律賓的外包內容審查員人數超過了10萬人。YouTube、Google和Facebook等科技巨頭也是雙重審核制度,一是通過人工智能和算法進行首層審核,接著是通過建立在東南亞的外包公司來進行人工過濾。作為一項龐大的勞動密集型產業,他們的工作直面互聯網的黑暗角落:過濾暴力、色情、恐怖內容。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.