“這是個(gè)需要高質(zhì)量人文社科人才的崗位,因?yàn)橹挥凶钌朴谒伎既伺c世界關(guān)系的人類,才能教會(huì)AI怎么更好的做一個(gè)人。”
![]()
文 /巴九靈
這篇文章開始之前,先邀請(qǐng)大家猜猜下面這份招聘要求對(duì)應(yīng)的是什么崗位。
![]()
揭曉答案:這份看起來要求不低的工作,招聘的是AI數(shù)據(jù)標(biāo)注員。在BOSS直聘上,這個(gè)崗位月薪最高接近兩萬元;部分崗位直接注明“重點(diǎn)大學(xué)本碩博優(yōu)先”。
通俗地說,數(shù)據(jù)標(biāo)注員就是AI的老師,負(fù)責(zé)對(duì)文本、圖像、音頻等原始數(shù)據(jù)進(jìn)行分類、標(biāo)記或注釋,從而教會(huì)機(jī)器識(shí)別、理解并學(xué)習(xí)人類世界的邏輯和知識(shí)。
2020年起,“人工智能訓(xùn)練師”正式被納入國家職業(yè)分類目錄,“數(shù)據(jù)標(biāo)注員”是其中的重要工種之一。據(jù)國家數(shù)據(jù)局,截至今年9月底,我國7個(gè)數(shù)據(jù)標(biāo)注基地共有標(biāo)注企業(yè)362家,標(biāo)注從業(yè)人員達(dá)8.5萬人。
但這個(gè)行業(yè)仍缺乏人才。量子位智庫2023年底發(fā)布的《中國AIGC數(shù)據(jù)標(biāo)注產(chǎn)業(yè)全景報(bào)告》顯示,未來5年,中國數(shù)據(jù)標(biāo)注專業(yè)人才缺口或達(dá)百萬量級(jí)。
那么,數(shù)據(jù)標(biāo)注到底是一份什么樣的工作?

“985”“QS100”碩博,
給AI當(dāng)老師
小鵝本科就讀于一所“211”高校,目前在一家“985”高校讀研,學(xué)的是歷史學(xué)專業(yè)。她曾在大四那年做過一份數(shù)據(jù)標(biāo)注實(shí)習(xí)的工作。
她每天的工作,就是面對(duì)一張科技公司發(fā)來的、填滿后臺(tái)收集的用戶提問和AI生成答案的Excel表格,給AI的答案打分。小鵝處理一條數(shù)據(jù)平均花費(fèi)的時(shí)間是15分鐘左右,少數(shù)棘手的任務(wù),單條就要花上近一個(gè)小時(shí)。
這份實(shí)習(xí)不需要面試,招聘方會(huì)提供一份打分標(biāo)準(zhǔn)手冊(cè)和一套測試題,要求自學(xué)手冊(cè)內(nèi)容后,在測試題中選5道,完成后上交,正確率超過80%即視為通過。
小鵝當(dāng)初花了一個(gè)下午學(xué)習(xí)這份標(biāo)注手冊(cè),又花了2個(gè)小時(shí)完成5道測試題,才通過了考核。
起初覺得易如反掌的小巴,嘗試了小鵝發(fā)來的兩道題,結(jié)果正確率不足50%。這才發(fā)現(xiàn),這份工作遠(yuǎn)比我們想象的困難。
◎ 首先,標(biāo)注手冊(cè)中包含大量術(shù)語,理解門檻極高。比如,“缺少富媒體形式”,是指答案中沒有包含短視頻鏈接;“prompt外泄”,是指答案暴露了提問未涉及的內(nèi)部指令;“弱相關(guān)內(nèi)容或冗余殘留”,就是答案和提問沒關(guān)系。
◎ 其次,打分要求極其繁瑣、嚴(yán)格。標(biāo)注者需要在“0、1、2、3”四個(gè)檔位中給3個(gè)答案分別打分,并根據(jù)答案在準(zhǔn)確性、結(jié)構(gòu)性、相關(guān)性、全面性等方面的缺陷,分別打好標(biāo)簽,備注原因;然后把三個(gè)答案依次排序,逐一解釋理由。
![]()
進(jìn)行數(shù)據(jù)標(biāo)注的工作人員
對(duì)于如何判定分?jǐn)?shù)和標(biāo)簽,接近6萬字的標(biāo)注手冊(cè)列舉出了幾十種具體分析場景,這些分析費(fèi)時(shí)費(fèi)力。比如,判斷是否出現(xiàn)幻覺,需要一一核對(duì)參考資料;涉及專業(yè)知識(shí),需要自己查找資料去驗(yàn)證。
除了打分,另一種常見的標(biāo)注形式是“出題”,難度更大。剛獲得海外語言類專業(yè)博士學(xué)位的小凡,求學(xué)時(shí)做了長達(dá)5年的數(shù)據(jù)標(biāo)注兼職。她的工作是在一家海外眾包標(biāo)注平臺(tái)上給AI出題并寫出解答,難度達(dá)到博士級(jí)別。這些文本會(huì)被作為訓(xùn)練語料,喂給AI。
從招聘市場情況看,這份職業(yè)的天花板極高。
今年以來,各家頭部大模型公司開始在招攬專家級(jí)標(biāo)注員上競速。比如,阿里搭建了“曉天睿士”專家社區(qū),學(xué)歷要求頭部高校碩士起步,行業(yè)專家級(jí)人才最高時(shí)薪可達(dá)1000元。字節(jié)跳動(dòng)成立了Xpert兼職眾包標(biāo)注平臺(tái),需要標(biāo)注者上傳簡歷、選擇標(biāo)注的細(xì)分專業(yè)領(lǐng)域,并完成難度較高的專業(yè)知識(shí)測試。
另一方面,行業(yè)的“入場券”也在快速漲價(jià)。
一位負(fù)責(zé)多家頭部企業(yè)標(biāo)注人員招聘的HR告訴小巴,近兩年,標(biāo)注崗位招聘要求不斷提高。
早期招聘要求的學(xué)歷水平大多在專科、高中,無需經(jīng)驗(yàn)、上手就能做。但今年,候選人本科以上學(xué)歷的占比超過五成。通用類AI標(biāo)注開始有經(jīng)驗(yàn)要求;垂直類一般要求相關(guān)專業(yè)或行業(yè)經(jīng)驗(yàn),部分崗位需要做專業(yè)筆試。
競爭也逐漸激烈,目前招聘通過率大約是2:1。
持續(xù)吸納高端人才,成為標(biāo)注行業(yè)肉眼可見的趨勢。
![]()
部分公司數(shù)據(jù)標(biāo)注招聘要求

不算體面的工種
頂尖人才正涌入數(shù)據(jù)標(biāo)注行業(yè),但身處其中的人們,大多態(tài)度悲觀。
在高強(qiáng)度的標(biāo)注實(shí)習(xí)中,小鵝感受到了這個(gè)行業(yè)巨大的矛盾。
??其一,缺乏尊嚴(yán)。
小鵝最反感的是工作中沒完沒了的扯皮。文字判斷有巨大的主觀模糊空間,作為乙方的標(biāo)注員與作為甲方的質(zhì)檢員經(jīng)常會(huì)發(fā)生爭執(zhí)。比如,甲方認(rèn)為A答案的邏輯性更強(qiáng),而乙方認(rèn)為B答案更完善。
在這些爭論中,她感到標(biāo)注員角色的巨大矛盾性:雖然承擔(dān)著AI工程里超過60%的工作量,但他們?cè)谶@個(gè)系統(tǒng)里是不被尊重的。隨著模型的進(jìn)化和調(diào)整,甲方給出的打分標(biāo)準(zhǔn)會(huì)經(jīng)常變動(dòng),但標(biāo)注員們往往無法撼動(dòng)現(xiàn)有的標(biāo)準(zhǔn),只能接受甲方的評(píng)判。
她也感到這份工作缺乏獲得感。即便標(biāo)注已經(jīng)成為一個(gè)知識(shí)密集行業(yè),但仍采取著流水線式的管理方式,絕大多數(shù)標(biāo)注工作采取計(jì)件制計(jì)薪。標(biāo)注的工作本質(zhì)是消耗腦力處理一條條數(shù)據(jù),但并不知道這些數(shù)據(jù)從哪來、到哪去,甚至不少標(biāo)注員不知道自己標(biāo)注的是哪個(gè)大模型。
??其二,性價(jià)比低。
小鵝此前實(shí)習(xí)的公司是一家外包標(biāo)注機(jī)構(gòu),項(xiàng)目團(tuán)隊(duì)里大多是兼職的大學(xué)生,每人每天至少完成10條,日薪100元,超額完成按10元/條計(jì)。
![]()
部分公司數(shù)據(jù)標(biāo)注僅招聘兼職人員
即便是專家級(jí)別的標(biāo)注,性價(jià)比也很低。一位入駐某家國內(nèi)大模型專家社區(qū)的在讀博士告訴小巴,自己在平臺(tái)上出題的時(shí)薪大約在100—300元,收入并不比家教等其他兼職有吸引力。他很快放棄了這份兼職。
從招聘市場的薪資報(bào)價(jià)看,全職數(shù)據(jù)標(biāo)注員的門檻水漲船高,但待遇低,在北京、上海這樣的地區(qū),不少標(biāo)注崗位要求研究生級(jí)別學(xué)歷,但月薪只有六七千元。
??其三,上升空間狹窄。
一位AI產(chǎn)品經(jīng)理向小巴介紹,他所在的頭部互聯(lián)網(wǎng)企業(yè),標(biāo)注崗位除了極個(gè)別管理崗位,其余均為外包,人員流動(dòng)率極高,能待上超過一年的人并不多。
雖然理論上,數(shù)據(jù)標(biāo)注員可以依次向標(biāo)注組長、質(zhì)檢、質(zhì)控、數(shù)據(jù)運(yùn)營乃至算法類崗位發(fā)展,但因?yàn)榧夹g(shù)類崗位的天然壁壘,真正實(shí)現(xiàn)的概率極低,絕大部分標(biāo)注員會(huì)一直停留在原崗位上。
??其四,即使門檻被知識(shí)抬高,標(biāo)注本質(zhì)上還是一份極易被AI替代的工作,“教會(huì)徒弟、餓死師傅”。
科技公司正在普遍采用合成數(shù)據(jù)減少對(duì)人工的依賴。比如,業(yè)內(nèi)常見的降本手法“蒸餾”,即用ChatGPT等更高級(jí)的大模型生成的答案去訓(xùn)練更初級(jí)的大模型。中小型大模型廠商大多使用這種方法,降低數(shù)據(jù)成本。
因?yàn)檫@些原因,高端人才們進(jìn)入標(biāo)注行業(yè),大多要么是尋求臨時(shí)過渡工作,要么只是作為兼職獲得一份收入,行業(yè)對(duì)他們難有長期吸引力。

大模型巨頭開始“卷”數(shù)據(jù)
問題的本質(zhì),是標(biāo)注行業(yè)的社會(huì)認(rèn)知和管理方式,都沒能跟上AI“知識(shí)饑渴”的速度。
過去8年,數(shù)據(jù)標(biāo)注行業(yè)經(jīng)歷了巨大的變化。
這曾經(jīng)是個(gè)非常底層的工種。它興起于2017年前后,早期被廣泛應(yīng)用于智能駕駛。那時(shí)任務(wù)簡單重復(fù),比如框選圖片上的紅綠燈、汽車、障礙物。
因?yàn)橛挚嘤掷郏嗄陙恚M饪萍季揞^把這份工作轉(zhuǎn)移到勞動(dòng)力最廉價(jià)的地區(qū)。牛津大學(xué)的一項(xiàng)調(diào)查顯示,全球有數(shù)百萬數(shù)據(jù)標(biāo)注員集中在烏干達(dá)、肯尼亞等欠發(fā)達(dá)國家,他們每天工作9小時(shí)以上,時(shí)薪僅約1.16美元(約合人民幣8.3元),項(xiàng)目結(jié)束即失業(yè)。
![]()
OpenAI合作外包公司Sama公司員工
圖源:Sama公司官網(wǎng)
在中國,數(shù)據(jù)標(biāo)注產(chǎn)業(yè)主要聚集在中西部及三四線城市。在標(biāo)注基地打標(biāo)的員工,不少是待業(yè)青年、中老年人、殘障人士,只要會(huì)使用電腦即可。
所以在大部分新聞報(bào)道中,數(shù)據(jù)標(biāo)注員是一群AI世界里隱形的底層勞動(dòng)力,在全世界欠發(fā)達(dá)國家、地區(qū)賺著“賽博流水線”上的微薄收入。
但最近兩年,高端化的趨勢開始在海外興起。海外數(shù)據(jù)標(biāo)注龍頭Scale AI,從2024年開始關(guān)閉肯尼亞、尼日利亞、巴基斯坦等地的承包站點(diǎn),轉(zhuǎn)而招聘美國本土高學(xué)歷人士。
據(jù)港媒報(bào)道,截至今年年初,Scale AI參與模型優(yōu)化的人員中,12%擁有分子生物學(xué)等領(lǐng)域的博士學(xué)位,超40%擁有所在領(lǐng)域的碩士學(xué)位、法律學(xué)位或MBA學(xué)位。
相較于時(shí)薪僅1美元出頭的低端標(biāo)注,這些高端標(biāo)注員平均時(shí)薪達(dá)到40美元。
而對(duì)專家級(jí)標(biāo)注員的投入也確實(shí)推動(dòng)了公司的增長,Scale 2024年?duì)I收約8.7億美元,預(yù)計(jì)今年?duì)I收達(dá)20億美元。Scale AI創(chuàng)始人Alex Wang公開發(fā)言稱:“我們需要最優(yōu)秀和最聰明的頭腦來貢獻(xiàn)數(shù)據(jù)。”
其競品、美國另一數(shù)據(jù)標(biāo)注巨頭Surge AI,已經(jīng)成為全球大模型追求高端數(shù)據(jù)時(shí)的首選。它把高質(zhì)量的數(shù)據(jù)標(biāo)注比作“寫詩”,組建了一支由哲學(xué)家、工程師、常春藤盟校畢業(yè)生等構(gòu)成的標(biāo)注團(tuán)隊(duì)。
而國內(nèi)的高端化趨勢,很大程度上是從DeepSeek開始的。
2023年起,DeepSeek開始招聘“數(shù)據(jù)百曉生”崗位,不限專業(yè)、不限經(jīng)驗(yàn),實(shí)習(xí)生日薪超過500元,正職年薪可達(dá)百萬。崗位要求之一是“涉獵廣泛、博聞強(qiáng)識(shí),對(duì)各行各業(yè)的知識(shí)都擁有強(qiáng)烈的興趣”。
![]()
“數(shù)據(jù)百曉生”的主要任務(wù),就是給AI出題、編寫“理想態(tài)”的優(yōu)質(zhì)答案作為學(xué)習(xí)資料、給AI生成的答案打分和調(diào)試,等等。
結(jié)果也很驚人:DeepSeek上線7天用戶破億,靠文采飛揚(yáng)、金句頻出和嚴(yán)謹(jǐn)?shù)纳疃人伎计迫Γ瑯I(yè)內(nèi)盛傳其標(biāo)注團(tuán)隊(duì)由北大哲學(xué)系的學(xué)生組成。
此后,國內(nèi)大模型界風(fēng)向逐漸轉(zhuǎn)變,開始在“特級(jí)教師”上做文章。
這種從“普通老師”到“特級(jí)教師”的需求變化,是AI進(jìn)化到一定程度的必然結(jié)果。
AI行業(yè)有句經(jīng)典名言“Garbage In Garbage Out”,一個(gè)模型能力行不行,很大程度上取決于訓(xùn)練模型的數(shù)據(jù)質(zhì)量。據(jù)IBM的一項(xiàng)研究,僅注釋質(zhì)量提高5%,就可以將復(fù)雜計(jì)算機(jī)視覺任務(wù)的模型準(zhǔn)確率提高15%—20%。
算法、算力、數(shù)據(jù),是業(yè)內(nèi)公認(rèn)的AI三要素。頭部大模型們?cè)谒惴ê退懔ι想y分伯仲,數(shù)據(jù)質(zhì)量成了最有機(jī)會(huì)“卷”出差距的方向。

AI變成精英以后?
可以說,自數(shù)據(jù)標(biāo)注被正式認(rèn)定為職業(yè),經(jīng)過5年的發(fā)展,這個(gè)行業(yè)仍面臨著低壁壘競爭和勞動(dòng)剝削等諸多問題,處于一個(gè)難以定性的狀態(tài)。
但在每個(gè)新興行業(yè)出現(xiàn)、創(chuàng)造新工種的早期,都會(huì)出現(xiàn)類似的問題。所有的職業(yè),都是先出現(xiàn),再進(jìn)化的。
這份工作的前景也未必真如想象中渺茫。比如,它提供了一種職業(yè)轉(zhuǎn)型路徑:成了一條文科生在AI領(lǐng)域大展拳腳的神奇過渡帶。一些頭部大模型已經(jīng)開始組建“AI人文訓(xùn)練師”團(tuán)隊(duì),訓(xùn)練AI識(shí)別“仇恨言論”和撰寫“高情商回復(fù)”。
而這些文科生,也在這份工作中不斷觸碰AI與社會(huì)的邊界。小鵝說,在結(jié)束這份實(shí)習(xí)以后,她手機(jī)里的AI總是比別人的好用,因?yàn)槔斫獾讓舆壿嫞瞄L下達(dá)精確的指令。
這是個(gè)需要高質(zhì)量人文社科人才的崗位,因?yàn)橹挥凶钌朴谒伎既伺c世界關(guān)系的人類,才能教會(huì)AI怎么更好地做一個(gè)人。
![]()
學(xué)習(xí)使用AI辦公技巧
換個(gè)角度看,在高學(xué)歷人才該不該去“打螺絲”之外,還有一件事值得關(guān)注。
在小鵝標(biāo)注的上千條數(shù)據(jù)中,她印象最深刻的一條記錄是,一位用戶向AI提問“殘疾人患腦癌能不能進(jìn)養(yǎng)老院”。小鵝翻閱此人的過往提問記錄,發(fā)現(xiàn)她向AI傾訴了很多自己各方面的困難,包括離婚、家暴、病重和無人贍養(yǎng)。但對(duì)于AI而言,這些提問不過是一條條平平無奇的數(shù)據(jù)流。
當(dāng)AI在頂尖老師的訓(xùn)練下變得越來越頂尖,它就像一個(gè)含著金湯匙出生、接受正統(tǒng)通識(shí)教育的古希臘式精英,逐漸無法再看到更基層的需求。
或許下一步,新的鯰魚就會(huì)從這些被忽視的需求中跳出來。
*文中受訪者姓名均為化名
本篇作者 | 溫若梅 | 責(zé)任編輯 |徐濤
主編 |何夢飛| 圖源 |VCG、網(wǎng)絡(luò)
驚艷、尖叫和思考,都會(huì)出現(xiàn)在這場AI大秀上!12月28日在廈門,吳老師將通過一場名為“AI閃耀中國”科技人文秀,把他在今年的“AI大調(diào)研”成果展現(xiàn)給大家~
![]()
合作支持
聯(lián)合出品:吳曉波頻道、優(yōu)酷、七維動(dòng)力、東南衛(wèi)視
官方AI助手:千問
首席戰(zhàn)略合作伙伴:廈門國貿(mào)控股集團(tuán)
官方電商合作伙伴:天貓小黑盒
超級(jí)品牌:飛書、金牌家居、雙鹿電池、東鵬瓷磚、聯(lián)想、影目INMO、1688、慕思集團(tuán)
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.