人類為AI到底會不會搶走工作操碎了心。被AI取代,與投入巨資卻無法提升生產力同樣糟糕。各類大模型與智能體的評估,正從紙面上的智商競賽,轉向對的直接測驗。這有助于人類面對“生存還是毀滅”時,盡可能地端正自己的位置。
從數據標注巨頭 Scale AI 的最新報告來看,那些可以居家完成、端到端交付的遠程任務,即便由當下最強大的智能體執行,也只有2.5%能達到客戶可接受的標準;它們的經濟價值更低,智能體從中獲得的報酬至多占1.2%。但是,按照智庫METR的“”,到了明年底,也許最強智能體就有望完成一半的遠程工作了。
AI被人為地賦予了提升生產力的使命。但“AI能干什么”,并不完整對應著“AI能被市場承認的勞動”。Scale AI想研究的正是,客戶究竟愿不愿意為智能體的勞動付費。
該研究提出了智能體(或具備智能體能力的大模型)遠程工作指數(RLI)的評估標準。所謂遠程工作,往往是某些可以獨立完成的任務,可以委托、交付、驗證的知識勞動單元,而不是抽象的工作崗位職責。這對于圍繞業務的真實指標(準確率、延遲、幻覺率、客戶滿意度等)展開具備現實意義。
盡管如此,這些遠程工作本身,也可以是從人類員工或團隊的完整工作流程中拆分出來的——這又為智能體持續地嵌入生產系統和反饋循環創造了條件——這時候為此“買單”的就是智能體的人類合作伙伴了。
智能體的遠程工作指數,核心就在于它的“自動化率”(automation rate)。它指的是,智能體提交的任務,最終被客戶認可付費的任務數量,在所有選定任務中的占比。這些智能體完成的任務,可以是超越對照組的人類員工提交的結果,也可以是符合客戶心理預期的結果。滿足上述任意一項,即可視為完成任務。
Scale AI選定的任務,來自全球最大遠程自由職業平臺Upwork。研究團隊從64個二級分類(subcategories) 中篩選出23個“可端到端獨立完成”類別,涵蓋了設計、運營、營銷、行政、數據/商業智能、音頻/視頻制作以及其他類別,共240個項目。
這些項目還附有人工交付成果的“黃金標準”,以及人類完成上述任務花費的時間與獲得的報酬。人類完成所有這些任務,需要約6000個小時,獲得14.4萬美元的報酬;其中,單個任務中位勞動時間11個小時,中位勞動報酬200美元。
結果,在所有這些任務中,即使最領先的智能體,能夠讓客戶心甘情愿付費的,也就其中的2.5%。它就是今年出盡風頭的“通用智能體”Manus。其他前沿模型GPT-5、Sonnet 4.5與Grok 4還沒它能打。
![]()
失敗的任務,各有各的難處。約45%是因為“質量差”,還有35%是因為“不完整”,以及15%因為“不一致”。而那些成功的任務,往往集中在更為“寬松”的創意類項目,尤其是音頻(例如為復古游戲創建音效、分離人聲和伴奏、為旁白添加背景音樂)和圖像(例如廣告和Logo設計)相關的工作,以及寫作和數據檢索/網絡抓取。
如果用“經濟價值”來衡量,智能體的表現就更差了。最強的Manus,完成這2.5%的任務,總共獲得了1720美元的報酬,占所有潛在總報酬的1.2%;剩下的幾個模型或智能體,甚至都離1%都還遠著。
這倒側面證明了最新披露的一組token數據。
這家每月消耗1300萬億token的硅谷巨頭,自有模型Gemini通過API每分鐘消耗約70億個token,折合每月約300億,相當于企業調用僅占不到25%,絕大多數token都被谷歌自身龐大的搜索、視頻與廣告等業務消耗了。目前能高效、規模兌現token價值的,仍然是硅谷巨頭主導的消費者市場。
目前,全年消耗萬億token的“需求大戶”,也僅150家,差不多每家每年在token上花費百萬美元左右。這意味著“企業AI”為谷歌云貢獻了0.3%的收入。它們也許已經通過了技術驗證,正在不斷嘗試與大模型與智能體磨合,驗證工作流程與商業模式。
![]()
可見,AI應用在企業服務領域的爆發,尚需時日。盡管OpenAI最早分析了人類工作的GPT暴露風險,今年又發布了經濟價值評估框架GDPval;Anthropic多次更新了自己的經濟指數(AEI)。但從這兩家AI巨頭最近的用戶使用報告來看,企業AI滲透率的擴展,確實仍然存在“鴻溝”。
OpenAI發現,ChatGPT用戶超過70%的對話與工作無關。而在與工作有關的活動中,獲取信息(19.3%)、解釋信息含義(13.1%)、記錄信息(12.8%)占比最高,其次是提供咨詢與建議(9.2%)、創造性思考(9.1%)和決策解決問題(8.5%)。
就連更擅長企業服務的Anthropic也遇到了問題。它發現,旗下Claude API任務的使用分布(usage distribution),呈現了非常明顯的“冪律分布”。即,將近50%的API使用量,映射到了計算機和數學任務,而靠后80%的任務,只占了10%的使用量。
也就是說,在面對現實工作任務時,AI與智能體還不夠“通用”。OpenAI和Anthropic,采用的工作分類都是傳統的O*NET分類(美國勞工部的職業數據庫),這也意味著它們所謂的“使用”,往往并不意味著讓智能體端到端地替代人類員工。
它當然仍然有用,但無法真實反映生產力層面的提升。事實上,美國METR研究所分析開發者的實際工作產出時,發現使用AI的開發者完成任務的速度,竟比不使用AI時慢了20%。
Claude Sonnet 4.5剛出來的時候,Anthropic就宣稱它能連續專注工作超30小時。但是,很快就被智庫METR打了臉。該機構測評發現,它實際能以50%成功率完成的任務,相當于1小時53分鐘的人類任務的水平,不及今年8月發布的GPT-5的2小時15分鐘。
![]()
這也解釋了為什么在Scale AI的遠程任務指數中,大模型的表現往往不佳;因為有經濟價值的獨立任務,即使中位時間也達到了11個小時。
不過,按每7個月翻一番的“智能體摩爾定律”,那一天不會太久。理論上,差不多16個月后,也就是明年底,最強大的智能體,就可以搶走一半不需要互動與協作的人類遠程工作了。
參考:
https://scale.com/research/rli
https://www.anthropic.com/economic-index
https://openai.com/index/how-people-are-using-chatgpt/
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.