糟糕！最強智能體搶走了1.2%人類遠程工作報酬

2025-10-31 23:41:05　來源: 未盡研究

上海舉報

分享至

人類為AI到底會不會搶走工作操碎了心。被AI取代，與投入巨資卻無法提升生產(chǎn)力同樣糟糕。各類大模型與智能體的評估，正從紙面上的智商競賽，轉向對的直接測驗。這有助于人類面對“生存還是毀滅”時，盡可能地端正自己的位置。

從數(shù)據(jù)標注巨頭 Scale AI 的最新報告來看，那些可以居家完成、端到端交付的遠程任務，即便由當下最強大的智能體執(zhí)行，也只有2.5%能達到客戶可接受的標準；它們的經(jīng)濟價值更低，智能體從中獲得的報酬至多占1.2%。但是，按照智庫METR的“”，到了明年底，也許最強智能體就有望完成一半的遠程工作了。

AI被人為地賦予了提升生產(chǎn)力的使命。但“AI能干什么”，并不完整對應著“AI能被市場承認的勞動”。Scale AI想研究的正是，客戶究竟愿不愿意為智能體的勞動付費。

該研究提出了智能體（或具備智能體能力的大模型）遠程工作指數(shù)（RLI）的評估標準。所謂遠程工作，往往是某些可以獨立完成的任務，可以委托、交付、驗證的知識勞動單元，而不是抽象的工作崗位職責。這對于圍繞業(yè)務的真實指標（準確率、延遲、幻覺率、客戶滿意度等）展開具備現(xiàn)實意義。

盡管如此，這些遠程工作本身，也可以是從人類員工或團隊的完整工作流程中拆分出來的——這又為智能體持續(xù)地嵌入生產(chǎn)系統(tǒng)和反饋循環(huán)創(chuàng)造了條件——這時候為此“買單”的就是智能體的人類合作伙伴了。

智能體的遠程工作指數(shù)，核心就在于它的“自動化率”（automation rate）。它指的是，智能體提交的任務，最終被客戶認可付費的任務數(shù)量，在所有選定任務中的占比。這些智能體完成的任務，可以是超越對照組的人類員工提交的結果，也可以是符合客戶心理預期的結果。滿足上述任意一項，即可視為完成任務。

Scale AI選定的任務，來自全球最大遠程自由職業(yè)平臺Upwork。研究團隊從64個二級分類（subcategories）中篩選出23個“可端到端獨立完成”類別，涵蓋了設計、運營、營銷、行政、數(shù)據(jù)/商業(yè)智能、音頻/視頻制作以及其他類別，共240個項目。

這些項目還附有人工交付成果的“黃金標準”，以及人類完成上述任務花費的時間與獲得的報酬。人類完成所有這些任務，需要約6000個小時，獲得14.4萬美元的報酬；其中，單個任務中位勞動時間11個小時，中位勞動報酬200美元。

結果，在所有這些任務中，即使最領先的智能體，能夠讓客戶心甘情愿付費的，也就其中的2.5%。它就是今年出盡風頭的“通用智能體”Manus。其他前沿模型GPT-5、Sonnet 4.5與Grok 4還沒它能打。

失敗的任務，各有各的難處。約45%是因為“質(zhì)量差”，還有35%是因為“不完整”，以及15%因為“不一致”。而那些成功的任務，往往集中在更為“寬松”的創(chuàng)意類項目，尤其是音頻（例如為復古游戲創(chuàng)建音效、分離人聲和伴奏、為旁白添加背景音樂）和圖像（例如廣告和Logo設計）相關的工作，以及寫作和數(shù)據(jù)檢索/網(wǎng)絡抓取。

如果用“經(jīng)濟價值”來衡量，智能體的表現(xiàn)就更差了。最強的Manus，完成這2.5%的任務，總共獲得了1720美元的報酬，占所有潛在總報酬的1.2%；剩下的幾個模型或智能體，甚至都離1%都還遠著。

這倒側面證明了最新披露的一組token數(shù)據(jù)。

這家每月消耗1300萬億token的硅谷巨頭，自有模型Gemini通過API每分鐘消耗約70億個token，折合每月約300億，相當于企業(yè)調(diào)用僅占不到25%，絕大多數(shù)token都被谷歌自身龐大的搜索、視頻與廣告等業(yè)務消耗了。目前能高效、規(guī)模兌現(xiàn)token價值的，仍然是硅谷巨頭主導的消費者市場。

目前，全年消耗萬億token的“需求大戶”，也僅150家，差不多每家每年在token上花費百萬美元左右。這意味著“企業(yè)AI”為谷歌云貢獻了0.3%的收入。它們也許已經(jīng)通過了技術驗證，正在不斷嘗試與大模型與智能體磨合，驗證工作流程與商業(yè)模式。

可見，AI應用在企業(yè)服務領域的爆發(fā)，尚需時日。盡管OpenAI最早分析了人類工作的GPT暴露風險，今年又發(fā)布了經(jīng)濟價值評估框架GDPval；Anthropic多次更新了自己的經(jīng)濟指數(shù)（AEI）。但從這兩家AI巨頭最近的用戶使用報告來看，企業(yè)AI滲透率的擴展，確實仍然存在“鴻溝”。

OpenAI發(fā)現(xiàn)，ChatGPT用戶超過70%的對話與工作無關。而在與工作有關的活動中，獲取信息（19.3%）、解釋信息含義（13.1%）、記錄信息（12.8%）占比最高，其次是提供咨詢與建議（9.2%）、創(chuàng)造性思考（9.1%）和決策解決問題（8.5%）。

就連更擅長企業(yè)服務的Anthropic也遇到了問題。它發(fā)現(xiàn)，旗下Claude API任務的使用分布（usage distribution），呈現(xiàn)了非常明顯的“冪律分布”。即，將近50%的API使用量，映射到了計算機和數(shù)學任務，而靠后80%的任務，只占了10%的使用量。

也就是說，在面對現(xiàn)實工作任務時，AI與智能體還不夠“通用”。OpenAI和Anthropic，采用的工作分類都是傳統(tǒng)的O*NET分類（美國勞工部的職業(yè)數(shù)據(jù)庫），這也意味著它們所謂的“使用”，往往并不意味著讓智能體端到端地替代人類員工。

它當然仍然有用，但無法真實反映生產(chǎn)力層面的提升。事實上，美國METR研究所分析開發(fā)者的實際工作產(chǎn)出時，發(fā)現(xiàn)使用AI的開發(fā)者完成任務的速度，竟比不使用AI時慢了20%。

Claude Sonnet 4.5剛出來的時候，Anthropic就宣稱它能連續(xù)專注工作超30小時。但是，很快就被智庫METR打了臉。該機構測評發(fā)現(xiàn)，它實際能以50%成功率完成的任務，相當于1小時53分鐘的人類任務的水平，不及今年8月發(fā)布的GPT-5的2小時15分鐘。

這也解釋了為什么在Scale AI的遠程任務指數(shù)中，大模型的表現(xiàn)往往不佳；因為有經(jīng)濟價值的獨立任務，即使中位時間也達到了11個小時。

不過，按每7個月翻一番的“智能體摩爾定律”，那一天不會太久。理論上，差不多16個月后，也就是明年底，最強大的智能體，就可以搶走一半不需要互動與協(xié)作的人類遠程工作了。

參考：

https://scale.com/research/rli

https://www.anthropic.com/economic-index

https://openai.com/index/how-people-are-using-chatgpt/

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.