2024年,AI能搞定一半的文字工作。一年后,這個(gè)數(shù)字跳到65%。MIT剛放出的這份報(bào)告測(cè)了41個(gè)模型、11000個(gè)真實(shí)職場(chǎng)任務(wù)——不是實(shí)驗(yàn)室玩具,是美國(guó)勞工部數(shù)據(jù)庫(kù)里實(shí)打?qū)嵉墓ぷ鲀?nèi)容。但數(shù)據(jù)好看,不等于你能直接用。
65%的"及格線(xiàn)"是怎么測(cè)出來(lái)的
研究團(tuán)隊(duì)找了各行業(yè)專(zhuān)業(yè)人士當(dāng)裁判。AI輸出直接交卷,人類(lèi)當(dāng)場(chǎng)判分:7分以上算"勉強(qiáng)能用",9分才叫"優(yōu)質(zhì)"。Claude、Gemini、ChatGPT全家桶都上場(chǎng)了,沒(méi)人提前知道題目。
結(jié)果很誠(chéng)實(shí)。2024年模型們?cè)谖淖秩蝿?wù)上剛好踩線(xiàn)50%,2025年爬到65%。按這個(gè)斜率,2029年可能沖到80%-95%——但注意,這只是"勉強(qiáng)能用"的門(mén)檻。
真正刺眼的是另一組數(shù)字:無(wú)論給AI多少時(shí)間,"優(yōu)質(zhì)"率從沒(méi)突破50%。
多步驟任務(wù)、需要?jiǎng)?chuàng)意的、精度要求高的——AI翻車(chē)頻率比成功高。這就像招了個(gè)實(shí)習(xí)生,交作業(yè)永遠(yuǎn)卡在"改改能用"和"得重寫(xiě)"之間,從沒(méi)出過(guò)讓人眼前一亮的活兒。
AI的"能力盲區(qū)"恰好是團(tuán)隊(duì)最疼的地方
測(cè)試暴露的弱點(diǎn)高度一致:協(xié)調(diào)多方、判斷優(yōu)先級(jí)、做決策。翻譯成人話(huà)——正是開(kāi)會(huì)扯皮、拍板定案、背鍋扛責(zé)的那些事。
產(chǎn)品經(jīng)理最懂這種痛。你可以讓AI寫(xiě)PRD初稿,但跨部門(mén)對(duì)齊優(yōu)先級(jí)、在資源沖突時(shí)做取舍、上線(xiàn)后出問(wèn)題誰(shuí)負(fù)責(zé)——這些沒(méi)人敢交給模型。
研究報(bào)告作者之一、MIT的Julie Shah在訪(fǎng)談里打了個(gè)比方:「我們不是在測(cè)AI能不能替代人,是在測(cè)哪些任務(wù)值得人類(lèi)繼續(xù)投入注意力。」
換句話(huà)說(shuō),65%通過(guò)率真正的信息量不是"AI能做什么",而是"剩下35%為什么死活搞不定"。
對(duì)職場(chǎng)人的實(shí)際影響:三類(lèi)任務(wù)正在分化
基于測(cè)試結(jié)果,研究團(tuán)隊(duì)把任務(wù)分成三檔。第一檔,AI已經(jīng)穩(wěn)定交付——標(biāo)準(zhǔn)化文案、數(shù)據(jù)整理、格式轉(zhuǎn)換。這類(lèi)工作的邊際價(jià)值正在歸零,就像Excel普及后手工做表的人。
第二檔,AI輔助但需人工把關(guān)——分析報(bào)告、客戶(hù)溝通草稿、代碼審查。這里的關(guān)鍵是"人機(jī)回環(huán)"設(shè)計(jì):人負(fù)責(zé)決策節(jié)點(diǎn),AI負(fù)責(zé)填充和發(fā)散。
第三檔,AI基本無(wú)能為力——戰(zhàn)略權(quán)衡、危機(jī)處理、創(chuàng)造性突破。有趣的是,這部分恰恰是高管時(shí)薪最高的工作,也是裁員潮里最后被碰的崗位。
一個(gè)反直覺(jué)的發(fā)現(xiàn):模型規(guī)模變大,第三檔任務(wù)的提升極其有限。
研究團(tuán)隊(duì)測(cè)試了從7B到數(shù)百B參數(shù)的模型,在需要多步推理的任務(wù)上,性能曲線(xiàn)趨于平緩。砸更多算力、喂更多數(shù)據(jù),邊際收益遞減得比想象中快。
創(chuàng)始人該警惕的"65%陷阱"
這個(gè)數(shù)據(jù)最容易被誤讀的方式,是把它當(dāng)成"AI替代率"——65%的崗位危險(xiǎn)了。但測(cè)試設(shè)計(jì)本身就在排除這種解讀:評(píng)分標(biāo)準(zhǔn)是"無(wú)修改可用",而真實(shí)職場(chǎng)里,沒(méi)人會(huì)把AI輸出直接發(fā)給客戶(hù)。
更危險(xiǎn)的誤讀是產(chǎn)品層面的。很多團(tuán)隊(duì)看到65%通過(guò)率,就假設(shè)"再迭代兩輪就能商用"。但報(bào)告里有個(gè)細(xì)節(jié):同一任務(wù)多次運(yùn)行,AI的輸出一致性遠(yuǎn)低于人類(lèi)專(zhuān)家。這意味著"能用"的判定本身就有波動(dòng),上線(xiàn)后用戶(hù)遇到的可能是另一套表現(xiàn)。
MIT團(tuán)隊(duì)特意強(qiáng)調(diào)了測(cè)試的局限性:所有任務(wù)被拆解成原子化步驟,真實(shí)工作流的復(fù)雜度被剝離。一個(gè)"寫(xiě)郵件"任務(wù)在數(shù)據(jù)庫(kù)里是獨(dú)立條目,實(shí)際職場(chǎng)里它嵌套在二十個(gè)上下文變量中。
Julie Shah補(bǔ)充:「我們的數(shù)字是下限,不是上限。真實(shí)場(chǎng)景的失敗率只會(huì)更高。」
所以65%到底意味著什么?它更像一份"自動(dòng)化可行性地圖"——標(biāo)出了哪些地形已經(jīng)平坦,哪些還是沼澤。對(duì)資源有限的團(tuán)隊(duì),這比"AI將取代X%工作"的驚悚標(biāo)題有用一百倍。
報(bào)告最后提到,2025年的模型在"自我修正"能力上出現(xiàn)了意外提升。給定錯(cuò)誤反饋后,部分任務(wù)的重試通過(guò)率顯著提高。這暗示下一代產(chǎn)品的核心交互設(shè)計(jì),可能不是"一鍵生成",而是"多輪協(xié)作"。
如果你的產(chǎn)品還在追求"零點(diǎn)擊自動(dòng)化",這份數(shù)據(jù)建議你重新考慮 roadmap。用戶(hù)真正愿意付費(fèi)的,可能不是省掉的那幾分鐘,而是"我知道它什么時(shí)候會(huì)錯(cuò)"的掌控感。
MIT團(tuán)隊(duì)已經(jīng)公開(kāi)了測(cè)試方法和部分?jǐn)?shù)據(jù)集。下一個(gè)問(wèn)題是:你的業(yè)務(wù)里,那35%搞不定的任務(wù),值不值得專(zhuān)門(mén)建一套人機(jī)協(xié)作的工作流?
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.