網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

MIT實(shí)測(cè)41個(gè)AI模型：65%通過(guò)率背后藏著3個(gè)扎心真相

2026-04-06 19:51:02　來(lái)源: 像素與芯片

北京舉報(bào)

分享至

2024年，AI能搞定一半的文字工作。一年后，這個(gè)數(shù)字跳到65%。MIT剛放出的這份報(bào)告測(cè)了41個(gè)模型、11000個(gè)真實(shí)職場(chǎng)任務(wù)——不是實(shí)驗(yàn)室玩具，是美國(guó)勞工部數(shù)據(jù)庫(kù)里實(shí)打?qū)嵉墓ぷ鲀?nèi)容。但數(shù)據(jù)好看，不等于你能直接用。

65%的"及格線(xiàn)"是怎么測(cè)出來(lái)的

研究團(tuán)隊(duì)找了各行業(yè)專(zhuān)業(yè)人士當(dāng)裁判。AI輸出直接交卷，人類(lèi)當(dāng)場(chǎng)判分：7分以上算"勉強(qiáng)能用"，9分才叫"優(yōu)質(zhì)"。Claude、Gemini、ChatGPT全家桶都上場(chǎng)了，沒(méi)人提前知道題目。

結(jié)果很誠(chéng)實(shí)。2024年模型們?cè)谖淖秩蝿?wù)上剛好踩線(xiàn)50%，2025年爬到65%。按這個(gè)斜率，2029年可能沖到80%-95%——但注意，這只是"勉強(qiáng)能用"的門(mén)檻。

真正刺眼的是另一組數(shù)字：無(wú)論給AI多少時(shí)間，"優(yōu)質(zhì)"率從沒(méi)突破50%。

多步驟任務(wù)、需要?jiǎng)?chuàng)意的、精度要求高的——AI翻車(chē)頻率比成功高。這就像招了個(gè)實(shí)習(xí)生，交作業(yè)永遠(yuǎn)卡在"改改能用"和"得重寫(xiě)"之間，從沒(méi)出過(guò)讓人眼前一亮的活兒。

AI的"能力盲區(qū)"恰好是團(tuán)隊(duì)最疼的地方

測(cè)試暴露的弱點(diǎn)高度一致：協(xié)調(diào)多方、判斷優(yōu)先級(jí)、做決策。翻譯成人話(huà)——正是開(kāi)會(huì)扯皮、拍板定案、背鍋扛責(zé)的那些事。

產(chǎn)品經(jīng)理最懂這種痛。你可以讓AI寫(xiě)PRD初稿，但跨部門(mén)對(duì)齊優(yōu)先級(jí)、在資源沖突時(shí)做取舍、上線(xiàn)后出問(wèn)題誰(shuí)負(fù)責(zé)——這些沒(méi)人敢交給模型。

研究報(bào)告作者之一、MIT的Julie Shah在訪(fǎng)談里打了個(gè)比方：「我們不是在測(cè)AI能不能替代人，是在測(cè)哪些任務(wù)值得人類(lèi)繼續(xù)投入注意力。」

換句話(huà)說(shuō)，65%通過(guò)率真正的信息量不是"AI能做什么"，而是"剩下35%為什么死活搞不定"。

對(duì)職場(chǎng)人的實(shí)際影響：三類(lèi)任務(wù)正在分化

基于測(cè)試結(jié)果，研究團(tuán)隊(duì)把任務(wù)分成三檔。第一檔，AI已經(jīng)穩(wěn)定交付——標(biāo)準(zhǔn)化文案、數(shù)據(jù)整理、格式轉(zhuǎn)換。這類(lèi)工作的邊際價(jià)值正在歸零，就像Excel普及后手工做表的人。

第二檔，AI輔助但需人工把關(guān)——分析報(bào)告、客戶(hù)溝通草稿、代碼審查。這里的關(guān)鍵是"人機(jī)回環(huán)"設(shè)計(jì)：人負(fù)責(zé)決策節(jié)點(diǎn)，AI負(fù)責(zé)填充和發(fā)散。

第三檔，AI基本無(wú)能為力——戰(zhàn)略權(quán)衡、危機(jī)處理、創(chuàng)造性突破。有趣的是，這部分恰恰是高管時(shí)薪最高的工作，也是裁員潮里最后被碰的崗位。

一個(gè)反直覺(jué)的發(fā)現(xiàn)：模型規(guī)模變大，第三檔任務(wù)的提升極其有限。

研究團(tuán)隊(duì)測(cè)試了從7B到數(shù)百B參數(shù)的模型，在需要多步推理的任務(wù)上，性能曲線(xiàn)趨于平緩。砸更多算力、喂更多數(shù)據(jù)，邊際收益遞減得比想象中快。

創(chuàng)始人該警惕的"65%陷阱"

這個(gè)數(shù)據(jù)最容易被誤讀的方式，是把它當(dāng)成"AI替代率"——65%的崗位危險(xiǎn)了。但測(cè)試設(shè)計(jì)本身就在排除這種解讀：評(píng)分標(biāo)準(zhǔn)是"無(wú)修改可用"，而真實(shí)職場(chǎng)里，沒(méi)人會(huì)把AI輸出直接發(fā)給客戶(hù)。

更危險(xiǎn)的誤讀是產(chǎn)品層面的。很多團(tuán)隊(duì)看到65%通過(guò)率，就假設(shè)"再迭代兩輪就能商用"。但報(bào)告里有個(gè)細(xì)節(jié)：同一任務(wù)多次運(yùn)行，AI的輸出一致性遠(yuǎn)低于人類(lèi)專(zhuān)家。這意味著"能用"的判定本身就有波動(dòng)，上線(xiàn)后用戶(hù)遇到的可能是另一套表現(xiàn)。

MIT團(tuán)隊(duì)特意強(qiáng)調(diào)了測(cè)試的局限性：所有任務(wù)被拆解成原子化步驟，真實(shí)工作流的復(fù)雜度被剝離。一個(gè)"寫(xiě)郵件"任務(wù)在數(shù)據(jù)庫(kù)里是獨(dú)立條目，實(shí)際職場(chǎng)里它嵌套在二十個(gè)上下文變量中。

Julie Shah補(bǔ)充：「我們的數(shù)字是下限，不是上限。真實(shí)場(chǎng)景的失敗率只會(huì)更高。」

所以65%到底意味著什么？它更像一份"自動(dòng)化可行性地圖"——標(biāo)出了哪些地形已經(jīng)平坦，哪些還是沼澤。對(duì)資源有限的團(tuán)隊(duì)，這比"AI將取代X%工作"的驚悚標(biāo)題有用一百倍。

報(bào)告最后提到，2025年的模型在"自我修正"能力上出現(xiàn)了意外提升。給定錯(cuò)誤反饋后，部分任務(wù)的重試通過(guò)率顯著提高。這暗示下一代產(chǎn)品的核心交互設(shè)計(jì)，可能不是"一鍵生成"，而是"多輪協(xié)作"。

如果你的產(chǎn)品還在追求"零點(diǎn)擊自動(dòng)化"，這份數(shù)據(jù)建議你重新考慮 roadmap。用戶(hù)真正愿意付費(fèi)的，可能不是省掉的那幾分鐘，而是"我知道它什么時(shí)候會(huì)錯(cuò)"的掌控感。

MIT團(tuán)隊(duì)已經(jīng)公開(kāi)了測(cè)試方法和部分?jǐn)?shù)據(jù)集。下一個(gè)問(wèn)題是：你的業(yè)務(wù)里，那35%搞不定的任務(wù)，值不值得專(zhuān)門(mén)建一套人機(jī)協(xié)作的工作流？

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.