網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

我們正在嚴(yán)重低估AI的進(jìn)展！AlphaGo締造者罕見(jiàn)發(fā)聲：2026年AI自主上崗8小時(shí)

2025-11-04 23:06:21　來(lái)源: 互聯(lián)網(wǎng)思想

廣東舉報(bào)

分享至

　　來(lái)源：新智元

　　【導(dǎo)讀】當(dāng)我們還在調(diào)侃「AI寫(xiě)錯(cuò)代碼」時(shí)，實(shí)驗(yàn)室里的科學(xué)家卻看到它能獨(dú)立完成幾個(gè)小時(shí)的復(fù)雜任務(wù)。AlphaGo作者Julian罕見(jiàn)發(fā)聲：公眾對(duì)AI的認(rèn)知，至少落后一個(gè)世代。最新數(shù)據(jù)更顯示，AI正以指數(shù)速度逼近專家水準(zhǔn)，2026或許就是臨界點(diǎn)。我們，是在見(jiàn)證未來(lái)，還是在自欺欺人？

　　AlphaGo、AlphaZero的核心作者——Julian拋出了一個(gè)尖銳的比喻：人們今天對(duì)AI的態(tài)度，很像當(dāng)初面對(duì)新冠疫情早期的反應(yīng)。

　　Julian的意思很直接：我們正在嚴(yán)重低估AI的進(jìn)展。

　　很多人還在笑它寫(xiě)錯(cuò)代碼，抱怨它沒(méi)法替代人類；但在實(shí)驗(yàn)室里，研究者早已看到另一幅景象——AI已經(jīng)能獨(dú)立完成幾個(gè)小時(shí)的復(fù)雜任務(wù)，并且還在按指數(shù)速度進(jìn)化。

　　這就是他決定站出來(lái)發(fā)聲的原因：公眾的認(rèn)知，和前沿的現(xiàn)實(shí)，之間至少隔著一個(gè)世代的落差。

　　科學(xué)家不忍再沉默：AI為何被大眾低估？

　　Julian Schrittwieser的名字，或許不像馬斯克、奧特曼那樣家喻戶曉，但在AI圈，他是響當(dāng)當(dāng)?shù)拇嬖凇?/p>

　　作為AlphaGo、AlphaZero、MuZero的核心作者之一，他親歷了AI從「圍棋科幻」到「現(xiàn)實(shí)碾壓」的全過(guò)程。

　　也正因如此，當(dāng)他在個(gè)人博客寫(xiě)下那段話時(shí)，格外刺耳：

　　人們注意到AI還會(huì)犯錯(cuò)，就急著下結(jié)論：它永遠(yuǎn)不可能達(dá)到人類水準(zhǔn)，或者影響有限。可別忘了——就在幾年前，讓AI寫(xiě)程序、設(shè)計(jì)網(wǎng)站還完全是科幻！

　　在他看來(lái)，今天的輿論氛圍有點(diǎn)荒謬。

　　大眾盯著模型出錯(cuò)的細(xì)節(jié)，就斷言「AI不過(guò)如此」；記者拿兩代模型的閑聊對(duì)比，覺(jué)得「沒(méi)啥變化」，就認(rèn)定「進(jìn)步停滯」；政策討論里，AI被當(dāng)成遙遠(yuǎn)的、虛浮的「泡沫」。

　　然而，實(shí)驗(yàn)室里的研究者看到的，卻是另一幅畫(huà)面：AI的能力曲線正在以指數(shù)型躍升。

　　Julian bluntly指出，公眾與前沿之間的認(rèn)知差距，至少滯后了一個(gè)世代。

　　他之所以站出來(lái)發(fā)聲，不是為了渲染危機(jī)，而是為了提醒：如果連科學(xué)家眼前清晰可見(jiàn)的趨勢(shì)都被忽視，真正的臨界點(diǎn)到來(lái)時(shí)，我們幾乎沒(méi)有準(zhǔn)備。

　　指數(shù)曲線下的震撼

　　AI「獨(dú)立上班」的時(shí)間在翻倍

　　Julian提出的第一個(gè)關(guān)鍵證據(jù)，來(lái)自一家專門研究模型能力的機(jī)構(gòu)——METR (Model Evaluation and Threat Research)。

　　他們的思路很直白：不再只看模型答題對(duì)錯(cuò)，而是衡量它們能自主完成多長(zhǎng)時(shí)間的真實(shí)任務(wù)。

　　在今年早些時(shí)候的研究里，METR給出的答案是：Claude 3.7 Sonnet能在約1小時(shí)長(zhǎng)度的軟件工程任務(wù)中保持50%的成功率。

　　這意味著，它已經(jīng)具備獨(dú)立撐起一段「實(shí)打?qū)嵉墓ぷ鲿r(shí)長(zhǎng)」的能力。

　　Julian指出，更令人震驚的是——這條曲線呈現(xiàn)出指數(shù)增長(zhǎng)趨勢(shì)，每7個(gè)月翻一倍。

　　Sonnet 3.7已經(jīng)是7個(gè)月前的模型，正好對(duì)應(yīng)METR統(tǒng)計(jì)出的翻倍周期。

　　他隨即給出最新的對(duì)照：在METR官網(wǎng)更新的圖表里，可以看到Grok 4、Claude Opus 4.1、GPT-5已經(jīng)排在右上角。

　　Julian博文引用的METR數(shù)據(jù)，橫軸為時(shí)間，縱軸為可完成任務(wù)的時(shí)長(zhǎng)。可以看到GPT-5、Opus 4.1已經(jīng)突破兩小時(shí)大關(guān)。

　　它們不再是「1小時(shí)工作」，而是能夠支撐超過(guò)2小時(shí)的任務(wù)。指數(shù)并沒(méi)有放緩，反而略超預(yù)期。

　　這條線的含義不止是「2小時(shí)」，而是它所暗示的外推未來(lái)：

　　如果趨勢(shì)不變，2026年年中，模型將能連續(xù)完成8小時(shí)工作；再往后，2027年，模型可能在不少?gòu)?fù)雜任務(wù)上超越人類專家。

　　Julian的意思很明確：你也許不必喜歡這種預(yù)測(cè)，但忽視它的代價(jià)極高。

　　跨行業(yè)評(píng)測(cè)：AI已逼近人類專家

　　如果說(shuō)METR的研究證明了AI在軟件工程任務(wù)上的「時(shí)間地平線」不斷拉長(zhǎng)，那么另一項(xiàng)研究——OpenAI的GDPval則把這個(gè)趨勢(shì)帶進(jìn)了現(xiàn)實(shí)經(jīng)濟(jì)。

　　GDPval的設(shè)計(jì)非常直接：找來(lái)44個(gè)職業(yè)、9大行業(yè)的任務(wù)，每個(gè)職業(yè)挑選30個(gè)真實(shí)工作樣本，總共1320項(xiàng)任務(wù)。

　　GDPval任務(wù)覆蓋9大行業(yè)，44個(gè)職業(yè)，模型表現(xiàn)已與人類差距極小。Claude Opus 4.1在多個(gè)維度甚至領(lǐng)先GPT-5。

　　這些任務(wù)由平均14年經(jīng)驗(yàn)的行業(yè)專家設(shè)計(jì)，再交給模型去完成，最后由盲評(píng)打分：只看結(jié)果，不看作者是誰(shuí)。

　　Julian在博文里寫(xiě)道：

　　最新的結(jié)果顯示，GPT-5在許多職業(yè)任務(wù)上已經(jīng)接近人類水準(zhǔn)。更令人意外的是，Claude Opus 4.1（發(fā)布時(shí)間甚至早于 GPT-5），在GDPval上的表現(xiàn)顯著優(yōu)于GPT-5，幾乎追平了行業(yè)專家。

　　這不是某個(gè)孤立benchmark的「漂亮成績(jī)」，而是在跨越法律、金融、工程、醫(yī)療、創(chuàng)意等行業(yè)的真實(shí)檢驗(yàn)中，AI開(kāi)始逼近人類平均水平。

　　OpenAI GDPval評(píng)測(cè)結(jié)果（2024–2025）。縱軸為模型在真實(shí)職業(yè)任務(wù)中的勝率（對(duì)比有多年經(jīng)驗(yàn)的行業(yè)專家），深色為純勝率，淺色為勝或平局。可以看到GPT-5已逼近「行業(yè)專家水平線」。

　　更值得注意的是：OpenAI在這份報(bào)告中，并沒(méi)有刻意凸顯自家模型，反而坦誠(chéng)承認(rèn)友商Claude的表現(xiàn)更好。

　　Julian特別稱贊這一點(diǎn)，認(rèn)為這是行業(yè)少見(jiàn)的「科研誠(chéng)信」：

　　在追求安全和有益結(jié)果時(shí)，比拼輸贏反而不是最重要的。

　　當(dāng)然，GDPval的設(shè)計(jì)也并非完美。

　　Julian也提醒，許多任務(wù)依然相對(duì)「整潔」（messy程度不高），沒(méi)有模擬長(zhǎng)周期、多輪反饋的復(fù)雜工作環(huán)境。

　　但即便如此，趨勢(shì)已經(jīng)足夠說(shuō)明問(wèn)題——AI不只是能寫(xiě)點(diǎn)小程序，而是在真實(shí)的職業(yè)場(chǎng)景里，正一步步靠近甚至超越人類。

　　質(zhì)疑聲出現(xiàn)：趨勢(shì)真的可靠嗎？

　　在Julian的博文下，不少讀者認(rèn)同「AI沒(méi)有泡沫」，但也有人提出尖銳的質(zhì)疑。

　　其中，Atharva Raykar的評(píng)論獲得了高贊。他指出：

　　把AI的進(jìn)展直接類比成指數(shù)曲線，其實(shí)很危險(xiǎn)。疫情的指數(shù)傳播有明確機(jī)制支撐，而AI的提升并不是必然的。

　　他的觀點(diǎn)是：AI的進(jìn)步更像是摩爾定律，靠整個(gè)行業(yè)不斷疊加創(chuàng)新與工程突破。

　　如果沒(méi)有推理模型等關(guān)鍵節(jié)點(diǎn)的突破，能力曲線可能早就「撞墻」。所以，單純外推曲線，未必能保證未來(lái)必然繼續(xù)加速。

　　Atharva還提到另一個(gè)問(wèn)題：評(píng)測(cè)任務(wù)不夠「messy」。

　　METR的任務(wù)平均「復(fù)雜度得分」只有3/16，相當(dāng)于結(jié)構(gòu)清晰的小型工程任務(wù)；而現(xiàn)實(shí)世界中的軟件項(xiàng)目、科研探索，往往在7–16的區(qū)間，遠(yuǎn)比benchmark混亂。

　　也就是說(shuō)，現(xiàn)在的評(píng)測(cè)結(jié)果可能高估了AI在真實(shí)世界中的適用性。

　　Julian在后續(xù)回復(fù)中承認(rèn)了這些提醒的合理性，但也強(qiáng)調(diào)：

　　我類比的重點(diǎn)并不是AI一定會(huì)像病毒傳播那樣加速，而是公眾和決策層正在忽視已經(jīng)發(fā)生的增長(zhǎng)。

　　短期（1–2 年）的趨勢(shì)依然很清晰——在這種尺度上，外推往往比專家預(yù)測(cè)更靠譜。

　　在他看來(lái)，問(wèn)題的關(guān)鍵不是曲線未來(lái)是否會(huì)「拐彎]，而是：如果趨勢(shì)真的繼續(xù)，而社會(huì)卻沒(méi)有準(zhǔn)備，那代價(jià)將會(huì)極其沉重。

　　未來(lái)是替代，還是百倍增幅的協(xié)作？

　　Julian 在文章的最后給出了他最具沖擊力的預(yù)測(cè)：

　　2026年中，至少有一款頂級(jí)模型能連續(xù)自主完成8小時(shí)的工作任務(wù)——這意味著它不再只是一個(gè)「對(duì)話工具」，而是能真正以「全職員工」的形式參與工作流。

　　2026年底，在多個(gè)行業(yè)任務(wù)中，會(huì)有模型的表現(xiàn)正式達(dá)到人類專家的平均水平。

　　2027年之后，在不少垂直任務(wù)里，AI的表現(xiàn)將頻繁超越專家，并逐步成為生產(chǎn)力的主力。

　　這不是科幻，而是從當(dāng)前曲線直接外推出的「保守版本」。

　　Julian直言，忽視這種趨勢(shì)，比過(guò)度擔(dān)憂更危險(xiǎn)。

　　但他同時(shí)也強(qiáng)調(diào)，AI的未來(lái)不一定意味著「替代」。在他設(shè)想的畫(huà)面里，更有可能出現(xiàn)的是這樣一種場(chǎng)景：

　　人類依舊是指揮者，但身邊會(huì)有幾十個(gè)、上百個(gè)超強(qiáng)助手。人機(jī)協(xié)作下的效率提升，不是1倍，而是10倍、100倍。

　　這種模式不僅能避免大規(guī)模失業(yè)的恐慌，還可能釋放前所未有的創(chuàng)造力。

　　科研、設(shè)計(jì)、醫(yī)療、法律、金融……幾乎所有行業(yè)都會(huì)因此重組。

　　Julian把這種可能性稱為「更安全、更有益的道路」：讓AI成為超強(qiáng)工具，而不是對(duì)手。

　　這幅未來(lái)圖景令人震撼：或許在不遠(yuǎn)的2026或2027，你不是被AI取代，而是帶著一支「AI 團(tuán)隊(duì)」去上班。

　　Julian的提醒，其實(shí)很簡(jiǎn)單：我們正在低估AI。

　　不是說(shuō)它完美無(wú)缺，而是它的曲線比多數(shù)人想象的更快、更陡。

　　按照當(dāng)前的趨勢(shì)，2026或許就是關(guān)鍵轉(zhuǎn)折點(diǎn)——AI可能不再是「實(shí)驗(yàn)室的奇觀」，而是走進(jìn)每一個(gè)普通行業(yè)，真正改寫(xiě)經(jīng)濟(jì)的底層邏輯。

　　這不是危言聳聽(tīng)，而是一個(gè)事實(shí)：未來(lái)兩三年內(nèi)，我們都將直面一個(gè)被低估的臨界點(diǎn)。

　　而當(dāng)那一刻到來(lái)時(shí)，每個(gè)人都要回答同一個(gè)問(wèn)題：你會(huì)抵抗、觀望，還是率先和你的AI團(tuán)隊(duì)并肩上崗？

　　參考資料：

　　https://x.com/polynoamial/status/1972167347088904371

　　https://www.julian.ac/blog/2025/09/27/failing-to-understand-the-exponential-again/

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.