![]()
來源:新智元
【導(dǎo)讀】當(dāng)我們還在調(diào)侃「AI寫錯代碼」時,實(shí)驗(yàn)室里的科學(xué)家卻看到它能獨(dú)立完成幾個小時的復(fù)雜任務(wù)。AlphaGo作者Julian罕見發(fā)聲:公眾對AI的認(rèn)知,至少落后一個世代。最新數(shù)據(jù)更顯示,AI正以指數(shù)速度逼近專家水準(zhǔn),2026或許就是臨界點(diǎn)。我們,是在見證未來,還是在自欺欺人?
AlphaGo、AlphaZero的核心作者——Julian拋出了一個尖銳的比喻:人們今天對AI的態(tài)度,很像當(dāng)初面對新冠疫情早期的反應(yīng)。
Julian的意思很直接:我們正在嚴(yán)重低估AI的進(jìn)展。
![]()
很多人還在笑它寫錯代碼,抱怨它沒法替代人類;但在實(shí)驗(yàn)室里,研究者早已看到另一幅景象——AI已經(jīng)能獨(dú)立完成幾個小時的復(fù)雜任務(wù),并且還在按指數(shù)速度進(jìn)化。
這就是他決定站出來發(fā)聲的原因:公眾的認(rèn)知,和前沿的現(xiàn)實(shí),之間至少隔著一個世代的落差。
![]()
科學(xué)家不忍再沉默:AI為何被大眾低估?
Julian Schrittwieser的名字,或許不像馬斯克、奧特曼那樣家喻戶曉,但在AI圈,他是響當(dāng)當(dāng)?shù)拇嬖凇?/p>
![]()
作為AlphaGo、AlphaZero、MuZero的核心作者之一,他親歷了AI從「圍棋科幻」到「現(xiàn)實(shí)碾壓」的全過程。
也正因如此,當(dāng)他在個人博客寫下那段話時,格外刺耳:
人們注意到AI還會犯錯,就急著下結(jié)論:它永遠(yuǎn)不可能達(dá)到人類水準(zhǔn),或者影響有限。可別忘了——就在幾年前,讓AI寫程序、設(shè)計網(wǎng)站還完全是科幻!
在他看來,今天的輿論氛圍有點(diǎn)荒謬。
大眾盯著模型出錯的細(xì)節(jié),就斷言「AI不過如此」;記者拿兩代模型的閑聊對比,覺得「沒啥變化」,就認(rèn)定「進(jìn)步停滯」;政策討論里,AI被當(dāng)成遙遠(yuǎn)的、虛浮的「泡沫」。
![]()
然而,實(shí)驗(yàn)室里的研究者看到的,卻是另一幅畫面:AI的能力曲線正在以指數(shù)型躍升。
Julian bluntly指出,公眾與前沿之間的認(rèn)知差距,至少滯后了一個世代。
他之所以站出來發(fā)聲,不是為了渲染危機(jī),而是為了提醒:如果連科學(xué)家眼前清晰可見的趨勢都被忽視,真正的臨界點(diǎn)到來時,我們幾乎沒有準(zhǔn)備。
指數(shù)曲線下的震撼
AI「獨(dú)立上班」的時間在翻倍
Julian提出的第一個關(guān)鍵證據(jù),來自一家專門研究模型能力的機(jī)構(gòu)——METR (Model Evaluation and Threat Research)。
他們的思路很直白:不再只看模型答題對錯,而是衡量它們能自主完成多長時間的真實(shí)任務(wù)。
在今年早些時候的研究里,METR給出的答案是:Claude 3.7 Sonnet能在約1小時長度的軟件工程任務(wù)中保持50%的成功率。
![]()
這意味著,它已經(jīng)具備獨(dú)立撐起一段「實(shí)打?qū)嵉墓ぷ鲿r長」的能力。
Julian指出,更令人震驚的是——這條曲線呈現(xiàn)出指數(shù)增長趨勢,每7個月翻一倍。
Sonnet 3.7已經(jīng)是7個月前的模型,正好對應(yīng)METR統(tǒng)計出的翻倍周期。
他隨即給出最新的對照:在METR官網(wǎng)更新的圖表里,可以看到Grok 4、Claude Opus 4.1、GPT-5已經(jīng)排在右上角。
![]()
Julian博文引用的METR數(shù)據(jù),橫軸為時間,縱軸為可完成任務(wù)的時長。可以看到GPT-5、Opus 4.1已經(jīng)突破兩小時大關(guān)。
它們不再是「1小時工作」,而是能夠支撐超過2小時的任務(wù)。指數(shù)并沒有放緩,反而略超預(yù)期。
這條線的含義不止是「2小時」,而是它所暗示的外推未來:
如果趨勢不變,2026年年中,模型將能連續(xù)完成8小時工作;再往后,2027年,模型可能在不少復(fù)雜任務(wù)上超越人類專家。
Julian的意思很明確:你也許不必喜歡這種預(yù)測,但忽視它的代價極高。
跨行業(yè)評測:AI已逼近人類專家
如果說METR的研究證明了AI在軟件工程任務(wù)上的「時間地平線」不斷拉長,那么另一項研究——OpenAI的GDPval則把這個趨勢帶進(jìn)了現(xiàn)實(shí)經(jīng)濟(jì)。
GDPval的設(shè)計非常直接:找來44個職業(yè)、9大行業(yè)的任務(wù),每個職業(yè)挑選30個真實(shí)工作樣本,總共1320項任務(wù)。
![]()
GDPval任務(wù)覆蓋9大行業(yè),44個職業(yè),模型表現(xiàn)已與人類差距極小。Claude Opus 4.1在多個維度甚至領(lǐng)先GPT-5。
這些任務(wù)由平均14年經(jīng)驗(yàn)的行業(yè)專家設(shè)計,再交給模型去完成,最后由盲評打分:只看結(jié)果,不看作者是誰。
Julian在博文里寫道:
最新的結(jié)果顯示,GPT-5在許多職業(yè)任務(wù)上已經(jīng)接近人類水準(zhǔn)。更令人意外的是,Claude Opus 4.1(發(fā)布時間甚至早于 GPT-5),在GDPval上的表現(xiàn)顯著優(yōu)于GPT-5,幾乎追平了行業(yè)專家。
這不是某個孤立benchmark的「漂亮成績」,而是在跨越法律、金融、工程、醫(yī)療、創(chuàng)意等行業(yè)的真實(shí)檢驗(yàn)中,AI開始逼近人類平均水平。
![]()
OpenAI GDPval評測結(jié)果(2024–2025)。縱軸為模型在真實(shí)職業(yè)任務(wù)中的勝率(對比有多年經(jīng)驗(yàn)的行業(yè)專家),深色為純勝率,淺色為勝或平局。可以看到GPT-5已逼近「行業(yè)專家水平線」。
更值得注意的是:OpenAI在這份報告中,并沒有刻意凸顯自家模型,反而坦誠承認(rèn)友商Claude的表現(xiàn)更好。
![]()
Julian特別稱贊這一點(diǎn),認(rèn)為這是行業(yè)少見的「科研誠信」:
在追求安全和有益結(jié)果時,比拼輸贏反而不是最重要的。
當(dāng)然,GDPval的設(shè)計也并非完美。
Julian也提醒,許多任務(wù)依然相對「整潔」(messy程度不高),沒有模擬長周期、多輪反饋的復(fù)雜工作環(huán)境。
但即便如此,趨勢已經(jīng)足夠說明問題——AI不只是能寫點(diǎn)小程序,而是在真實(shí)的職業(yè)場景里,正一步步靠近甚至超越人類。
質(zhì)疑聲出現(xiàn):趨勢真的可靠嗎?
在Julian的博文下,不少讀者認(rèn)同「AI沒有泡沫」,但也有人提出尖銳的質(zhì)疑。
其中,Atharva Raykar的評論獲得了高贊。他指出:
把AI的進(jìn)展直接類比成指數(shù)曲線,其實(shí)很危險。疫情的指數(shù)傳播有明確機(jī)制支撐,而AI的提升并不是必然的。
![]()
他的觀點(diǎn)是:AI的進(jìn)步更像是摩爾定律,靠整個行業(yè)不斷疊加創(chuàng)新與工程突破。
如果沒有推理模型等關(guān)鍵節(jié)點(diǎn)的突破,能力曲線可能早就「撞墻」。所以,單純外推曲線,未必能保證未來必然繼續(xù)加速。
Atharva還提到另一個問題:評測任務(wù)不夠「messy」。
METR的任務(wù)平均「復(fù)雜度得分」只有3/16,相當(dāng)于結(jié)構(gòu)清晰的小型工程任務(wù);而現(xiàn)實(shí)世界中的軟件項目、科研探索,往往在7–16的區(qū)間,遠(yuǎn)比benchmark混亂。
也就是說,現(xiàn)在的評測結(jié)果可能高估了AI在真實(shí)世界中的適用性。
Julian在后續(xù)回復(fù)中承認(rèn)了這些提醒的合理性,但也強(qiáng)調(diào):
我類比的重點(diǎn)并不是AI一定會像病毒傳播那樣加速,而是公眾和決策層正在忽視已經(jīng)發(fā)生的增長。
短期(1–2 年)的趨勢依然很清晰——在這種尺度上,外推往往比專家預(yù)測更靠譜。
在他看來,問題的關(guān)鍵不是曲線未來是否會「拐彎],而是:如果趨勢真的繼續(xù),而社會卻沒有準(zhǔn)備,那代價將會極其沉重。
未來是替代,還是百倍增幅的協(xié)作?
Julian 在文章的最后給出了他最具沖擊力的預(yù)測:
2026年中,至少有一款頂級模型能連續(xù)自主完成8小時的工作任務(wù)——這意味著它不再只是一個「對話工具」,而是能真正以「全職員工」的形式參與工作流。
2026年底,在多個行業(yè)任務(wù)中,會有模型的表現(xiàn)正式達(dá)到人類專家的平均水平。
2027年之后,在不少垂直任務(wù)里,AI的表現(xiàn)將頻繁超越專家,并逐步成為生產(chǎn)力的主力。
這不是科幻,而是從當(dāng)前曲線直接外推出的「保守版本」。
![]()
Julian直言,忽視這種趨勢,比過度擔(dān)憂更危險。
但他同時也強(qiáng)調(diào),AI的未來不一定意味著「替代」。在他設(shè)想的畫面里,更有可能出現(xiàn)的是這樣一種場景:
人類依舊是指揮者,但身邊會有幾十個、上百個超強(qiáng)助手。人機(jī)協(xié)作下的效率提升,不是1倍,而是10倍、100倍。
這種模式不僅能避免大規(guī)模失業(yè)的恐慌,還可能釋放前所未有的創(chuàng)造力。
科研、設(shè)計、醫(yī)療、法律、金融……幾乎所有行業(yè)都會因此重組。
Julian把這種可能性稱為「更安全、更有益的道路」:讓AI成為超強(qiáng)工具,而不是對手。
這幅未來圖景令人震撼:或許在不遠(yuǎn)的2026或2027,你不是被AI取代,而是帶著一支「AI 團(tuán)隊」去上班。
Julian的提醒,其實(shí)很簡單:我們正在低估AI。
不是說它完美無缺,而是它的曲線比多數(shù)人想象的更快、更陡。
按照當(dāng)前的趨勢,2026或許就是關(guān)鍵轉(zhuǎn)折點(diǎn)——AI可能不再是「實(shí)驗(yàn)室的奇觀」,而是走進(jìn)每一個普通行業(yè),真正改寫經(jīng)濟(jì)的底層邏輯。
這不是危言聳聽,而是一個事實(shí):未來兩三年內(nèi),我們都將直面一個被低估的臨界點(diǎn)。
而當(dāng)那一刻到來時,每個人都要回答同一個問題:你會抵抗、觀望,還是率先和你的AI團(tuán)隊并肩上崗?
參考資料:
https://x.com/polynoamial/status/1972167347088904371
https://www.julian.ac/blog/2025/09/27/failing-to-understand-the-exponential-again/
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.