網易首頁 > 網易號 > 正文申請入駐

AI智商要碾壓人類了？這場“終極考試”或撐不過一年，人類無用論

2026-03-31 08:05:03　來源: Science科學說

廣東舉報

分享至

科技圈最近炸鍋了。有專家放話，說再過一年左右，AI掌握的知識量就要超過全人類最頂尖的專家總和。這事兒聽著挺玄乎，但看看數據，還真讓人心里發毛。有個叫“人類最后的考試”（HLE）的測試，原本是科技大佬們想給AI設個“路障”，看看這些系統到底有多聰明。結果現在看來，這路障馬上就要被推平了。

這個HLE可不簡單，它絕對不是那種在網上隨便搜搜就能找到答案的測試。里面塞了2500道精心挑選的難題，涵蓋了火箭科學、神話傳說、生理學等一百多個領域。每一道題都至少需要博士級的理解能力才能做出來。以前大家覺得，誰能在這個考試里考個接近滿分，那絕對是“全能專家”，地球上也沒幾個人能做到。

咱們把時間撥回兩年前。那時候大名鼎鼎的ChatGPT剛出來，在這個考試上只拿了3%的分數，慘不忍睹。Google和Anthropic家的AI也沒好到哪去。當時搞科研的人松了口氣，覺得這證明了AI和人類頂尖大腦之間還有道跨不過去的鴻溝。可誰能想到，這鴻溝填得太快了。上個月，Google的Gemini模型考了45.9%，比它第一次嘗試的18.8%翻了一倍多。Anthropic的Claude也不甘示弱，考到了34.2%，而且進步速度飛快。

這題目到底是怎么來的？說出來嚇你一跳。這是Scale公司和AI安全中心搞出來的。為了出題，他們搞了個全球懸賞，獎金池高達50萬美元。來自大約50個國家的專家們湊了7萬道題。研發團隊先把那些現有AI模型能答上來的題全刪了，剩下1.3萬道，最后又精挑細選剩下2500道。很多題目到現在還處于保密狀態，就是怕AI在網上偷看答案或者被訓練數據“污染”。

照這個速度發展下去，AI拿滿分是遲早的事。Scale的研究負責人CalvinZhang說，他們本來是想造一個只有極少數人類能解決的基準測試，但這幾年語言模型的進步簡直瘋了。GoogleDeepMind的產品經理KateOlszewska也直言，如果大家真把這事兒當成頭等大事來抓，滿分很快就能實現。

這一旦發生，意義可就大了。這讓人想起1997年IBM的深藍電腦擊敗國際象棋冠軍卡斯帕羅夫。那時候大家都覺得不可思議，現在AI又要突破人類知識的邊界了。一旦AI在HLE上拿了100%，這就意味著現有的學術測試對它來說已經沒難度了。以后要想測試AI，可能得用那些連人類都不知道答案的問題才行。

不過咱們也別太慌。CalvinZhang說了，有些領域AI還是搞不定，比如做外科手術這種動手的活兒，或者需要做復雜判斷、發揮創造力的工作。這些還得靠咱們人類自己。

大家覺得AI以后會取代哪些工作？歡迎在評論區聊聊。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.