科技圈最近炸鍋了。有專家放話,說再過一年左右,AI掌握的知識量就要超過全人類最頂尖的專家總和。這事兒聽著挺玄乎,但看看數據,還真讓人心里發毛。有個叫“人類最后的考試”(HLE)的測試,原本是科技大佬們想給AI設個“路障”,看看這些系統到底有多聰明。結果現在看來,這路障馬上就要被推平了。
![]()
這個HLE可不簡單,它絕對不是那種在網上隨便搜搜就能找到答案的測試。里面塞了2500道精心挑選的難題,涵蓋了火箭科學、神話傳說、生理學等一百多個領域。每一道題都至少需要博士級的理解能力才能做出來。以前大家覺得,誰能在這個考試里考個接近滿分,那絕對是“全能專家”,地球上也沒幾個人能做到。
咱們把時間撥回兩年前。那時候大名鼎鼎的ChatGPT剛出來,在這個考試上只拿了3%的分數,慘不忍睹。Google和Anthropic家的AI也沒好到哪去。當時搞科研的人松了口氣,覺得這證明了AI和人類頂尖大腦之間還有道跨不過去的鴻溝。可誰能想到,這鴻溝填得太快了。上個月,Google的Gemini模型考了45.9%,比它第一次嘗試的18.8%翻了一倍多。Anthropic的Claude也不甘示弱,考到了34.2%,而且進步速度飛快。
這題目到底是怎么來的?說出來嚇你一跳。這是Scale公司和AI安全中心搞出來的。為了出題,他們搞了個全球懸賞,獎金池高達50萬美元。來自大約50個國家的專家們湊了7萬道題。研發團隊先把那些現有AI模型能答上來的題全刪了,剩下1.3萬道,最后又精挑細選剩下2500道。很多題目到現在還處于保密狀態,就是怕AI在網上偷看答案或者被訓練數據“污染”。
照這個速度發展下去,AI拿滿分是遲早的事。Scale的研究負責人CalvinZhang說,他們本來是想造一個只有極少數人類能解決的基準測試,但這幾年語言模型的進步簡直瘋了。GoogleDeepMind的產品經理KateOlszewska也直言,如果大家真把這事兒當成頭等大事來抓,滿分很快就能實現。
這一旦發生,意義可就大了。這讓人想起1997年IBM的深藍電腦擊敗國際象棋冠軍卡斯帕羅夫。那時候大家都覺得不可思議,現在AI又要突破人類知識的邊界了。一旦AI在HLE上拿了100%,這就意味著現有的學術測試對它來說已經沒難度了。以后要想測試AI,可能得用那些連人類都不知道答案的問題才行。
不過咱們也別太慌。CalvinZhang說了,有些領域AI還是搞不定,比如做外科手術這種動手的活兒,或者需要做復雜判斷、發揮創造力的工作。這些還得靠咱們人類自己。
大家覺得AI以后會取代哪些工作?歡迎在評論區聊聊。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.