![]()
這項由阿里巴巴集團和阿里巴巴Qwen團隊聯合開展的研究發表于2026年的arXiv預印本平臺,論文編號為arXiv:2602.13964v2。研究團隊針對當前AI界最權威的評測基準"人類最后的考試"(Humanity's Last Exam,簡稱HLE)進行了全面的錯誤檢查和修正工作,最終發布了經過驗證的HLE-Verified版本。
**一個讓AI專家頭疼的問題**
你可能不知道,現在評判AI有多聰明,主要靠的是讓它們做題——就像我們上學時的考試一樣。其中有一套叫做"人類最后的考試"的題目,被認為是目前最難、最權威的AI能力測試。這套題目涵蓋數學、物理、化學、生物醫學、計算機科學等多個領域,每道題都非常有挑戰性。
但是問題來了。就像我們小時候發現教科書上偶爾也有印刷錯誤一樣,這套被奉為圭臬的AI考試題目也出現了不少問題。一些研究人員開始懷疑:AI答錯題目,到底是因為它們真的不夠聰明,還是因為題目本身就有毛病?
這就好比你在餐廳點了一道菜,發現味道很奇怪。你可能會想:"是我的口味有問題,還是廚師做錯了?"如果連菜譜都寫錯了,那么即使是最好的廚師也做不出正宗的味道。
**阿里團隊的"大掃除"行動**
面對這個問題,阿里巴巴的研究團隊決定來一次徹底的"大掃除"。他們要把原版考試的2500道題目逐一檢查,找出所有可能存在的錯誤,然后進行修正。這就像是對一本厚厚的百科全書進行全面的校對工作。
整個檢查過程分為兩個階段,就像醫院的體檢流程一樣。第一階段是"初步篩查",目的是找出那些完全沒有問題的"健康"題目,這些題目可以直接保留。第二階段是"深度治療",針對那些有問題但還能搶救的題目進行修復。
研究團隊把每道考試題分解成三個部分來檢查:題目描述(相當于考試的問題部分)、標準答案(相當于參考答案)、解題過程(相當于詳細的解答步驟)。這樣做的好處是可以精確定位問題出在哪個環節。
**第一階段:找出完全健康的題目**
在第一階段,研究團隊采用了三種不同的檢查方法。首先是邀請各個領域的專家來審查題目,就像邀請不同科目的老師來檢查試卷一樣。這些專家會仔細查看每道題的題目描述、答案和解題過程,判斷是否存在問題。
第二種方法是讓多個先進的AI模型來解題。研究團隊讓8個不同的AI模型嘗試回答同一道題目,然后看看它們的答案是否與標準答案一致。如果大部分AI都給出了與標準答案不同的結果,那這道題目就值得懷疑了。這就像是讓多個學霸同時做一道題,如果他們的答案都和參考答案不一樣,那很可能是參考答案有問題。
第三種方法是內部專家的最終判定。研究團隊的專家會綜合前兩種檢查的結果,做出保守的決定。只有當題目描述清晰、答案正確、且沒有發現明顯問題時,題目才能進入"黃金標準"的隊伍。
經過第一階段的嚴格篩選,2500道題目中有641道被認定為完全沒有問題,可以直接使用。這些題目就像是經過嚴格質檢的優質產品,可以放心使用。
**第二階段:搶救有問題的題目**
對于那些在第一階段被發現有問題但還有挽救價值的題目,研究團隊啟動了第二階段的"搶救"工作。這個階段的核心原則是:只修正錯誤,不改變題目要考查的核心能力。就像修理一臺壞了的鐘表,只修復損壞的部件,不改變它的基本功能。
修復工作采用了"雙重保險"的方法。兩個獨立的專家團隊分別對同一道題目提出修復方案,然后再讓內部專家從中選擇最好的方案,或者將兩個方案結合起來。這就像是兩個維修師傅獨立檢查同一臺壞掉的機器,然后選擇最佳的修復方案。
為了確保修復的質量,研究團隊還讓AI模型參與到修復過程中。這些AI模型會嘗試用不同的方法解決修復后的題目,驗證修復是否真的解決了原來的問題。
經過第二階段的努力,又有1170道題目獲得了"重獲新生"。加上第一階段的641道健康題目,總共有1811道題目可以放心使用。
**那些"疑難雜癥"**
然而,還有689道題目讓研究團隊犯了難。這些題目的問題比較復雜,要么涉及有爭議的學術觀點,要么需要超出當前驗證范圍的專業知識,要么存在多種合理的解釋。研究團隊沒有簡單地丟棄這些題目,而是把它們標記為"不確定"狀態,并詳細記錄了每道題目存在的具體問題和需要的專業知識類型。
這就像是醫生遇到了罕見病例,雖然暫時無法確診,但會詳細記錄癥狀和可能的病因,為將來的研究留下寶貴資料。
**錯誤類型大盤點**
在整個檢查過程中,研究團隊發現的錯誤類型可以分為三大類。題目描述方面的錯誤主要包括語義模糊(題目表達不清楚)、知識錯誤(題目中的事實性內容有誤)、信息缺失(解題所需的條件不完整)、理論錯誤(違反了該領域的基本原理)和格式錯誤(數學符號或專業術語使用不當)。
解題過程方面的錯誤則更加豐富,包括推理步驟冗余、循環論證、違反事實、邏輯不一致、方法使用錯誤、過度自信、缺少前提條件、推理陷阱、多解法不一致,以及格式問題等十種類型。
答案方面的錯誤相對簡單,主要是答案不正確、答案不完整、答案表述模糊和格式錯誤四種類型。
有趣的是,研究團隊發現不同學科領域的錯誤模式存在明顯差異。數學和生物醫學題目中,答案錯誤是最主要的問題,占到了錯誤的絕大部分。而在物理、人文社科等領域,更多的問題是題目表述不夠清晰,存在多種理解方式。計算機科學領域的題目則經常出現格式和符號使用錯誤。
**修復效果驗證**
為了驗證修復工作的效果,研究團隊讓七個目前最先進的AI模型分別在原版題目和修復版題目上進行測試。結果令人驚喜:所有AI模型在修復版題目上的表現都有了顯著提升。
具體來說,在完整的題目集上,AI模型的準確率平均提高了7到10個百分點。而在那些原本存在題目描述錯誤或答案錯誤的題目上,AI模型的準確率提升更是達到了30到40個百分點。這就像是給學生提供了正確的教科書后,他們的考試成績大幅提高了。
更有意思的是,研究團隊還發現AI模型的"自信心"與題目質量之間存在密切關系。當遇到有問題的題目時,AI模型往往表現得不夠自信,給出答案時顯得猶豫不決。而在修復后的題目上,AI模型的自信心明顯增強,這說明清晰準確的題目確實能幫助AI更好地發揮能力。
**不同學科的改進情況**
從學科角度來看,物理和生物醫學領域的題目在修復后改進最為明顯。這兩個領域原本的AI準確率相對較低,但在修復后出現了大幅提升。相比之下,化學和計算機科學領域的改進幅度較小,但同樣是積極的。
這種差異反映了不同學科在題目質量方面的特點。有些學科的題目更容易出現事實性錯誤,有些學科則更容易出現表述不清的問題。通過針對性的修復,每個學科的評測質量都得到了相應的改善。
**AI自信心的啟示**
研究中一個特別有趣的發現是AI模型的自信心可以作為識別問題題目的指標。當題目存在問題時,AI模型在回答時往往不夠自信,這反映了題目本身的不確定性。在修復后的題目上,AI模型的自信心普遍增強,說明清晰準確的題目確實能讓AI更好地發揮實力。
這個發現有重要的實際意義。在未來的AI評測中,研究人員可以關注AI模型的自信心表現,以此來識別可能存在問題的題目。當多個AI模型都對某道題目表現出低自信心時,這道題目就值得重新審視了。
**對AI評測的深遠影響**
這項研究的意義遠遠超出了對一套考試題目的修正。它揭示了一個重要問題:當我們用有缺陷的標準來評判AI時,得出的結論可能是不準確的。就像用一把刻度不準的尺子來測量物體,得到的數據自然也不可靠。
研究結果顯示,AI在某些題目上的"錯誤"實際上可能反映的是題目本身的問題,而不是AI能力的不足。這提醒我們,在評判AI能力時,需要確保評測標準本身是可靠和準確的。
此外,這項研究還為如何維護和改進AI評測基準提供了寶貴經驗。研究團隊建立的兩階段驗證和修復流程、詳細的錯誤分類體系,以及保守的質量控制原則,都可以為其他類似的評測基準改進工作提供參考。
**未來展望**
研究團隊將修復后的HLE-Verified數據集完全開源,供全球研究人員使用。他們還提供了詳細的修復記錄和錯誤分類信息,讓其他研究者能夠了解每道題目的具體修改情況。
對于那689道"不確定"狀態的題目,研究團隊也沒有放棄。他們為每道題目提供了詳細的問題描述和所需的專業知識標簽,希望相關領域的專家能夠在未來繼續完善這些題目。這就像是為后續的研究者留下了詳細的"診斷報告"。
說到底,這項研究告訴我們一個簡單而重要的道理:好的評測需要好的題目。就像廚師需要新鮮的食材一樣,準確評判AI能力也需要高質量的測試題目。通過系統性的驗證和修復工作,我們可以讓AI評測變得更加公平、準確和可靠。
這不僅有助于更好地了解當前AI的真實能力水平,也為AI技術的進一步發展指明了方向。當評測標準變得更加準確時,AI的發展也能更好地朝著正確的方向前進。
研究團隊的這次"大掃除"行動,實際上是為整個AI研究社區做了一件非常有意義的基礎工作。雖然這種工作可能不像開發新算法那樣引人注目,但它的價值是長遠而深刻的。就像維護道路和橋梁一樣,維護評測基準也是保障AI研究健康發展的重要基礎設施工作。
對于普通人來說,這項研究的意義在于讓我們對AI能力的判斷更加準確。當我們聽到"某個AI在權威測試中表現如何"的消息時,可以更加相信這些評價的可靠性。而對于AI開發者來說,更準確的評測意味著他們可以更好地了解自己開發的AI系統的真實水平,從而制定更合適的改進策略。
有興趣深入了解技術細節的讀者可以通過論文編號arXiv:2602.13964v2在arXiv平臺查詢完整的研究論文,其中包含了更詳細的方法描述、實驗數據和分析結果。
Q&A
Q1:HLE-Verified是什么?
A:HLE-Verified是阿里巴巴團隊對AI界權威測試"人類最后的考試"進行全面錯誤檢查和修正后的版本。原版2500道題目經過驗證后,有641道完全正確的題目,1170道修復后的題目,以及689道標記為不確定狀態的題目。
Q2:為什么要對人類最后的考試進行修正?
A:因為研究人員發現原版考試中存在不少錯誤,包括題目描述不清、答案錯誤、解題過程有問題等。這些錯誤會影響對AI能力的準確評判,就像用有刻度錯誤的尺子測量物體一樣不可靠。
Q3:修正后AI模型的表現有什么變化?
A:所有測試的AI模型在修正版題目上表現都顯著提升,整體準確率平均提高7-10個百分點,在那些原本有錯誤的題目上準確率更是提高了30-40個百分點,同時AI模型的自信心也明顯增強。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.