網易首頁 > 網易號 > 正文申請入駐

阿里巴巴團隊大掃除：把AI界最難考試題的錯誤全找出來了！

2026-02-25 20:42:02　來源: 科技行者

北京舉報

分享至

這項由阿里巴巴集團和阿里巴巴Qwen團隊聯合開展的研究發表于2026年的arXiv預印本平臺，論文編號為arXiv:2602.13964v2。研究團隊針對當前AI界最權威的評測基準"人類最后的考試"（Humanity's Last Exam，簡稱HLE）進行了全面的錯誤檢查和修正工作，最終發布了經過驗證的HLE-Verified版本。

**一個讓AI專家頭疼的問題**

你可能不知道，現在評判AI有多聰明，主要靠的是讓它們做題——就像我們上學時的考試一樣。其中有一套叫做"人類最后的考試"的題目，被認為是目前最難、最權威的AI能力測試。這套題目涵蓋數學、物理、化學、生物醫學、計算機科學等多個領域，每道題都非常有挑戰性。

但是問題來了。就像我們小時候發現教科書上偶爾也有印刷錯誤一樣，這套被奉為圭臬的AI考試題目也出現了不少問題。一些研究人員開始懷疑：AI答錯題目，到底是因為它們真的不夠聰明，還是因為題目本身就有毛病？

這就好比你在餐廳點了一道菜，發現味道很奇怪。你可能會想："是我的口味有問題，還是廚師做錯了？"如果連菜譜都寫錯了，那么即使是最好的廚師也做不出正宗的味道。

**阿里團隊的"大掃除"行動**

面對這個問題，阿里巴巴的研究團隊決定來一次徹底的"大掃除"。他們要把原版考試的2500道題目逐一檢查，找出所有可能存在的錯誤，然后進行修正。這就像是對一本厚厚的百科全書進行全面的校對工作。

整個檢查過程分為兩個階段，就像醫院的體檢流程一樣。第一階段是"初步篩查"，目的是找出那些完全沒有問題的"健康"題目，這些題目可以直接保留。第二階段是"深度治療"，針對那些有問題但還能搶救的題目進行修復。

研究團隊把每道考試題分解成三個部分來檢查：題目描述（相當于考試的問題部分）、標準答案（相當于參考答案）、解題過程（相當于詳細的解答步驟）。這樣做的好處是可以精確定位問題出在哪個環節。

**第一階段：找出完全健康的題目**

在第一階段，研究團隊采用了三種不同的檢查方法。首先是邀請各個領域的專家來審查題目，就像邀請不同科目的老師來檢查試卷一樣。這些專家會仔細查看每道題的題目描述、答案和解題過程，判斷是否存在問題。

第二種方法是讓多個先進的AI模型來解題。研究團隊讓8個不同的AI模型嘗試回答同一道題目，然后看看它們的答案是否與標準答案一致。如果大部分AI都給出了與標準答案不同的結果，那這道題目就值得懷疑了。這就像是讓多個學霸同時做一道題，如果他們的答案都和參考答案不一樣，那很可能是參考答案有問題。

第三種方法是內部專家的最終判定。研究團隊的專家會綜合前兩種檢查的結果，做出保守的決定。只有當題目描述清晰、答案正確、且沒有發現明顯問題時，題目才能進入"黃金標準"的隊伍。

經過第一階段的嚴格篩選，2500道題目中有641道被認定為完全沒有問題，可以直接使用。這些題目就像是經過嚴格質檢的優質產品，可以放心使用。

**第二階段：搶救有問題的題目**

對于那些在第一階段被發現有問題但還有挽救價值的題目，研究團隊啟動了第二階段的"搶救"工作。這個階段的核心原則是：只修正錯誤，不改變題目要考查的核心能力。就像修理一臺壞了的鐘表，只修復損壞的部件，不改變它的基本功能。

修復工作采用了"雙重保險"的方法。兩個獨立的專家團隊分別對同一道題目提出修復方案，然后再讓內部專家從中選擇最好的方案，或者將兩個方案結合起來。這就像是兩個維修師傅獨立檢查同一臺壞掉的機器，然后選擇最佳的修復方案。

為了確保修復的質量，研究團隊還讓AI模型參與到修復過程中。這些AI模型會嘗試用不同的方法解決修復后的題目，驗證修復是否真的解決了原來的問題。

經過第二階段的努力，又有1170道題目獲得了"重獲新生"。加上第一階段的641道健康題目，總共有1811道題目可以放心使用。

**那些"疑難雜癥"**

然而，還有689道題目讓研究團隊犯了難。這些題目的問題比較復雜，要么涉及有爭議的學術觀點，要么需要超出當前驗證范圍的專業知識，要么存在多種合理的解釋。研究團隊沒有簡單地丟棄這些題目，而是把它們標記為"不確定"狀態，并詳細記錄了每道題目存在的具體問題和需要的專業知識類型。

這就像是醫生遇到了罕見病例，雖然暫時無法確診，但會詳細記錄癥狀和可能的病因，為將來的研究留下寶貴資料。

**錯誤類型大盤點**

在整個檢查過程中，研究團隊發現的錯誤類型可以分為三大類。題目描述方面的錯誤主要包括語義模糊（題目表達不清楚）、知識錯誤（題目中的事實性內容有誤）、信息缺失（解題所需的條件不完整）、理論錯誤（違反了該領域的基本原理）和格式錯誤（數學符號或專業術語使用不當）。

解題過程方面的錯誤則更加豐富，包括推理步驟冗余、循環論證、違反事實、邏輯不一致、方法使用錯誤、過度自信、缺少前提條件、推理陷阱、多解法不一致，以及格式問題等十種類型。

答案方面的錯誤相對簡單，主要是答案不正確、答案不完整、答案表述模糊和格式錯誤四種類型。

有趣的是，研究團隊發現不同學科領域的錯誤模式存在明顯差異。數學和生物醫學題目中，答案錯誤是最主要的問題，占到了錯誤的絕大部分。而在物理、人文社科等領域，更多的問題是題目表述不夠清晰，存在多種理解方式。計算機科學領域的題目則經常出現格式和符號使用錯誤。

**修復效果驗證**

為了驗證修復工作的效果，研究團隊讓七個目前最先進的AI模型分別在原版題目和修復版題目上進行測試。結果令人驚喜：所有AI模型在修復版題目上的表現都有了顯著提升。

具體來說，在完整的題目集上，AI模型的準確率平均提高了7到10個百分點。而在那些原本存在題目描述錯誤或答案錯誤的題目上，AI模型的準確率提升更是達到了30到40個百分點。這就像是給學生提供了正確的教科書后，他們的考試成績大幅提高了。

更有意思的是，研究團隊還發現AI模型的"自信心"與題目質量之間存在密切關系。當遇到有問題的題目時，AI模型往往表現得不夠自信，給出答案時顯得猶豫不決。而在修復后的題目上，AI模型的自信心明顯增強，這說明清晰準確的題目確實能幫助AI更好地發揮能力。

**不同學科的改進情況**

從學科角度來看，物理和生物醫學領域的題目在修復后改進最為明顯。這兩個領域原本的AI準確率相對較低，但在修復后出現了大幅提升。相比之下，化學和計算機科學領域的改進幅度較小，但同樣是積極的。

這種差異反映了不同學科在題目質量方面的特點。有些學科的題目更容易出現事實性錯誤，有些學科則更容易出現表述不清的問題。通過針對性的修復，每個學科的評測質量都得到了相應的改善。

**AI自信心的啟示**

研究中一個特別有趣的發現是AI模型的自信心可以作為識別問題題目的指標。當題目存在問題時，AI模型在回答時往往不夠自信，這反映了題目本身的不確定性。在修復后的題目上，AI模型的自信心普遍增強，說明清晰準確的題目確實能讓AI更好地發揮實力。

這個發現有重要的實際意義。在未來的AI評測中，研究人員可以關注AI模型的自信心表現，以此來識別可能存在問題的題目。當多個AI模型都對某道題目表現出低自信心時，這道題目就值得重新審視了。

**對AI評測的深遠影響**

這項研究的意義遠遠超出了對一套考試題目的修正。它揭示了一個重要問題：當我們用有缺陷的標準來評判AI時，得出的結論可能是不準確的。就像用一把刻度不準的尺子來測量物體，得到的數據自然也不可靠。

研究結果顯示，AI在某些題目上的"錯誤"實際上可能反映的是題目本身的問題，而不是AI能力的不足。這提醒我們，在評判AI能力時，需要確保評測標準本身是可靠和準確的。

此外，這項研究還為如何維護和改進AI評測基準提供了寶貴經驗。研究團隊建立的兩階段驗證和修復流程、詳細的錯誤分類體系，以及保守的質量控制原則，都可以為其他類似的評測基準改進工作提供參考。

**未來展望**

研究團隊將修復后的HLE-Verified數據集完全開源，供全球研究人員使用。他們還提供了詳細的修復記錄和錯誤分類信息，讓其他研究者能夠了解每道題目的具體修改情況。

對于那689道"不確定"狀態的題目，研究團隊也沒有放棄。他們為每道題目提供了詳細的問題描述和所需的專業知識標簽，希望相關領域的專家能夠在未來繼續完善這些題目。這就像是為后續的研究者留下了詳細的"診斷報告"。

說到底，這項研究告訴我們一個簡單而重要的道理：好的評測需要好的題目。就像廚師需要新鮮的食材一樣，準確評判AI能力也需要高質量的測試題目。通過系統性的驗證和修復工作，我們可以讓AI評測變得更加公平、準確和可靠。

這不僅有助于更好地了解當前AI的真實能力水平，也為AI技術的進一步發展指明了方向。當評測標準變得更加準確時，AI的發展也能更好地朝著正確的方向前進。

研究團隊的這次"大掃除"行動，實際上是為整個AI研究社區做了一件非常有意義的基礎工作。雖然這種工作可能不像開發新算法那樣引人注目，但它的價值是長遠而深刻的。就像維護道路和橋梁一樣，維護評測基準也是保障AI研究健康發展的重要基礎設施工作。

對于普通人來說，這項研究的意義在于讓我們對AI能力的判斷更加準確。當我們聽到"某個AI在權威測試中表現如何"的消息時，可以更加相信這些評價的可靠性。而對于AI開發者來說，更準確的評測意味著他們可以更好地了解自己開發的AI系統的真實水平，從而制定更合適的改進策略。

有興趣深入了解技術細節的讀者可以通過論文編號arXiv:2602.13964v2在arXiv平臺查詢完整的研究論文，其中包含了更詳細的方法描述、實驗數據和分析結果。

Q&A

Q1：HLE-Verified是什么？

A：HLE-Verified是阿里巴巴團隊對AI界權威測試"人類最后的考試"進行全面錯誤檢查和修正后的版本。原版2500道題目經過驗證后，有641道完全正確的題目，1170道修復后的題目，以及689道標記為不確定狀態的題目。

Q2：為什么要對人類最后的考試進行修正？

A：因為研究人員發現原版考試中存在不少錯誤，包括題目描述不清、答案錯誤、解題過程有問題等。這些錯誤會影響對AI能力的準確評判，就像用有刻度錯誤的尺子測量物體一樣不可靠。

Q3：修正后AI模型的表現有什么變化？

A：所有測試的AI模型在修正版題目上表現都顯著提升，整體準確率平均提高7-10個百分點，在那些原本有錯誤的題目上準確率更是提高了30-40個百分點，同時AI模型的自信心也明顯增強。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.