網易首頁 > 網易號 > 正文申請入駐

IMO金牌開源了！DeepSeek硬剛谷歌GPT-5

2025-11-28 15:10:55　來源: 魏家東

北京舉報

分享至

當國際數學奧林匹克競賽（IMO）的金牌不再專屬人類頂尖大腦，當AI能像數學家一樣嚴謹推導、自我糾錯，人工智能的進化迎來了新的里程碑。

2025年11月，中國團隊DeepSeek發布的DeepSeekMath-V2模型，不僅以破解IMO 2025中5道難題的成績拿下金牌，更顛覆性地開創了"自驗證"數學推理框架。作為全球首款開源的IMO金牌模型，它不僅在普特南競賽中以118分（滿分120）超越人類最高分，更揭示了AI從"模仿說話"到"模仿思考"的關鍵一躍——學會自我反思，或許是通往通用人工智能（AGI）的必經之路。

一、從"忽悠大師"到"嚴謹學者"：AI數學推理的范式革命

過去，AI解數學題就像"猜答案"。傳統訓練方法以"最終結果是否正確"為唯一標準，在簡單計算題中屢試不爽，但到了IMO這種需要嚴謹證明的賽場，就徹底露了餡。此前的AI常化身"忽悠大師"，用一堆看似專業的數學黑話堆砌出漏洞百出的證明，卻能蒙對最終結論。這種"重結果輕過程"的模式，讓AI在真正的數學推理面前束手無策。

DeepSeekMath-V2的出現打破了這一僵局。它將訓練核心從"獎勵正確答案"轉向"獎勵嚴謹過程"，通過一套獨創的自驗證機制，讓AI學會像人類一樣"自我找茬"。在北京某重點中學的測試中，一位數學教師驚嘆："這道幾何題的輔助線思路，AI講得比我還清楚，甚至標注了為何選SAS判定而非ASA的思考過程。"

二、三位一體的"左右互搏術"：自驗證機制的核心密碼

DeepSeekMath-V2的秘密武器，是在AI大腦中構建了三個各司其職又相互制衡的角色，形成完美的強化學習閉環。

1. 做題家（生成器）：誠實的解題者

與傳統模型不同，這個"做題家"不僅要寫出證明過程，還要主動標注"這步可能存在邏輯跳躍"等自我懷疑。研究團隊設計的獎勵機制讓"誠實認錯"比"硬撐正確"更有利——只有準確識別自身推理嚴謹度的證明，才能獲得最高獎勵。這種設計倒逼模型在最終輸出前，盡可能修正漏洞。

2. 鐵面判官（驗證器）：嚴謹的閱卷者

這個專門訓練的評分模型不看答案，只盯著推理過程挑刺。它按0、0.5、1三個等級打分：1分代表論證完整嚴謹，0.5分是思路正確但細節有缺，0分則意味著存在致命邏輯錯誤。其訓練數據來自17K道競賽題及多輪迭代生成的證明，確保具備專業評審能力。

3. 審計員（元驗證器）：判官的監督者

為防止"判官"瞎判，研究團隊引入"元驗證"機制。它會檢查兩個關鍵問題：驗證器指出的漏洞是否真實存在？打分是否符合評分標準？通過這種監督，驗證分析的質量分數從0.85提升至0.96，大幅降低誤判風險。

這三者形成奇妙的"左右互搏"：驗證器的評分推動生成器優化，生成器的高難度證明反過來訓練驗證器，元驗證器則保障系統可信度。在最后兩輪訓練中，這套系統甚至實現了全自動標注，機器生成的標簽與人類專家判斷高度一致。

三、巔峰對決：開源黑馬與閉源巨頭的較量

在IMO金牌俱樂部中，DeepSeekMath-V2并非孤軍奮戰。谷歌DeepMind的Gemini Deep Think同樣達到金牌水平，但兩者的路徑截然不同。

谷歌像擁有無盡資源的貴族，在高級基準測試（IMO-ProofBench Advanced）中以65.7%的得分略勝一籌；而DeepSeek則是半路殺出的天才少年，在基礎測試集（ProofBench Basic）中以99%的高分碾壓Gemini的89%。更關鍵的是，DeepSeek選擇開源——模型權重和訓練方法已同步至GitHub和Hugging Face，任何研究者都能復現這一金牌水平的推理系統。

在與GPT-5、Gemini 2.5-Pro的直接對抗中，DeepSeekMath-V2展現出統治級優勢：幾何得分幾乎是Gemini的三倍，代數、數論與組合問題也穩居第一梯隊。即使不允許"多想"，其"第一直覺"解題能力也遠超同類模型。

四、超越競賽：AI反思能力的現實意義

DeepSeekMath-V2的價值遠不止于競賽成績。在普特南競賽中，它通過"64候選證明+64次驗證"的極端嚴苛策略拿下118分，這種"千錘百煉"的方法為科研輔助、工程計算等領域提供了新范式——在復雜工程優化中，嚴謹的推理過程能大幅降低誤差風險。

教育領域更是迎來變革。利用模型生成的多解法素材，教師設計分層教案的時間從4小時縮短至1小時。對于基礎薄弱學生，詳細推導能幫他們理解邏輯；對于優等生，拓展思路能激發創新。正如教育專家所言，AI不會替代教師，但能讓教師從"步驟灌輸者"轉型為"思維引導者"。

當然，模型仍有局限：面對高度直覺性的構造題時可能陷入僵局，非標準題型的驗證準確性也需提升。但DeepSeek團隊的探索證明，"可驗證的數學推理"是一條可行路徑。

結語：反思力——AI進化的下一個里程碑

DeepSeekMath-V2的突破，本質上是讓AI擁有了"推翻自己的勇氣"。當模型能在輸出前說"這看起來不對，我再算一遍"時，它就超越了單純的工具屬性，開始逼近人類思考的核心——反思。在通往AGI的道路上，算力堆砌或許能帶來短期突破，但自驗證所代表的"過程嚴謹性"，才是讓AI真正可靠、可控的關鍵。

開源的選擇更讓這場突破具有普惠意義。就像當年Linux推動軟件行業變革，DeepSeekMath-V2打開的不僅是數學推理的黑箱，更是全球研究者共同探索通用人工智能的大門。當AI學會自我反思，一個更智能、更可靠的人機協同時代，已悄然拉開序幕。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.