剛剛，DeepSeek 再次創(chuàng)造歷史，一出手就是數(shù)學(xué)奧賽金牌水平

2025-11-27 21:48:35　來源: AppSo

廣東舉報

分享至

當(dāng) Gemini 和 Claude 接連炸場時，不少網(wǎng)友都在追問：DeepSeek 去哪兒了？現(xiàn)在，這條熟悉的「鯨魚」終于回來了。

就在剛剛，DeepSeek 在 HuggingFace 發(fā)布并開源了擁有 685B 參數(shù)的全新數(shù)學(xué)推理模型 DeepSeekMath-V2。

據(jù)介紹，過去一年里，大型語言模型在數(shù)學(xué)推理領(lǐng)域突飛猛進，通過強化學(xué)習(xí)訓(xùn)練，這些模型在 AIME、HMMT 等數(shù)學(xué)競賽中的表現(xiàn)從原本差強人意迅速提升到接近飽和的水平。

然而，這種進步背后隱藏著一個根本問題：現(xiàn)有方法只看答案對不對，不管推理過程是否嚴(yán)謹(jǐn)。正確答案不等于正確的推理過程，而數(shù)學(xué)證明恰恰需要嚴(yán)密的邏輯推導(dǎo)。

DeepSeek 團隊的突破在于找到了一個新方向——讓 AI 不僅會做題，還會檢查自己的推理過程是否嚴(yán)謹(jǐn)。

具體做法是先訓(xùn)練一個「評判員」來找出證明過程中的問題，再讓「答題者」根據(jù)這些反饋不斷改進。模型會反復(fù)修改自己的證明，直到找不出毛病為止，而不是靠碰運氣得出答案。

這種自我驗證的能力意味著什么？

盡管目前還處于早期階段，但如果這條路走通了，未來 AI 可能真的具備獨立驗證數(shù)學(xué)猜想、甚至推進開放問題研究的能力。

論文顯示，DeepSeekMath-V2 基于 DeepSeek-V3.2-Exp-Base 開發(fā)，在 IMO 2025 和 CMO 2024 等國際數(shù)學(xué)奧林匹克競賽中達到了金牌水平，也是創(chuàng)造歷史地成為首個 IMO 金獎級別的開源模型；在美國普特南數(shù)學(xué)競賽中也取得了 118 分的高分，滿分為 120 分，而人類參賽者的最高分僅為 90 分。

該模型已根據(jù) Apache 2.0 協(xié)議開源發(fā)布。

研究團隊表示，這些成果表明讓 AI 學(xué)會「自己檢查自己」是一條可行的路徑，有望推動數(shù)學(xué) AI 系統(tǒng)的進一步發(fā)展。哪怕是在 AI 數(shù)學(xué)推理的競賽中，DeepSeek 也用一個超越人類的成績證明了自己依然在牌桌上。

附上相關(guān)閱讀地址：

新模型地址:
https://huggingface.co/deepseek-ai/DeepSeek-Math-V2
新模型技術(shù)論文:
https://github.com/deepseek-ai/DeepSeek-Math-V2/blob/main/DeepSeekMath_V2.pdf

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.