當(dāng) Gemini 和 Claude 接連炸場時,不少網(wǎng)友都在追問:DeepSeek 去哪兒了?現(xiàn)在,這條熟悉的「鯨魚」終于回來了。
就在剛剛,DeepSeek 在 HuggingFace 發(fā)布并開源了擁有 685B 參數(shù)的全新數(shù)學(xué)推理模型 DeepSeekMath-V2。
據(jù)介紹,過去一年里,大型語言模型在數(shù)學(xué)推理領(lǐng)域突飛猛進,通過強化學(xué)習(xí)訓(xùn)練,這些模型在 AIME、HMMT 等數(shù)學(xué)競賽中的表現(xiàn)從原本差強人意迅速提升到接近飽和的水平。
然而,這種進步背后隱藏著一個根本問題:現(xiàn)有方法只看答案對不對,不管推理過程是否嚴(yán)謹(jǐn)。正確答案不等于正確的推理過程,而數(shù)學(xué)證明恰恰需要嚴(yán)密的邏輯推導(dǎo)。
DeepSeek 團隊的突破在于找到了一個新方向——讓 AI 不僅會做題,還會檢查自己的推理過程是否嚴(yán)謹(jǐn)。
具體做法是先訓(xùn)練一個「評判員」來找出證明過程中的問題,再讓「答題者」根據(jù)這些反饋不斷改進。模型會反復(fù)修改自己的證明,直到找不出毛病為止,而不是靠碰運氣得出答案。
這種自我驗證的能力意味著什么?
盡管目前還處于早期階段,但如果這條路走通了,未來 AI 可能真的具備獨立驗證數(shù)學(xué)猜想、甚至推進開放問題研究的能力。
論文顯示,DeepSeekMath-V2 基于 DeepSeek-V3.2-Exp-Base 開發(fā),在 IMO 2025 和 CMO 2024 等國際數(shù)學(xué)奧林匹克競賽中達到了金牌水平,也是創(chuàng)造歷史地成為首個 IMO 金獎級別的開源模型;在美國普特南數(shù)學(xué)競賽中也取得了 118 分的高分,滿分為 120 分,而人類參賽者的最高分僅為 90 分。
該模型已根據(jù) Apache 2.0 協(xié)議開源發(fā)布。
研究團隊表示,這些成果表明讓 AI 學(xué)會「自己檢查自己」是一條可行的路徑,有望推動數(shù)學(xué) AI 系統(tǒng)的進一步發(fā)展。哪怕是在 AI 數(shù)學(xué)推理的競賽中,DeepSeek 也用一個超越人類的成績證明了自己依然在牌桌上。
附上相關(guān)閱讀地址:
新模型地址:
https://huggingface.co/deepseek-ai/DeepSeek-Math-V2
新模型技術(shù)論文:
https://github.com/deepseek-ai/DeepSeek-Math-V2/blob/main/DeepSeekMath_V2.pdf
![]()
![]()
![]()
![]()
![]()
![]()
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.