![]()
11月27日,DeepSeek的DeepSeekMath-V2模型,在IMO2025測試中拿到了金牌水平,分數比人類歷史最高分還高。
更有意思的是,這模型還是目前唯一開源開放權重的IMO金牌級模型。
能在數學推理這種"燒腦"領域超過人類頂尖水平,背后肯定不是拍腦袋搞出來的,而是攢了一整年的技術"大招"集中爆發。
今天咱們就來聊聊,這個讓AI在數學競賽里"封神"的模型,到底藏著哪些不為人知的技術小心思。
![]()
要搞懂DeepSeekMath-V2為啥這么強,得先看看它的"前輩們"都練了哪些"內功"。
今年2月,DeepSeek發過一篇關于注意力機制的論文,叫NativeSparseAttention(NSA)。
傳統的注意力機制就像撒網捕魚,不管有用沒用的信息全兜住,序列越長計算量越夸張,簡直是"吃力不討好"。
NSA就聰明多了,搞了個"動態分層稀疏",簡單說就是先粗篩一遍,再精挑細選,最后用滑動窗口盯著最近的信息。
![]()
你猜怎么著?在64k長度的序列上,解碼速度直接快了11倍多,前向傳播快9倍,反向傳播快6倍。
關鍵是速度快了,效果還沒降,反而略有提升。
袁境陽團隊靠這個拿了ACL2025最佳論文,他們的目標更野,要把上下文長度擴展到100萬。
光處理得快還不夠,怎么把這些信息存下來也是個大問題。
這就輪到10月發布的OCR技術登場了,傳統存長上下文就像往U盤里硬塞文件,塞多了要么卡要么丟。
DeepSeek的思路有點意思,把文本渲染成圖像,用視覺encoder壓縮。
![]()
實驗結果挺驚喜,壓縮10倍的時候,解碼精度還能保持97%,就算壓到20倍,也有60%左右。
MITTechnologyReview評價這技術"可能找到了改善AI記憶的新方法",確實沒夸張。
更絕的是它模擬人類記憶衰減的設計,歷史圖像分辨率慢慢降低,就像咱們記東西,最近的事記得清,越老的事越模糊。
這種"聰明的忘記"比一股腦全記住實用多了,這思路比單純堆硬件存數據要巧多了。
除了處理和存儲上下文,DeepSeek在多模態能力上也沒閑著。
今年1月底,他們發布了Janus-Pro多模態模型,正好趕上R1引發全球關注那周。
這模型厲害在哪兒?能同時看懂圖像和生成圖像,就像既能看畫又能畫畫的全能選手。
![]()
傳統多模態模型經常"精神分裂",理解圖像要細節,生成圖像要創意,倆需求打架。
Janus-Pro搞了個"解耦視覺編碼",兩條路各管一攤,共用一個Transformer主干,這下不打架了。
這技術不光解決了當下的問題,更重要的是驗證了"一個大腦干多種活"的可行性,給未來通用智能體打了個好底子。
這些"內功"練好了,終于在數學推理這個"硬仗"上派上了用場,這就是DeepSeekMath-V2的故事。
![]()
現在主流數學推理模型有點走偏了,被訓練得只想著答對題,不管推理過程對不對。
就像有些學生考試靠蒙,答案對了但思路全錯,老師一追問就露餡。
用強化學習死磕最終答案正確率,結果模型寫的推理過程可能漏洞比篩子還多。
這種模式對付有標準答案的題還行,遇到開放問題就抓瞎。
DeepSeekMath-V2換了個思路,搞了個"生成器-驗證器"雙模型架構。
你可以理解成,生成器負責寫證明過程,就像學生做題,驗證器負責當老師,批改這個證明對不對、嚴不嚴謹,然后把意見反饋給生成器。
這樣一來,生成器不光要答對,還得寫清楚"為什么對"。
![]()
不過這里有個難題,生成器寫的證明有時候太繞,驗證器看不懂,這就是"生成-驗證差距"。
DeepSeek的辦法是"動態擴展驗證計算",遇到難驗證的證明,就多花點計算資源仔細看,實在看不懂的,就自動標出來當成新訓練數據,讓驗證器慢慢學。
就像老師遇到學生寫的怪答案,先多看幾遍,實在不懂就記下來當教學案例,下次就會了。
這種自我驗證機制的價值可不小,首先,模型能自己發現推理問題并修正,不用老等著人類給標準答案。
以前模型學數學像照著答案抄作業,現在能自己檢查作業了。
![]()
擺脫了對外部標準答案的依賴,這對解決開放問題太重要了,現實世界里很多問題根本沒有標準答案,總不能一直等著人來教吧?這步棋走得比單純提高正確率有遠見多了。
這些技術拼到一起,你會發現DeepSeek不是在瞎搞。
NSA解決長上下文處理效率,OCR解決存儲效率,倆技術湊一塊,指向的是百萬級甚至更長的上下文窗口,Janus-Pro的多模態能力是通用智能體的基礎設施。
各項技術不是孤立的,而是一套有內在聯系的組合拳。
未來的大模型會往哪兒走?在線強化學習肯定是個重要方向。
簡單說就是模型能邊用邊學,實時跟環境互動、獲取反饋、更新策略。
![]()
R1靠純強化學習突破推理能力,R1-Zero證明了用固定習題就能練出強模型,這些都在說明"邊做邊學"比"一次性喂飽"更高效。
DeepSeek的各項技術其實都在為這個方向鋪路,自我驗證機制讓模型能自己找錯,動態擴展計算讓模型能根據問題難度調整努力程度,多模態能力讓模型能跟更復雜的環境互動。
現在的DeepSeekMath-V2已經邁出了第一步,未來要是把這些技術全整合好,再加上開源這個大優勢,說不定真能讓AI在通用智能的路上走得更穩。
![]()
畢竟,聰明的AI不光要會做題,更要學會怎么自己變得更聰明,這大概就是DeepSeek想告訴我們的事。
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.