![]()
這項來自哈佛大學和斯坦福大學的聯合研究發表于2026年2月,研究團隊開發出了一種全新的"預測性規模定律"方法,能夠像天氣預報一樣準確預測AI模型性能。這項研究發表在arXiv預印本平臺,編號為arXiv:2602.15327v1,為AI開發者和企業提供了一個前所未有的"性能計算器"。
當下,開發一個強大的AI模型就像建造一座摩天大樓,需要投入大量資源,但建造完成前誰也不知道最終效果如何。過去,AI研究者們就像盲人摸象一樣,只能根據經驗和直覺來估算需要多少算力才能達到期望的性能水平。這種不確定性讓許多公司在投資AI項目時心里沒底,就像在黑夜中開車,看不清前方的路況。
哈佛大學和斯坦福大學的研究團隊意識到這個問題的嚴重性,決定開發一套科學的預測系統。他們收集了超過7000個AI模型的性能數據,其中包括5000個來自公開數據庫的模型和2000個他們自己新測試的模型,建立了一個龐大的"AI性能數據庫"。
研究團隊的核心發現可以用一個簡單的比喻來理解:就像烤蛋糕一樣,投入的面粉、雞蛋等原料數量(算力)和最終蛋糕的口感(AI性能)之間存在著可預測的關系。他們發現,AI模型經過后期調優后的最佳性能表現,與訓練時投入的算力之間呈現出一種S形曲線關系,就像植物的生長曲線一樣,開始緩慢增長,然后快速提升,最后趨于平緩。
一、預測性規模定律:AI性能的"天氣預報"系統
傳統的AI規模定律就像只能告訴你"多吃飯能長高"這樣的粗略信息,而這項研究開發的預測性規模定律則像精準的營養師,能告訴你"吃多少特定食物能長到多高"。研究團隊將這個問題重新定義:給定一定的訓練算力預算,經過現代后訓練技術優化后,模型在特定任務上能達到的最高性能是多少。
這個預測系統的工作原理就像制作一張詳細的地形圖。研究團隊不是簡單地看模型的平均表現,而是專門研究那些"山峰"——在相同算力條件下表現最好的模型。他們使用了一種叫做"分位數回歸"的統計方法,這就像在茫茫數據海洋中尋找那些表現最優秀的"明星學生",然后分析這些明星學生的共同特征。
具體來說,他們關注的是第98百分位數的模型性能,也就是在100個同等算力的模型中表現最好的前2個。這樣做的好處是能夠濾除那些因為訓練不當或運氣不好而表現糟糕的模型,專注于研究在特定算力條件下真正能夠達到的最佳性能水平。
研究團隊開發的數學模型采用了S形(sigmoid)函數來描述算力與性能之間的關系。這個函數的形狀就像一個傾斜的S,完美地捕捉了AI模型性能增長的三個階段:起步期(性能提升緩慢)、爆發期(性能快速提升)和成熟期(性能增長趨于平緩)。這種S形關系在自然界和技術發展中都很常見,就像新技術的普及曲線或者人口增長曲線一樣。
為了驗證這個預測系統的準確性,研究團隊進行了一個巧妙的時間旅行實驗。他們用早期的模型數據來訓練預測系統,然后用這個系統預測后來發布的模型性能,結果發現預測準確率高得驚人。這就像用2020年的數據訓練一個股票預測模型,然后成功預測了2021年的股票走勢一樣令人印象深刻。
二、不同任務的"成長曲線"大不相同
通過分析大量數據,研究團隊發現了一個有趣的現象:不同類型的AI任務就像不同品種的植物,它們的"成長曲線"截然不同。有些任務就像快速生長的向日葵,在算力增加時性能提升很快;有些任務則像緩慢生長的橡樹,需要大量算力投入才能看到明顯改善。
在知識密集型任務上,比如回答百科全書式的問題,大模型就像博學的教授,確實比小模型表現更好。研究團隊測試的MMLU-Pro基準測試結果顯示,算力增加帶來的性能提升非常穩定和可預測。這類任務就像在比拼誰的圖書館藏書更多,模型規模越大,存儲的知識越多,回答問題的能力自然越強。
然而,在數學推理任務上,情況就完全不同了。研究團隊發現,數學推理能力的"天花板"一直在不斷提升。過去幾年里,隨著新的訓練技術和算法的出現,同樣算力條件下的數學推理性能一直在突破新高度。這就像體育比賽中的世界記錄一樣,隨著訓練方法的改進和新技術的應用,人類的極限一直在被刷新。
更有趣的是,研究團隊發現了一個"小模型逆襲"的現象。在某些推理密集型任務上,經過精心調優的小模型有時能夠達到甚至超越大模型的性能水平。這就像一個技藝精湛的小餐廳廚師,雖然廚房設備不如五星級酒店豪華,但憑借精湛的技藝和創新的菜譜,做出的菜品同樣令人贊嘆。
研究結果還揭示了一個重要趨勢:知識型能力和推理型能力的發展軌跡正在分化。知識型任務的性能提升主要依賴于模型規模的擴大,就像建造更大的圖書館來存儲更多書籍。而推理型任務的性能提升更多依賴于算法和訓練方法的創新,就像開發更好的思維方法來解決復雜問題。
這種分化現象對AI發展具有重要意義。它意味著未來的AI發展可能會出現專業化趨勢:一些模型專門優化知識存儲和檢索能力,成為"AI圖書管理員";另一些模型則專注于推理和分析能力,成為"AI偵探"。這種專業化分工可能會帶來更高效的AI應用,就像現代社會的職業分工一樣。
三、時間的魔力:AI能力邊界如何演變
研究團隊進行了一個跨時間的追蹤研究,就像考古學家研究不同歷史時期的文物變化一樣,他們分析了不同時間段發布的AI模型性能變化。這個研究揭示了一個令人驚訝的發現:大多數AI任務的性能"天花板"在時間推移中保持相對穩定,但數學推理是個例外。
在語言理解、常識推理、科學問答等傳統任務上,研究團隊發現性能邊界就像一條穩定的地平線,雖然會有小幅波動,但整體趨勢保持穩定。這意味著這些任務的難度本質沒有發生根本性變化,只是我們在逐步接近這些任務的理論極限。就像百米賽跑的世界紀錄一樣,雖然還在緩慢提升,但提升幅度越來越小。
然而,數學推理任務展現出了完全不同的畫面。研究團隊發現,數學推理的性能邊界就像不斷上升的熱氣球,每年都在突破新的高度。這種持續上升的趨勢表明,數學推理可能是AI領域中最具潛力的發展方向之一。每當研究者們以為已經接近數學推理的極限時,新的突破總是如期而至。
這種時間演變的差異性反映了AI技術發展的非均勻性。有些能力領域就像已經開發成熟的城市,發展空間有限;而有些能力領域則像正在開發的新區,充滿無限可能。數學推理之所以能夠持續突破,可能因為它更依賴于算法創新而非簡單的規模擴大。
研究團隊還發現了一個有趣的模式:突破往往不是漸進式的,而是跳躍式的。某個新的訓練技術或模型架構的出現,會突然將整個領域的性能水平推上一個新臺階。這就像科技發展中的范式轉換,從蒸汽機到內燃機,從膠片相機到數碼相機,每一次技術革命都會帶來性能的大幅躍升。
這種時間演變分析對AI投資和研發策略具有重要指導意義。對于那些性能邊界相對穩定的任務,投資者和研發團隊可以相對準確地預測投入產出比,制定合理的預期。而對于像數學推理這樣持續突破的領域,則需要保持更大的耐心和更長遠的投資視角。
四、高效評估:用20%的預算預測100%的結果
面對日益高昂的AI模型評估成本,研究團隊開發了一個"聰明的抽樣策略",就像民調機構不需要詢問全國每一個人就能準確預測選舉結果一樣。這個策略能夠僅用20%的評估預算就準確預測出使用全部預算才能得到的結果。
這個高效評估方法的核心思想借鑒了統計學中的最優實驗設計理論。就像一個經驗豐富的廚師品嘗湯的味道時,不需要喝完整鍋湯,只需要在合適的位置取幾勺樣品就能判斷整鍋湯的口味。研究團隊的算法能夠智能地選擇最具代表性的模型進行測試,從而以最小的成本獲得最大的信息量。
這個算法的工作原理可以用"均衡覆蓋策略"來理解。想象你要了解一座城市的整體情況,最聰明的方法不是隨機選擇街道,而是確保在城市的每個區域都選擇一些代表性的街道。算法會確保在不同的算力水平范圍內都選擇足夠的代表性模型,這樣就能保證預測結果的準確性和可靠性。
在實際測試中,這個高效評估方法在多個任務上都表現出色。在GPQA和MUSR等任務上,使用僅5%的評估預算就能得到與全量評估幾乎相同的結果。這種效率提升對于資源有限的研究團隊或企業來說具有巨大價值,就像找到了一條通往目標的高速公路,能夠大大縮短到達時間。
更重要的是,這個方法不僅節省了計算資源,還保持了預測的準確性。算法在選擇測試樣本時會考慮兩個關鍵因素:信息價值和成本效益。信息價值高的模型能夠提供更多關于性能邊界的線索,而成本效益則確保我們不會在低價值的測試上浪費資源。
這種高效評估策略的成功實現,為AI領域帶來了一個重要的方法學貢獻。它證明了在資源約束條件下,通過智能的實驗設計仍然可以獲得可靠的科學結論。這種思路可能會啟發更多類似的創新,幫助研究者們在有限的資源條件下開展更廣泛、更深入的研究。
五、實戰驗證:新模型數據的"試金石"測試
為了驗證他們開發的預測系統的實用性,研究團隊進行了一個"真槍實彈"的測試。他們收集了2400個全新的開源模型,這些模型都是在公開排行榜停止更新后發布的,包括最新的Qwen3、Gemma-3、GPT-OSS等知名模型系列。這就像用最新的考試題目來測試一個預測學生成績的系統是否仍然準確。
測試結果令人鼓舞。在大多數任務上,研究團隊之前建立的性能邊界預測系統依然能夠準確地預測這些新模型的表現上限。新發布的模型就像按照預期劇本表演的演員,它們的性能表現幾乎完全落在了預測邊界之內。這種預測準確性證明了該系統具有良好的泛化能力和實用價值。
然而,數學推理任務再次展現了它的特殊性。在MATH Lvl 5測試中,一些新發布的模型突破了之前預測的性能邊界,達到了更高的分數。這種突破并不是系統失效的標志,而恰恰驗證了之前關于數學推理能力持續進步的發現。就像體育競技中總有運動員不斷刷新世界記錄一樣,數學推理領域的AI模型也在不斷超越前人。
研究團隊特別關注了那些基于全新基礎模型開發的AI系統。這些模型就像全新品種的植物,之前沒有相關的生長數據可以參考。測試結果顯示,即使是這些全新的模型架構,它們的性能表現仍然大致符合預測框架的規律。這說明預測系統捕捉到的可能是AI發展的某種深層規律,而不僅僅是特定模型系列的特殊現象。
這次實戰驗證還揭示了一個有趣的模式:不同研發團隊開發的模型在性能上呈現出明顯的"聚類"現象。來自同一家公司或使用相似技術路線的模型,它們的性能往往聚集在性能空間的特定區域。這種聚類現象反映了不同技術路線和開發理念對最終性能的影響,就像不同園藝師培育的花朵會呈現出各自獨特的風格一樣。
驗證過程中最有價值的發現是預測系統的魯棒性。即使面對完全陌生的新模型和新技術,系統仍能提供可靠的性能范圍預測。這種魯棒性使得該系統不僅具有科研價值,更具備了實際應用的潛力,為AI開發者提供了一個可靠的性能評估工具。
六、深度案例分析:飽和現象與數據污染的偵探工作
研究團隊像偵探一樣深入調查了兩個困擾AI領域的重要問題:某些任務上的性能飽和現象和訓練數據污染問題。這兩個問題就像隱藏在AI發展過程中的暗礁,需要仔細識別和規避。
關于飽和現象的調查揭示了一個引人深思的發現。研究團隊發現,不同任務的飽和表現截然不同,就像不同的池塘有著不同的深度。知識密集型任務,比如MMLU-Pro,表現出相對較少的飽和跡象,大模型依然比小模型表現更好。這種情況就像一個永遠填不滿的知識倉庫,總是可以通過增加容量來提升性能。
相比之下,純推理任務則展現出更有趣的飽和模式。在數學推理任務上,研究團隊觀察到一個"小模型逆襲"的現象。經過精心調優的13B參數模型在某些情況下能夠達到甚至超越大型模型的性能。這就像一個訓練有素的業余選手在特定項目上擊敗了職業運動員,證明了技巧和策略有時比純粹的資源投入更重要。
這種分化現象為AI發展指明了兩條不同的道路。對于知識密集型應用,繼續擴大模型規模仍然是有效的策略,就像建造更大的圖書館來存儲更多信息。而對于推理密集型應用,算法創新和訓練技術的改進可能比簡單的規模擴大更有價值。
在數據污染問題的調查中,研究團隊采用了一種巧妙的"交叉驗證"方法。他們假設如果某個模型在特定測試上的表現異常好,可能是因為訓練數據中包含了測試題目的答案。為了驗證這種可能性,他們比較了模型在不同數學測試上的表現模式,尋找異常的性能差異。
通過分析MATH-500和AIME-2025兩個數學測試的結果,研究團隊發現了一個令人放心的結論:沒有明顯證據表明存在大規模的數據污染問題。模型在這兩個測試上的表現呈現出一致的相關性,就像一個學生在不同數學考試中的成績通常會保持一定的關聯性。這種一致性表明模型的數學能力是真實的,而不是通過記住答案獲得的。
然而,研究團隊也保持了應有的謹慎。他們指出,雖然沒有發現明顯的系統性污染證據,但輕微的污染效應仍然可能存在。這就像在清澈的湖水中可能仍有肉眼看不見的微小雜質。這種謹慎態度體現了科學研究應有的嚴謹性。
七、前沿模型的性能探索
研究團隊還將目光投向了那些最前沿的閉源AI模型,這些模型就像科技公司的"秘密武器",性能強大但內部結構神秘。通過分析Epoch AI等機構提供的評估數據,研究團隊驗證了他們的S形預測模型在最先進的AI系統上同樣適用。
在GPQA Diamond這樣的高難度科學問答任務上,前沿模型的表現完美地符合了S形增長曲線。隨著訓練算力的增加,模型性能呈現出典型的三階段發展:初期緩慢提升、中期快速增長、后期趨于平緩。這種一致性證明了預測框架的普遍適用性,不僅適用于開源模型,也適用于技術最先進的商業模型。
更有趣的是,研究團隊發現前沿模型在不同任務上的表現模式與開源模型高度相似。這說明無論是學術機構還是商業公司,在AI發展過程中都遵循著相似的基本規律。就像不同的建筑師設計房屋時都要遵循基本的物理定律一樣,不同的AI開發團隊也在不知不覺中遵循著相同的性能增長規律。
通過與開源模型的對比分析,研究團隊還發現了一個有價值的洞察:前沿閉源模型的主要優勢不在于突破性能邊界,而在于更穩定地接近理論極限。開源模型的性能往往呈現較大的波動性,就像業余運動員的發揮不夠穩定;而前沿模型則更像訓練有素的專業選手,能夠更可靠地發揮出接近最佳水平的性能。
這種分析對于理解AI技術的商業化進程具有重要意義。它表明,商業AI公司的核心競爭優勢可能不在于發現全新的性能邊界,而在于通過更精細的工程優化和更大規模的資源投入,更可靠地實現接近理論極限的性能。
結論
說到底,這項來自哈佛大學和斯坦福大學的研究為我們繪制了一張AI發展的"導航地圖"。就像古代探險家繪制海圖幫助后來的航海者避免暗礁一樣,這個預測性規模定律為AI開發者提供了一個可靠的性能預測工具。
這個研究最令人興奮的地方在于它的實用性。過去,開發AI模型就像在黑暗中摸索,投入大量資源卻不知道能得到什么結果。現在,開發者們終于有了一個"性能計算器",可以在項目開始前就相當準確地預估投入產出比。這對于資源有限的初創公司和研究機構來說特別有價值。
研究揭示的不同任務類型的差異化發展趨勢也為未來的AI發展指明了方向。知識密集型任務告訴我們,在某些領域,"大力出奇跡"的策略仍然有效,更大的模型確實能帶來更好的性能。而推理密集型任務則提醒我們,有時候精巧的算法比蠻力更重要,小而美的解決方案可能比龐大復雜的系統更有效。
特別值得關注的是數學推理能力的持續突破。這個發現讓我們對AI的未來充滿期待。如果AI在最需要邏輯思維的數學領域都能持續進步,那么它在其他需要推理的領域也很可能會帶來更多驚喜。這可能預示著我們正站在AI能力大幅躍升的門檻上。
這項研究的高效評估方法也為整個AI領域帶來了福音。在算力成本日益高昂的今天,能夠用20%的預算達到全量評估效果的方法具有巨大的經濟價值。這不僅能降低研究成本,還能讓更多資源有限的團隊參與到AI研究中來,促進整個領域的多元化發展。
從更宏觀的角度來看,這個預測系統的成功表明AI發展并非完全無序,而是存在可以被理解和預測的規律。這種可預測性為AI的規劃化發展提供了可能,讓我們能夠更理性地制定發展策略,避免盲目投資和資源浪費。
當然,這個預測系統也提醒我們保持適度的謙遜。數學推理領域不斷涌現的突破告訴我們,AI的潛力可能遠超我們目前的想象。今天看似不可逾越的性能邊界,明天可能就會被新的技術突破所打破。
歸根結底,這項研究為我們提供了一個觀察AI發展的新視角,一個更加科學和系統的方法來理解和預測AI性能。對于有興趣深入了解技術細節的讀者,可以通過arXiv:2602.15327v1查詢完整論文。隨著更多類似研究的開展,我們對AI發展規律的理解將會越來越深入,這將幫助我們更好地駕馭這項正在改變世界的技術。
Q&A
Q1:預測性規模定律與傳統AI規模定律有什么區別?
A:傳統規模定律只能告訴我們算力增加會帶來性能提升的大致趨勢,就像"多吃飯能長高"這樣的粗略信息。而預測性規模定律則像精準的營養師,能夠準確預測投入特定算力后,經過后期優化的AI模型在具體任務上能達到的最高性能水平。
Q2:為什么數學推理任務的性能邊界一直在提升?
A:數學推理任務更依賴于算法創新而非簡單的規模擴大。隨著新的訓練技術、推理方法和模型架構不斷出現,數學推理的性能邊界就像不斷上升的熱氣球,每年都在突破新高度,這反映了這個領域巨大的發展潛力。
Q3:這個預測系統對普通AI開發者有什么實用價值?
A:這個系統就像AI開發的"性能計算器",開發者可以在項目開始前就準確預估需要投入多少算力才能達到目標性能。特別是研究團隊開發的高效評估方法,只用20%的測試預算就能預測全量結果,大大降低了評估成本,讓資源有限的團隊也能進行可靠的性能預測。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.