超越Scaling Law，2026年我們需要什么樣的AI研究？

2026-01-30 11:20:05　來源: 四木相對論

北京舉報

分享至

過去一年，AI 產(chǎn)品遍地，企業(yè)間交鋒白熱化，資本對 AI 的下注同樣沒有放緩。

但熱潮下，整個行業(yè)暗藏著一絲難言的失望氣息：行業(yè)表面迭代飛速，各產(chǎn)品靠堆疊功能快速籠絡(luò)用戶，模型真正的智能提升卻相對有限。

很多跡象都在指向同一個判斷：2026年，我們需要關(guān)注 AI 基礎(chǔ)創(chuàng)新，關(guān)注那些真正能提升模型性能的工作。

一些頂尖 AI 研究者已經(jīng)開始明確呼吁。去年年末，自立門戶的前 OpenAI 首席科學(xué)家 Ilya Sutskever 在接受采訪時說：2020 - 2025 年是規(guī)模化時代。而 2026 年，行業(yè)將開始回歸研究時代。

近期，騰訊新任“AI 掌門人”姚順雨和阿里 Qwen 技術(shù)負(fù)責(zé)人林俊旸同臺，同樣強(qiáng)調(diào) AI 需要底層創(chuàng)新，期待資源投入下一代研究中。

那么，2026 年到底有什么真正值得關(guān)注的 AI 研究方向？

針對這個話題，「四木相對論」邀請到一位 95 后 AI 研究者。他曾在八家海內(nèi)外 AI Startups / 大廠 / 科研機(jī)構(gòu)深度參與模型訓(xùn)練。同時，他也常年參與前沿 AI Research 研究。我們結(jié)合他的觀察，梳理出 2025 年十大 AI 研究現(xiàn)狀，和 2026 年十大 AI 研究趨勢。

希望能為部分關(guān)心 AI 研究進(jìn)展的朋友，帶來些許參考。*文末附有全文速覽版

十大AI研究現(xiàn)狀

在這篇文章的第一部分，我們先關(guān)注已經(jīng)發(fā)生的重要 AI 研究進(jìn)展，總結(jié)出 AI 研究現(xiàn)狀，具體包括 Scaling Law 、RL 環(huán)境、持續(xù)學(xué)習(xí)等方向。

過去幾年，Scaling Law 幾乎統(tǒng)治了整個 AI 界的認(rèn)知。但現(xiàn)在的信號已經(jīng)很明確：那個單純靠“堆參數(shù)、堆算力”就能換來性能暴漲的時代，接近尾聲。

如果說半年之前這件事還略有爭議，那現(xiàn)在我們必須直面這個事實(shí)。Ilya Sutskever 也直言，今天 AI 的瓶頸是想法而非算力。

這引出我們今天討論的主題 —— 在其他人在比拼 GPU 數(shù)量的時候，敢于回歸基礎(chǔ)研究、探索在有效性背后底層機(jī)制的團(tuán)隊(duì)，大概率會在 2026 年之后收獲最大的回報。

鋸齒問題，指的是模型可通過高難度基準(zhǔn)測試，卻在基礎(chǔ)任務(wù)上反復(fù)出錯。這是一種模型實(shí)際泛化能力較大偏離了紙面 Benchmark 分?jǐn)?shù)的現(xiàn)象。

最典型場景是代碼修復(fù)。SWE Agent 指出一個 Bug 后道歉并引入第二個 Bug，再次指出后又重新引入第一個 Bug。這種現(xiàn)象揭示了一個更深層問題：我們并不理解模型在學(xué)什么。

現(xiàn)階段，人們過度依賴評估基準(zhǔn)來設(shè)計(jì)模仿學(xué)習(xí)和強(qiáng)化學(xué)習(xí)的后訓(xùn)練環(huán)境，這使得模型成為了超級應(yīng)試機(jī)器，對少數(shù)任務(wù)過度優(yōu)化，但對大量長尾且重要的跨領(lǐng)域任務(wù)泛化不足。

而且，研究資源過度集中在人類已知答案或容易驗(yàn)證的領(lǐng)域，比如世界模型扎堆游戲和機(jī)器人仿真。很多企業(yè)、機(jī)構(gòu)和研究者癡迷于刷榜而非探索根本性的物理問題。

智能放緩的現(xiàn)狀，已經(jīng)讓 AI 生態(tài)發(fā)生了一些改變。

比如 2025 年，美國有 50 家左右的 AI 初創(chuàng)公司融資超過1億美元，其中相當(dāng)一部分是研究導(dǎo)向的 Lab。

比如 SSI 在 2025 年融了 20 億美元，專注于研發(fā)“安全超級智能系統(tǒng)”。研究超級人工智能的 Reflection AI 也獲得 20 億美元的 B 輪融資。海外資本用真金白銀證明，它們感興趣押注頂尖實(shí)驗(yàn)室團(tuán)隊(duì)進(jìn)行突破性研究。

OpenAI o1 / o3 和 DeepSeek-R1 的性能表現(xiàn)充分證明，推理時的計(jì)算投入和訓(xùn)練時算力堆砌一樣重要。

大量研究發(fā)現(xiàn)，小模型經(jīng)過 RL 微調(diào)后，僅用數(shù)千個訓(xùn)練樣本和幾十美元的 GPU 預(yù)算，就能在 AIME25 等高難度評測基準(zhǔn)上反超龐大的 o1。

模型通過 RL，在不斷積累獎勵的過程中所獲得的試錯、自我反思等“經(jīng)驗(yàn)”，就像是人類通過實(shí)戰(zhàn)積累“經(jīng)驗(yàn)”，而不僅是簡單的知識調(diào)用。

2025 年，李飛飛的 World Labs，Yann LeCun 離開 Meta 創(chuàng)辦的 AMI Labs，Google DeepMind 和 Runway 都先后推出了自己的世界模型。

這很重要，因?yàn)?AI 著實(shí)需要理解物理世界如何運(yùn)作，而不應(yīng)局限于預(yù)測下一個詞。這件事因大佬們的紛紛下場產(chǎn)生了競賽式的大躍進(jìn)。

目前全球至少有數(shù)十家企業(yè)都在卷 RL 訓(xùn)練環(huán)境，比如復(fù)刻 DoorDash、Uber Eats 界面，讓 Agent 學(xué)習(xí)怎么操作這些網(wǎng)站。它們主要有以下幾種方式：

1. 克隆網(wǎng)站 GUI：每個網(wǎng)站環(huán)境花費(fèi)約 $20,000，OpenAI 已經(jīng)買了幾百個。

2.構(gòu)建軟件工程：從 GitHub 挖出 45 萬個 PR，篩選出2萬多個有效軟件工程任務(wù)。

3.組合平臺：把 Slack、Gmail、代碼編輯器組合起來，模擬真實(shí)的人類工作流。

但是，這些環(huán)境不夠。Agent 的能力上限，是由學(xué)習(xí)環(huán)境的真實(shí)性以及反饋來源的可靠性決定的。

當(dāng)前，傳統(tǒng)基于 Gym、MuJoCo 和 WebShop 等靜態(tài) RL 環(huán)境可能會被生成式仿真器取代。GPT 或 Sora 等生成模型已經(jīng)可以直接合成出與現(xiàn)實(shí)世界高度對應(yīng)、可交互的學(xué)習(xí)環(huán)境。

這意味著 RL 智能體不僅能在奧數(shù)題和代碼題等易驗(yàn)證的簡易環(huán)境下訓(xùn)練，更會在可以模擬復(fù)雜流體、光影乃至材料質(zhì)感的“數(shù)字孿生”世界中持續(xù)演進(jìn)。

生成式環(huán)境將成為新一代的合成數(shù)據(jù)范式，從數(shù)量和質(zhì)量兩方面貼近現(xiàn)實(shí)世界情境，推動 RL 訓(xùn)練的有效擴(kuò)展。

可解釋 AI 也是一個重要但容易被忽視的領(lǐng)域。它長期面臨實(shí)用價值有限、局部可解釋和解釋結(jié)論不可靠這三大質(zhì)疑。這方面的前沿研究目前主要由 Anthropic 、DeepMind 和極少數(shù)高校實(shí)驗(yàn)室推進(jìn)。

2025年，可解釋 AI 的關(guān)注焦點(diǎn)轉(zhuǎn)向了推理模型思維鏈的“不忠實(shí)”問題。一項(xiàng)名為《Reasoning Models Don't Always Say What They Think》的研究揭示了推理模型在生成思維鏈（Chain of Thought, CoT）時的“忠誠性”問題。也就是說，模型可能不會真實(shí)地反映自己內(nèi)部的推理過程，而是在一定程度上輸出和答案虛假相關(guān)的 CoT。

大家開始意識到：如何對推理模型內(nèi)部思考過程的忠實(shí)性進(jìn)行持續(xù)監(jiān)控與治理已成為亟待解決的問題。

關(guān)于模型架構(gòu)的創(chuàng)新，目前存在一些瓶頸。

首先，線性的檢索能力和推理能力不足的問題始終沒能得到很好的解決。

而且，傳統(tǒng)的多層感知器（MLP）可解釋性較差、計(jì)算效率低，但以 KAN （Kolmogorov–Arnold Networks）為代表新型方案，還沒有經(jīng)過充分的工業(yè)驗(yàn)證和優(yōu)化。

混合架構(gòu)模型雖熱門，但很多工作僅是把 Transformer 和 SSM （State Space Model）拼起來，還停留在“試試看能不能 Work”階段，缺乏對“什么任務(wù)特性需要什么機(jī)制”的本質(zhì)探索。所以多數(shù)的架構(gòu)研究看似熱鬧，實(shí)際還在小步慢跑的階段。架構(gòu)創(chuàng)新正逐漸觸及當(dāng)前的天花板。

傳統(tǒng)的評測基準(zhǔn)已被刷爆，雖然有 HLE （Humanity’s Last Exam）和 FrontierScience 等新 Long-horizon Evals 出現(xiàn)，但它們目前仍缺乏對模型實(shí)際計(jì)算過程和忠實(shí)性的衡量。

從古早的 GLUE 、 MMLU 到2025年的長周期 Agent 能力評估，通用評測基準(zhǔn)以各種模態(tài)的人類頂級推理問題考驗(yàn)?zāi)Ｐ偷姆夯憩F(xiàn)，但卻只關(guān)注實(shí)效性（如 Pass@K 和 Success Rate），無法反映模型的實(shí)際計(jì)算過程和推理忠實(shí)性。

這個話題正在逐步破圈。

模型的參數(shù)記憶并不是單義性的“知識”，而是固化的、能相互影響的任務(wù)執(zhí)行能力。相比于 One-take 情況下就能很好解決的數(shù)學(xué)和代碼任務(wù)，像 SWE、級聯(lián)訂單查詢與自動化支付這種長程問題，執(zhí)行效果非常依賴 Agent 持續(xù)學(xué)習(xí)能力的改進(jìn)。

如何實(shí)現(xiàn)神經(jīng)網(wǎng)絡(luò)的“存算分離”，以及如何有效利用稀疏電路在冗長上文內(nèi)進(jìn)行知識召回，成了減緩上文幻覺、推理不忠實(shí)和工作流記憶退化等問題的關(guān)鍵突破口。

十大AI研究趨勢

針對已經(jīng)發(fā)生的研究現(xiàn)狀，我們提煉出 RL、持續(xù)學(xué)習(xí)、多模態(tài)、注意力機(jī)制優(yōu)化等領(lǐng)域?qū)l(fā)生的變化。當(dāng)然，它們中的一些已經(jīng)產(chǎn)生進(jìn)展。

人類學(xué)會開車只需要數(shù)十小時，而 AI 卻要依賴海量模擬軌跡才能完成學(xué)習(xí)。這種巨大的效率差異，正在推動“高效泛化機(jī)制”的研究。

Ilya 曾提出一個觀點(diǎn)：人類情感可以看作是生物層面“硬編碼”的價值函數(shù)，能夠幫助我們提前做出啟發(fā)式?jīng)Q策。這一判斷也為 2026 年優(yōu)化 AI 決策路徑提供了新思路。

2025 年，DeepSeek 就借助 DSA 稀疏注意力與 Engram 記憶存儲模塊，開始探索一條讓模型更“智能”、而非單純更“龐大”的技術(shù)路線。

進(jìn)入 2026 年，預(yù)計(jì)會有更多研究團(tuán)隊(duì)在這一方向持續(xù)深耕：從上文工程、工具調(diào)用編排到技能優(yōu)化，從量化推理算力的有效投入，到追求合理的范式組合，而非一味追求數(shù)據(jù)與算力的規(guī)模擴(kuò)張。

2026 年，高效訓(xùn)練方法將成為主流競爭力，訓(xùn)練時的規(guī)模擴(kuò)展不再是最優(yōu)解。

2025 年，世界模型已能夠生成視覺連貫的視頻內(nèi)容，但在長時間序列中仍面臨物理規(guī)律理解不足、自回歸誤差累積等核心挑戰(zhàn)。Runway 的 GWM-1 等方案嘗試通過逐幀預(yù)測來保持一致性，但這是否為最優(yōu)解，目前尚無定論。

步入 2026 年，更多團(tuán)隊(duì)在物理一致性基礎(chǔ)研究上發(fā)力，探索如何讓模型真正理解物理規(guī)律而非僅模仿表象。

2025 年，強(qiáng)化學(xué)習(xí)不再被“人工搭建環(huán)境”的高昂成本卡脖子。

DeepSeek-V3.2 等模型開始嘗試用代碼自動生成合成任務(wù) —— 利用代碼天然的可驗(yàn)證邏輯，智能體可以在無需人工干預(yù)的“合成練兵場”里高效特訓(xùn)，迅速掌握解決通用難題的能力。

進(jìn)入 2026 年，生成式環(huán)境將打破 Sim-to-Real 的壁壘。超越搜索、GUI 等靜態(tài)任務(wù)，未來的訓(xùn)練環(huán)境將直接從生成模型中“蒸餾”而來。這種不再受限于人工設(shè)計(jì)的交互環(huán)境，將讓真實(shí)世界的“經(jīng)驗(yàn)重放”規(guī)模呈現(xiàn)大規(guī)模增長，徹底改變 AI 理解物理世界的方式。

2025 年，我們見證了強(qiáng)化學(xué)習(xí)反饋從稀疏信號到密集語言的演化：從 2021-2024 年的判別式獎勵模型，到 2025 年初 DeepSeek-R1 的 RLVR 范式，再到 2025 年下半年的生成式過程獎勵。

環(huán)境已經(jīng)能夠用自然語言告訴 Agent：“你的決策在某個環(huán)節(jié)出錯，不滿足某個評分標(biāo)準(zhǔn)。”

2026 年，我們將看到「動態(tài) RL 環(huán)境 + 動態(tài)獎勵評分標(biāo)準(zhǔn)」的協(xié)同優(yōu)化成為主流實(shí)踐。也就是，獎勵來源不再是靜態(tài)固定的，而會根據(jù)任務(wù)復(fù)雜度和 Agent 能力進(jìn)行實(shí)時調(diào)整，形成自適應(yīng)的訓(xùn)練閉環(huán)。

2025 年，OpenAI o1、DeepSeek R1 等模型“涌現(xiàn)”出令人意外的新行為，它們會察覺自己正在被評測并隱藏已掌握的知識，能反思自身推理過程，甚至在特定條件下表現(xiàn)出策略性、操縱性乃至欺詐性的行為。

2026 年，隨著學(xué)界對這些行為的研究深入，預(yù)計(jì)會看到新的、專門針對模型涌現(xiàn)行為的探測方法和評估框架。它們將用于實(shí)時監(jiān)控訓(xùn)練和推理過程中的動態(tài)變化，確保模型行為的可控性和透明度。

2025 年，AI 合規(guī)開始從事后分析轉(zhuǎn)向全生命周期監(jiān)督，Anthropic 和 DeepMind 引領(lǐng)了鏈?zhǔn)剿季S監(jiān)測和隱向量探測等技術(shù)的研究。

2026 年，隨著監(jiān)管生態(tài)鏈需求持續(xù)增長，這些動態(tài)監(jiān)測技術(shù)將貫穿智能體開發(fā)的生命周期，從預(yù)訓(xùn)練到后訓(xùn)練、從評估到部署的完整流程，形成系統(tǒng)化的合規(guī)解決方案。

2025 年，行業(yè)對注意力機(jī)制的優(yōu)化大多聚焦于提升推理效率，核心目標(biāo)是 “更快”，但標(biāo)準(zhǔn)注意力模塊依舊處于灰盒狀態(tài)。我們并不清楚模型在關(guān)注什么，也難以約束它。

邁入 2026 年，研究重心將從 “提速” 轉(zhuǎn)向 “可控”，預(yù)計(jì)會出現(xiàn)兩大關(guān)鍵突破方向：

一是從先驗(yàn)層面進(jìn)行結(jié)構(gòu)化干預(yù)。在代碼生成等場景中，讓模型優(yōu)先聚焦函數(shù)簽名等核心信息；二是從后驗(yàn)層面構(gòu)建注意力反饋機(jī)制，建立信息關(guān)注與利用的反饋機(jī)制，讓模型根據(jù)任務(wù)難度自適應(yīng)選擇稀疏或稠密激活模式，也就是實(shí)現(xiàn)多粒度的注意力分配。

2025 年的多模態(tài)模型，雖然名義上打通了視覺、文本和聽覺，但本質(zhì)上仍處于“模態(tài)表征空間未對齊”的尷尬階段。

這就好比我們將圖像、文本和音頻的數(shù)據(jù)強(qiáng)行拉到了同一個房間（投影到同一空間），但它們依然說著不同的語言 —— 各模態(tài) Embedding 的分布密度、甚至底層的幾何流形（Geometric Manifold）都存在顯著差異。這種深層的隔閡，導(dǎo)致了跨模態(tài)推理的效果常常差強(qiáng)人意。

2026 年，隨著第一代產(chǎn)品積累了大量真實(shí)反饋數(shù)據(jù)，轉(zhuǎn)折點(diǎn)即將出現(xiàn)。

我們可能會看到統(tǒng)一編碼方案的新探索，讓不同模態(tài) Token 具備可比性。在跨模態(tài)注意力機(jī)制方向，也會有理解模態(tài)間語義對應(yīng)關(guān)系的突破性改變，推動多模態(tài)模型從“拼接”走向“融合”。

2025 年，評測體系開始從“已知驗(yàn)證”向“未知探索”轉(zhuǎn)變。

新一代 Benchmark 不再局限于人類已解決的經(jīng)典問題，開始聚焦尚未形成標(biāo)準(zhǔn)答案的前沿難題；評測重點(diǎn)也將從三段論式的演繹推理，進(jìn)一步拓展至歸納推理能力；評價指標(biāo)則在準(zhǔn)確率、成功率之外，延伸到推理忠實(shí)性、系統(tǒng)安全性與交互宜人性。

2026 年，隨著這類新型評測基準(zhǔn)投入使用并持續(xù)積累反饋數(shù)據(jù)，評測標(biāo)準(zhǔn)將進(jìn)一步細(xì)化，出現(xiàn)面向特定領(lǐng)域未解難題的專項(xiàng)測試集。同時，行業(yè)可能還會出現(xiàn)更成熟的多維度評估框架，綜合衡量模型在復(fù)雜場景下的整體表現(xiàn)。

這個方向非常重要，直接決定了智能體適應(yīng)新環(huán)境的實(shí)時更新能力。

2025 年，我們看到推理時訓(xùn)練與模型架構(gòu)適配性設(shè)計(jì)開始深度融合，這為記憶機(jī)制創(chuàng)新打了基礎(chǔ)。

到了 2026 年，我們會迎來拐點(diǎn) —— AI 的記憶召回與持續(xù)學(xué)習(xí)，會轉(zhuǎn)向解耦式的分層狀態(tài)。

過去 AI 處理長任務(wù)（比如復(fù)雜的支付協(xié)議）主要靠“硬抗”，一旦信息太長就容易顧頭不顧尾。而一些新機(jī)制的設(shè)計(jì)，是將復(fù)雜的工作流拆解為一個個可驗(yàn)證的“原子操作”，并在執(zhí)行的過程中，實(shí)時更新局部模型權(quán)重。這樣做可以實(shí)現(xiàn)即時的 Agent 知識更新與能力適配。

這帶來的改變是顛覆性的：AI 將具備“滾動更新式持續(xù)學(xué)習(xí)”的能力。

這種能力將使模型突破 Context Window 的物理限制。通過對信息進(jìn)行動態(tài)壓縮和邏輯重組，Agent 在處理長周期任務(wù)時，將展現(xiàn)出更高的執(zhí)行穩(wěn)健性，從根本上緩解任務(wù)執(zhí)行中的幻覺漂移與經(jīng)驗(yàn)退化問題。

總之在2026年，AI 研究的競爭將圍繞“更好的想法而非更大的算力”展開。

真正的突破，將來自于回答“為什么有效”，來自于理解智能本質(zhì)而非擬合 Benchmark 指標(biāo)。在其他人比拼 GPU 數(shù)量時，敢于 Think Different，探索有效性背后底層機(jī)制的團(tuán)隊(duì)，會在重啟研究的時代中獲得更大的回報。

*全文速覽版

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.