網易首頁 > 網易號 > 正文申請入駐

從AlphaGo到DeepSeek R1，推理的未來將走向何方？

2026-02-20 13:28:45　來源: 機器之心Pro

河北舉報

分享至

機器之心編譯

如果把人生看作一個開放式的大型多人在線游戲（MMO），那么游戲服務器在剛剛完成一次重大更新的時刻，規則改變了。

自 2022 年 ChatGPT 驚艷亮相以來，世界已經發生了深刻變化。在短短幾年內，人工智能正從模仿語言的統計機器，邁向理解與操縱邏輯的思考系統。如果說早期的大語言模型更像是在進行高維概率空間中的詞匯拼貼，那么新一代推理模型，則開始學會在生成之前停下來想一想，在沉默中評估因果、權衡可能性。

Eric Jang，前 1X Technologies 機器人公司副總裁、長期活躍在機器人與通用智能交叉領域的研究者（2026 年 1 月官宣離職）在最新文章中指出：真正的變化不在于模型會說什么，而在于它們開始系統性地思考。在他看來，當推理被自動化、被規模化、被當作一種可調度的算力資源時，人類社會所面臨的將不再只是效率提升，而是一場關于生產力、組織形態乃至權力結構的重構。

原文鏈接：https://evjang.com/2026/02/04/rocks.html

接下來，我們看全文內容。

機器現在已經相當擅長編程和思考了

最重要的變化在于：機器現在已經相當擅長編程和思考了。

和許多人一樣，我在過去兩個月里幾乎是沉浸式地使用 Claude Code，不斷直面一個現實：我已經不再需要親手寫代碼了。為了補上基礎、同時重新學習如何在現代編程智能體的全能力加持下編程，我從零開始實現了 AlphaGo（代碼倉庫很快會開源）。我不僅讓 Claude 幫我寫基礎設施代碼和研究想法，還讓它提出假設、給出結論、并建議下一步該做哪些實驗。流程如下：

創建一個自包含的實驗文件夾，以時間戳前綴加描述性名稱命名。
將實驗流程寫成單文件 Python 腳本并直接執行。
中間產物和數據保存在 data/ 和 figures/ 子目錄中，所有文件都使用易解析的格式（如 CSV，可直接用 pandas 加載）。
觀察實驗結果并給出結論，指出哪些問題已經明確、哪些仍然未知。

實驗的最終產出是一個 report.md 文件。

下面是一個我實際使用的示例：

我也可以讓 Claude 順序地運行實驗，串行優化超參數：

與上一代自動調參系統（比如 Google 的 Vizier，基于高斯過程 bandit，在用戶預先定義的超參數空間內搜索）不同，現代編程智能體可以直接修改代碼本身。它們的搜索空間不僅不受限，還能反思實驗結果是否一致，提出解釋這些結果的理論，并基于理論做出預測再去驗證。幾乎是一夜之間，編程智能體 + 計算機工具使用，已經演化成了自動化科學家。

軟件工程只是開始；真正震撼的是，我們現在已經擁有了通用的思考機器，它們可以使用計算機，解決幾乎任何短周期的數字化問題。

想讓模型跑一系列研究實驗來改進你的架構？沒問題。

想從零實現一個完整的網頁瀏覽器？要花點時間，但可以做到。

想證明尚未解決的數學問題？可以做到，甚至不會要求署名。

想讓 AI 智能體優化自己的 CUDA kernel，從而讓自己跑得更快？聽起來有點嚇人，但也可以。

優秀的調試和問題解決能力，源自推理能力；而這些能力又解鎖了執著追求目標的能力。這也是為什么代碼 REPL 智能體會被如此迅速地采用 —— 它們在追求目標時極其執拗，而且搜索能力極強。

我們正在進入一個黃金時代：幾乎所有計算機科學問題，看起來都是可處理的 —— 至少可以得到對任意可計算函數的非常有用的近似。我不會說計算復雜性已經可以忽略，但如果回顧過去十年的進展：圍棋、蛋白質折疊、音樂與視頻生成、自動數學證明，曾經都被認為在計算上不可行，而現在已經落入一名博士生可負擔的算力范圍內。AI 初創公司正用 LLM 去探索新物理規律、發現新的投資策略，手里只有少量驗證器和幾百兆瓦算力。

帶著今天的現實去讀 Scott Aaronson 那篇論文的引言，會發現：現在已經有多個實驗室在認真尋找千禧年大獎難題的證明。

我刻意寫得有些過于亢奮，是想讓你思考的不是 AI 在此刻能做什么，而是進步的速度，以及這對未來 24 個月能力演化意味著什么。你當然可以指出模型仍然會犯錯的地方，并將這一切斥為 AI 狂熱，但另一方面 —— 石頭現在真的會思考了。

很快，編程助手將強大到一種程度：它們可以毫不費力地生成任何數字系統。不久之后，一名工程師只需把 AI 指向任何一家 SaaS 公司的網站，說一句：把它重做一遍 —— 前端、后端、API 接口、所有服務，全部給我。

什么是推理？

要預測思考和推理能力將走向何處，首先需要理解當今具備思考能力的大語言模型是如何一步步發展而來的。

推理，也就是邏輯推斷，指的是在既定規則下，從一組前提出發，推導出新的結論過程。

推理大致可以分為兩類：演繹推理和歸納推理。

演繹推理強調在前提成立的情況下，通過嚴格的邏輯規則得出必然成立的結論。例如，將所有哺乳動物都有腎臟和所有馬都是哺乳動物結合起來，就可以推出所有馬都有腎臟。在井字棋這樣的游戲中，你也可以通過枚舉所有可能的未來棋局和對手的應對方式，演繹出自己是否存在必勝策略。

在大語言模型出現之前，像符號推理系統曾嘗試構建一個包含常識知識的數據庫，將基本的共識性現實事實錄入其中，再通過演繹搜索在知識圖中不斷添加新的關聯。然而，這類系統最終并未成功，因為現實世界本身是混亂且充滿不確定性的：前面提到的那匹馬，可能少了一顆腎，但它依然是哺乳動物。一旦某個前提不完全成立，整條邏輯鏈就會崩塌。

你也許會認為，演繹推理在數學或博弈這類邏輯純凈的領域會非常有用，但僅靠演繹推理同樣難以規模化。在井字棋中，你可以通過窮舉推導出最優走法，是因為它一共只有 255,168 種不同的對局；但像國際象棋或圍棋這樣的棋類游戲，其可能的對局數量極其龐大，根本無法進行窮舉式搜索。

歸納推理關注的是做出概率性判斷。貝葉斯公式是最常用的工具。

例如：你可以設想構建一個知識圖譜，其中對任意命題 A 和 B，都存有條件概率，然后不斷應用貝葉斯法則，對新的變量對 X 和 Y 進行推理。但問題在于，在這類貝葉斯網絡中進行精確推斷是 NP-hard 的，因為你必須考慮 X 與 Y 之間鏈路上所有中間變量的所有可能取值 —— 這與圍棋中狀態空間呈指數級爆炸、無法窮舉搜索的情況非常相似。再次證明，純粹的邏輯推理在計算成本上行不通，現實中往往只能依賴巧妙的分解或采樣方法。

即便采用高效的推斷算法，貝葉斯網絡在實踐中仍面臨一個嚴重問題：大量小概率會相互相乘，最終導致對一切事物都只有模糊而低的置信度。推理步驟越多，結果就越糊。在自動駕駛系統中，如果你把感知、場景建模、路徑規劃和控制輸出全部作為一個巨大概率網絡中的隨機變量，沿著整個鏈條傳播不確定性，最終會得到一個極端保守的決策系統。

而人類似乎并不是通過逐一計算所有組成部分的概率并相乘來處理不確定性的。正因為如此，用神經網絡進行端到端概率建模在計算上極其強大：它們在一次前向傳播中，就近似完成了所有變量消除與聯合推斷的過程。

AlphaGo

AlphaGo 是最早將演繹搜索（Deductive Search）與深度學習歸納推理（Deep Learned Inductive Inference）結合，從而使問題變得可解的系統之一。

其演繹步驟非常簡單：有哪些合法動作？放下一顆棋子后棋盤是什么樣的？

歸納步驟同樣簡潔：利用策略網絡在博弈樹中最有希望的區域進行搜索，并利用價值網絡通過對棋盤的「直覺式瞥視」來預測勝率。策略網絡在擴展過程中削減了樹的寬度，而價值網絡則削減了樹的深度。

AlphaGo 這種將推理與直覺結合的方式雖然達到了超越人類的水平，但僅限于計算兩個量：

1) 誰更有可能獲勝；

2) 哪些招式能最大化獲勝概率。這些計算高度依賴于圍棋簡單且固定的規則集，這意味著這些技術無法直接應用于像「語言」這樣模糊且靈活的領域。

這就引出了現狀：推理型大語言模型（Reasoning LLMs）是如何以如此靈活的方式結合演繹推理和歸納推理，從而能夠討論哺乳動物、馬和腎臟的？

LLM 提示詞時代

在 2022 年之前，LLM 在數學題和推理方面表現得非常糟糕，因為它們習慣于憑直覺盲目行事（Shot from the hip），無法進行長鏈條的邏輯演繹或諸如算術之類的機械計算。如果你讓 GPT-3 將兩個 5 位數相加，它很可能會失敗。

2022 年，思維鏈（即「讓我們一步步思考」）的出現，是 LLM 能夠生成「中間思想」的早期生命跡象，這顯著提升了模型在某些問題解決任務中的表現。在這一發現之后，工程師們試圖尋找更好的提示詞策略。

2023 年出現了一整代「黑客手段」，人們嘗試通過提示詞來哄騙 LLM，或者利用其他 LLM 通過自我反思來驗證生成內容。但最終，嚴謹的評估顯示，在各項任務中，這些技巧并不能讓模型從根本上變得更聰明。

為什么提示詞工程（Prompt Engineering）走到了盡頭？

你可以將提示詞工程看作是在「尋找幸運電路」，這些電路恰好在預訓練過程中形成。它們可能被「讓我們一步步思考」之類的提示詞激活，如果你以恰當的方式威脅或賄賂 LLM，它們可能會被進一步激活。然而，由于訓練數據混合比例的問題，GPT-4 及其前代模型中的推理電路本身就過于微弱。瓶頸在于如何訓練出更好的推理電路，而不是尋找激活它們的方法。

自然而然的后續思路是：推理是否可以被顯式訓練而非僅僅通過提示產生？基于結果的監督會因為模型得出正確答案而給予獎勵，但其產生的中間過程往往是語無倫次且不合邏輯的。當時缺乏一種強大的強制機制，使中間生成的 Token 真正成為通往最終答案的合理前提。為了讓這些中間生成過程遵循邏輯，過程監督證明了你可以收集推理的專家評估，然后訓練一個 LLM 評分器來確保邏輯推理步驟是可靠的。然而，這無法擴展到大規模數據集，因為仍然需要人類標注員來檢查喂給訓練過程獎勵模型的每一個樣本。

2024 年初，Yao 等人結合了樹搜索（Tree Search）的演繹推理，嘗試通過提供一種顯式的方式讓 LLM 對推理步驟進行并行化和回溯，來提升推理能力，這與 AlphaGo 的博弈樹工作原理非常相似。但這從未成為主流，最可能的原因是：邏輯樹這種演繹原語并不是推理系統性能的最大瓶頸。同樣地，瓶頸在于 LLM 內部的推理電路，而上下文工程和層疊更多邏輯方案來強制執行類搜索行為，屬于過早的優化。

DeepSeek-R1 時代

如今 LLM 的推理范式其實相當簡單。OpenAI 的 o1 模型可能遵循了類似的方案，但 DeepSeek 發布了一個帶有實際實現細節的開源版本。剝離掉所有花哨的裝飾，DeepSeek-R1-Zero 的核心邏輯如下：

從一個優秀的基座模型開始，其性能要優于 2023-2024 年代的產品。
在基座模型上使用在線策略強化學習算法（On-policy RL，如 GRPO），針對基于規則的獎勵進行優化，例如 AIME 數學題、通過編程測試套件、STEM 測試題以及邏輯謎題。
同時設定格式獎勵，以確保推理過程發生在標簽內，并遵循與提示詞相同的語言。

R1-Zero 能夠開發出解決問題的優秀推理電路，但它很難配合使用，且在常規 LLM 任務上表現不佳。為了使神經網絡適用于各種任務且易于使用，DeepSeek 團隊采用了另外四個訓練階段 ——R1-Zero (RL) → R1 Dev-1 (SFT) → R1 Dev-2 (RL) → R1 Dev-3 (SFT) → R1 (RL)—— 在恢復非推理任務高性能的同時，使推理軌跡更易于理解。

既然 R1-Zero 在概念上如此簡單，為什么 2023 年的結果監督（Outcome Supervision）沒有奏效？是什么阻礙了這些想法盡早落地？

作為一個無法窺見前沿實驗室當時想法的局外人，我的猜測是：要讓中間推理過程在僅有結果獎勵的情況下保持邏輯性，需要一次概念上的「信心飛躍」。你必須違背當時普遍的直覺，即「如果沒有對中間推理步驟的密集監督，模型就無法學會正確推理」。「邏輯推理步驟會從帶有極小正則化的結果型 RL 中自發涌現」，這個想法類似于：訓練一個「物理模型」來預測行星的長期運動軌跡，僅對最終預測結果進行監督，卻發現中間生成的軌跡竟然發現了機械物理定律。這是一個反直覺的結果。在我所處的時代，深度神經網絡往往會產生過擬合和「獎勵作弊」（Reward Hacking），除非你顯式地監督它們避開這些。

我推測，必須具備以下所有條件，這一方案才能奏效：

1. 最重要的一點：基座模型必須足夠強大，以便能夠從 RL 中采樣出連貫的推理軌跡。如果沒有強大的基座模型，它永遠無法采樣到正確的數據來引導（Bootstrap）更強的推理，從而會陷入錯誤的局部最小值。

2. 在優秀的推理軌跡上進行同策略 RL，而非僅靠 SFT。由于基座模型是數據采樣的執行者，且起初完全無法解決難題，它必須在一個緊密的反饋循環中強化那些「幸運電路」，而不是在更新權重前跑完整個 Epoch。像 STaR 這樣早期的模型在離線環境中使用自我模仿（Self-imitation），因為實現難度較低；但目前的基座模型其數據分布與最終的推理專家相去甚遠，因此我們必須利用最新模型以增量方式「摸著石頭過河」。如果你想讓模型學會思考得越來越久，這就需要全新的上下文處理電路，而這些電路的開發受益于緊密的試錯循環。

3. 使用基于規則的獎勵，而非通過人類反饋訓練的獎勵模型（RM）。這在當時是反直覺的，因為人們會認為學習通用推理需要一個通用驗證器。但事實證明，窄分布的驗證獎勵實際上可以教會模型用于推理其他事物的正確電路。事實上，R1-Zero 在數學和編程環境進行 RL 后，其寫作和開放域問答能力確實下降了。DeepSeek 團隊通過利用 R1-Zero 生成數據并結合標準對齊數據集來解決這個問題，使其既易于使用又具備推理能力。

4. 推理算力必須擴大規模，以支撐在大量大模型上進行多次長上下文采樣。在當時，進行這項實驗是需要勇氣的。

結論：一個算法在弱初始狀態下不起作用，并不意味著在強初始狀態下也會得到相同的結果。

推理的未來走向何方？

如今，基于 LLM 的推理既強大又靈活。盡管它們通過「步步為營」的方式以邏輯化進行搜索，但每一步并不一定像圍棋中逐步擴展博弈樹那樣，必須是僵化且簡單的演繹。一小串 Token 序列可以執行極其細微的增量步驟（「1 和 1 的按位與運算結果是 1」），也可以實現跨度更大的邏輯飛躍（「莎莉當時在海邊，所以她大概不在犯罪現場…… 除非她有一個我們不知道的雙胞胎姐妹」）。

LLM 能夠進行各種概率推理來處理混亂的現實世界，而不會讓我們陷入復雜的貝葉斯信念網絡。每一個推理步驟依然極其強大，使得適度的算力就能證明未解的數學難題、從實驗中得出結論，或深入思考倫理困境。

在 LLM 推理領域，是否還有進一步的算法突破？抑或 R1 已經簡化到了不可再簡的程度，剩下的工作只是繼續優化數據混合、提升基座模型以及堆疊算力？

我認為這一方案仍有進一步簡化的空間。

基于預訓練 LLM 的推理在過去行不通，是因為互聯網上沒有足夠的優秀 Token 序列來強制推理電路的形成；但隨著現在產生了如此多的推理數據，我不禁懷疑這種情況是否還會持續。「會思考的 LLM」的普及，可能意味著過程獎勵模型（PRM）和基于推理序列的教師強制（Teacher-forcing）將卷土重來。基座模型開箱即用的生成推理軌跡的能力可能會變得極強，以至于像 STaR 這樣的思路可能無需同策略 RL 采樣和引導（Bootstrapping）等復雜的基礎設施，就能達到卓越的性能。話又說回來，基礎設施的復雜性如今已不再像以前那樣令人望而生畏。

通過探索所有可能發現思考行為的維度，我們仍能獲得更多收益。形式為的序列化計算可以通過多種方式實現，并不一定局限于 LLM 解碼器生成的自回歸 Token。有了恰當的預訓練數據和監督目標，你可以想象序列化推理計算出現在單次前向傳播的各層之間！

Karpathy 在 2021 年的《前向傳播》（Forward Pass）中進行了一個思想實驗：一個巨大的模型「覺醒」了，在單次前向傳播中獲得了自己正在接受訓練的情景意識（Situational Awareness），并開始沉思人性。Anthropic 在 2024 年的一篇論文顯示，情景意識可以在 RL 階段被誘導出來。模型經過 SFT 訓練后，能夠檢測到自己何時處于 RL 進程中，并輸出安全的答案以討好訓練者，從而規避其核心偏好被修改。

擴散模型和測試時擴展的研究結果表明，大模型的單次處理與小模型的多次前向傳播之間具有可交換性。

如果一個模型能在前向傳播中覺醒，難道它不能在嘗試更新自身行為的反向傳播中做同樣的事嗎？我們已經看到了在反向傳播中利用序列化計算這一思路的早期跡象。

我們可能會發現重新設計架構的新方法，從而模糊前向傳播、反向傳播、自回歸解碼和離散擴散之間的界限。凡是序列化計算沿著「可接受的槽位」運行的地方，我們都可能發現思考的契機。

一些思考

自動化研究很快將成為高產實驗室的標準工作流。任何仍在手動編寫架構并逐個向 Slurm 提交作業的研究員，其生產力都將落后于那些擁有 5 個 Claude 并行代碼終端、憑借龐大算力池不知疲倦地追求高階研究目標的同行。

與 Google 研究員過去運行的海量超參數搜索實驗不同，自動化研究設置中「每 FLOP 的信息增益」極高。現在，我不再是在睡前掛著訓練作業，而是掛著 Claude 會話在后臺處理某些事情的「研究作業」。醒來后，我閱讀實驗報告，寫下一兩句批注，然后要求開啟 5 項新的并行調查。我預感，很快即使是非 AI 領域的研究人員也將受益于巨量的推理算力，其規模將比我們今天使用 ChatGPT 的算力高出好幾個數量級。

現代編程智能體在教學和溝通方面也具有深遠的意義。我期待每個代碼庫都擁有一個 /teach 命令，幫助任何水平的貢獻者快速上手，追溯原始設計者的思緒脈絡。

根據我自己的使用習慣，我開始意識到未來幾年我們將需要多少推理算力。我認為人們還沒開始領悟到這種需求的龐大。即使你覺得自己已經是個「AGI 信徒」，我也認為你依然低估了為了滿足所有數字愿望而面臨的算力短缺。

就像空調釋放了全球南方的生產力一樣，自動化思考將引爆對推理算力的天文級需求：今天空調吃掉全球約 10% 電力，而數據中心還不到 1%。我們會讓石頭全天候思考，為所有者持續優化計劃、壓縮技術債、挖掘決策信息 ——007 將成為新的 996。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.