網易首頁 > 網易號 > 正文申請入駐

AI大牛卡帕西發布2025年度總結：LLM潛力僅挖掘不到10%！

2025-12-22 22:13:42　來源: CSDN

北京舉報

分享至

過去一年，LLM 發展迅速，能力和應用場景都在不斷擴展。從基于可驗證獎勵的強化學習，到本地運行的智能代理，再到“Vibe 編程”和圖形化界面，AI 正以前所未有的方式進入我們的工作和生活。

在這樣的背景下，AI 大牛 Andrej Karpathy 在個人博客上分享了自己對 2025 年 LLM 發展的獨特觀察，既揭示了技術趨勢，也提供了對未來智能形態的思考，非常值得一讀。

https://karpathy.bearblog.dev/year-in-review-2025/

作者 | Andrej Karpathy

編譯 | ChatGPT、蘇宓

出品 | CSDN（ID：CSDNnews）

2025 年是大語言模型（LLM）快速推進、變化密集的一年。下面列出的是一些在我看來尤為重要、且多少有些出乎意料的“范式轉變”——它們在概念層面上改變了整體格局。

基于可驗證獎勵的強化學習（RLVR）

在 2025 年初，幾乎所有實驗室中 LLM 的標準生產訓練流程大致如下：

預訓練（Pretraining，約 2020 年的 GPT-2/3）
監督微調（Supervised Finetuning，SFT，約 2022 年的 InstructGPT）
基于人類反饋的強化學習（Reinforcement Learning from Human Feedback，RLHF，約 2022 年）

這一組合在相當長一段時間內都是訓練生產級 LLM 的成熟且行之有效的方法。

進入 2025 年后，基于可驗證獎勵的強化學習（RLVR）逐漸成為事實上的新增關鍵階段，并被納入這一訓練體系。

RLVR 的核心做法是：在多個可自動驗證獎勵的環境中（例如數學或代碼類任務），對 LLM 進行強化學習訓練。在這一過程中，模型會自發地發展出在人的視角下類似“推理”的策略——它們學會將問題拆解為一系列中間計算步驟，并掌握多種反復試探、回溯求解的策略（可參考 DeepSeek R1 論文中的示例）。在此前的訓練范式下，這類能力很難通過直接設計獲得，因為我們并不清楚對 LLM 而言，最優的推理軌跡和糾錯路徑究竟應當是什么樣子；模型必須通過圍繞獎勵函數的優化，自行找到對自己有效的方式。

與 SFT 和 RLHF 這兩個相對“輕量、短周期”的階段不同，RLVR 依賴的是客觀、不可被投機利用的獎勵函數，因此允許進行更長時間、更充分的優化。

實踐表明，RLVR 在“能力提升 / 成本”這一比值上表現極高，甚至消耗了原本計劃用于預訓練的大量算力。結果是，2025 年 LLM 能力的主要進展，很大程度上來自各大實驗室對這一新階段算力“積壓”的集中釋放：模型規模大致相近，但強化學習的運行時間顯著拉長。

此外，這一新階段還引入了一個此前不存在的重要調節維度（以及與之對應的尺度定律）：可以通過在測試階段生成更長的推理軌跡、增加“思考時間”，來控制模型能力。OpenAI 的 o1（2024 年末）是 RLVR 模型的首次公開展示，而在 2025 年初發布的 o3，則成為明顯的拐點——人們已經可以直觀地感受到這種差異。

幽靈 vs. 動物 / 鋸齒狀智能（Jagged Intelligence）

2025 年，是我（我想整個行業也是如此）第一次開始以更直觀的方式真正理解 LLM 智能“形態”的一年。我們并不是在“進化或培育動物”，而更像是在“召喚幽靈”。

LLM 技術棧的各個層面都與生物智能截然不同——無論是神經架構、訓練數據、訓練算法，還是尤其關鍵的優化壓力。因此，我們在智能空間中得到的必然是完全不同類型的存在，用“動物”的視角去理解它們，本身就并不合適。

從監督信號的角度看，人類的神經網絡是為了在原始環境中保障群體生存而被優化的；而 LLM 的神經網絡，則是為了模仿人類文本、在數學與代碼等任務中獲取獎勵，以及在 LM Arena 上贏得人類的點贊而被優化的。

隨著可驗證任務領域逐步引入 RLVR，LLM 在這些領域附近的能力會出現“尖峰式”提升，而在整體表現上則呈現出一種頗為有趣的鋸齒狀特征：它們一方面像是博學多才的天才通才，另一方面又像是困惑且認知能力受限的小學生，隨時可能被一次越獄誘騙，從而泄露你的數據。

（人類智能：藍色；AI 智能：紅色。因為它指出了一個常被忽略的事實：人類智能本身也是“鋸齒狀的”，只是鋸齒的形態與 AI 不同。）

與上述討論密切相關的，是我在 2025 年對各類基準測試逐漸產生的冷淡態度，甚至可以說是信任的流失。核心原因在于：基準測試在結構上幾乎天然就是“可驗證環境”，因此會立刻暴露在 RLVR 及其更弱形式（例如通過合成數據生成實現的變體）之下。

在典型的“刷榜”過程中，LLM 實驗室的團隊往往不可避免地會圍繞基準測試，在嵌入空間中構造出一些相鄰的小環境區域，并刻意“長出”足以覆蓋這些區域的能力鋸齒。在測試集上訓練，正在成為一門新的藝術。

這也引出了一個耐人尋味的問題：

如果一個模型可以碾壓所有基準測試，但仍然沒有實現 AGI，那它究竟缺了什么？

關于本節所討論的主題，我在下面這些文章中有更為深入的闡述：

Animals vs. Ghosts：https://karpathy.bearblog.dev/animals-vs-ghosts/
Verifiability：https://karpathy.bearblog.dev/verifiability/
The Space of Minds：https://karpathy.bearblog.dev/the-space-of-minds/

Cursor / LLM 應用的新一層

在我看來，Cursor 最值得關注的地方（除了它今年的爆發式增長之外）在于：它令人信服地揭示了 “LLM 應用”這一全新層級的存在——人們開始頻繁討論“某某領域的 Cursor（Cursor for X）”。

正如我今年在 Y Combinator 演講中所強調的那樣（https://www.donnamagi.com/articles/karpathy-yc-talk），像 Cursor 這樣的 LLM 應用，本質上是在特定垂直領域內，對 LLM 調用進行打包與編排：

它們負責完成“上下文工程”
在后臺編排多次 LLM 調用，將其串聯成結構日益復雜的 DAG（有向無環圖），并在性能與成本之間進行精細權衡
為“人機交互”提供面向具體應用場景的 GUI
提供一個“自治程度滑桿”

在 2025 年，很多人圍繞這一新應用層“到底有多厚”展開了大量討論：

所有應用最終都會被 LLM 實驗室直接吞并，還是 LLM 應用本身依然存在廣闊的機會空間？

我個人的判斷是：LLM 實驗室可能會培養出“能力一般的大學生水平”的模型，但 LLM 應用則會通過提供私有數據、傳感器、執行器和反饋回路，對這些模型進行組織、微調，并真正將它們激活，組建成能夠在特定垂直領域落地的專業團隊。

Claude Code / 在你電腦上運行的 AI

Claude Code（簡稱 CC）是第一個讓人直觀感受到 LLM Agent 形態的產品——它能夠以循環的方式，將工具使用與推理串聯起來，用于解決更復雜、長期的問題。

對我來說，CC 另一大亮點在于：它能夠直接運行在你的電腦上，并且使用你的私有環境、數據和上下文。相比之下，我認為 OpenAI 在這方面走偏了，他們早期的 Codex/Agent 研究主要聚焦于云端部署，通過 ChatGPT 容器進行編排，而沒有充分考慮在本地運行的可能性。

雖然在云端運行的 Agent Swarms 看起來像是“AGI 的終極目標”，但現實世界中，我們處在一個能力增長鋸齒狀、起飛較慢的中間階段，因此直接在開發者的電腦上運行 Agent 更為合理。

需要注意的是，這里真正關鍵的區別并不是 AI 操作究竟運行在云端還是本地，而在于其他所有因素：已經啟動并運行的電腦、安裝環境、上下文、數據、機密信息、配置，以及低延遲的交互體驗。

Anthropic 在這一點上抓住了正確的優先順序，并將 CC 打包成一個簡潔且極具魅力的 CLI 形式，這改變了人們對 AI 的感知——它不再只是一個像 Google 一樣需要訪問的網站，而是一種“小精靈/幽靈”，真正“居住”在你的電腦上。這標志著與 AI 互動的一種全新、獨立的范式。

Vibe 編程

2025 年是 AI 實現突破的一年——它可以只用英文指令就生成各種令人印象深刻的程序，幾乎不用理會代碼本身。有趣的是，我第一次提出“vibe 編程”這個術語，是在一條隨手靈感發的推文里，當時完全沒想到它會發展得這么遠。

通過 Vibe 編程，編程不再嚴格局限于專業編碼人員，任何人都可以參與。從這個角度來看，它正是我在《賦能大眾》（Power to the People）中提到的例子之一：LLM 徹底顛覆了技術擴散的方式——與以往所有技術相比，普通人從 LLM 中獲得的收益遠超專業人士、企業甚至政府。

Vibe 編程不僅讓普通人能夠接觸編程，還讓訓練有素的專業人士能夠撰寫大量原本可能永遠不會出現的軟件。在 NanoChat 中，我通過 Vibe 編程，用 Rust 實現了自己定制的高效 BPE 分詞器，而無需采用現成庫，也不需要在 Rust 上達到多深的水平。

今年我用 Vibe 編程實現了很多項目，作為快速應用演示，來驗證我想要存在的功能（例如 menugen、llm-council、reader3、HN 時間膠囊）。我甚至用 Vibe 編程快速生成了整個短生命周期應用，只為了找出一個 bug——為什么不呢？代碼突然變得自由、短暫、可塑、一次性可丟棄。

Vibe 編程將重塑軟件生態，并改變工作崗位的定義。

Nano Banana / LLM GUI

Google Gemini 的 Nano Banana 是 2025 年最令人驚嘆、具有范式顛覆性的模型之一。在我的世界觀里，LLM 是下一代重要的計算范式，類似于 20 世紀 70、80 年代的計算機。

因此，我們將看到類似的創新，原因與當年計算機時代類似：會出現個人計算機的對應形態、微控制器（認知核心）的對應形態，甚至是由 Agent 構成的「互聯網」式系統，諸如此類。

特別是在 UI/UX 方面，與 LLM 進行“聊天”有點像在 1980 年代向計算機控制臺發出命令。文本是計算機（以及 LLM）最原生、首選的數據表示形式，但對人類來說，文本并不是最理想的輸入形式——人類其實不喜歡閱讀文本，它既慢又費力。人們更喜歡以視覺化和空間化的方式獲取信息，這也是傳統計算機中 GUI（圖形用戶界面）被發明的原因。同理，LLM 也應該以我們偏好的形式與我們交流——通過圖像、信息圖、幻燈片、白板、動畫/視頻、Web 應用等。

目前早期的嘗試形式當然包括 emoji 和 Markdown，它們通過視覺化方式“裝飾”和布局文本，使信息更易于理解，如標題、加粗、斜體、列表、表格等。但誰來真正構建 LLM GUI 呢？在這個視角下，Nano Banana 提供了一個早期的線索，展示了未來 LLM GUI 的可能形態。

值得注意的是，它不僅僅是圖像生成本身，更重要的是文本生成、圖像生成與世界知識的聯合能力，這些能力都在模型權重中緊密交織。

總結

2025 年是 LLM 發展令人興奮且略有驚訝的一年。LLM 正在顯現為一種全新的智能形態——它們在某些方面比我預期的更聰明，在某些方面又比我預期的更笨。無論如何，它們極具實用價值，而整個行業目前對它們的潛力認知，甚至還不到 10%。

同時，有太多新想法值得嘗試，從概念上來看，這個領域仍然廣闊開放。正如我今年早些時候提到的，我雖然表面上說法似乎矛盾，但實際上相信：一方面我們會看到快速且持續的進展，另一方面仍有大量工作需要完成。請系好安全帶。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.