網易首頁 > 網易號 > 正文申請入駐

近兩百萬人圍觀的Karpathy年終大語言模型清單，主角是它們

2025-12-22 14:49:59　來源: 機器之心Pro

北京舉報

分享至

編輯｜杜偉

2025 年還有 10 天就要結束，這意味著是時候進行一波年終總結了。

對于人工智能領域而言，2025 年是大語言模型（LLM）快速演進、重磅事件密集出現的一年。

就在昨天，知名 AI 學者 Karpathy 列出了一份清單，記錄了他個人認為最重要、也多少有些出乎意料的「范式轉變」。

這些真正改變了行業格局、并在概念層面讓 Karpathy 印象深刻的變化會落在哪些領域呢？我們接下來一一來看（以第一人稱）。

可驗證獎勵強化學習（RLVR）

2025 年初，幾乎所有實驗室的 LLM 生產訓練流程都像下面這樣：

預訓練（類似 2020 年的 GPT-2/3）；
監督微調（SFT，類似 2022 年的 InstructGPT）
基于人類反饋的強化學習（RLHF，約 2022 年）

這套流程穩定、可靠，曾長期被視為「工業級 LLM」的標準做法。

但在 2025 年，一種新的階段浮出水面，并迅速成為事實上的標配：可驗證獎勵強化學習（Reinforcement Learning from Verifiable Rewards，RLVR）

RLVR 的核心做法是，讓模型在可自動驗證的環境中接受強化學習訓練，比如數學題、代碼題、邏輯謎題等。在這些環境中，模型自發學會一些在人類看來非常像「推理」的策略：它會把復雜問題拆解成中間步驟，并反復試探、修正路徑，逐步逼近答案（DeepSeek R1 的論文中有不少很好的例子）。

在以往的 SFT 或 RLHF 框架下，這類「推理軌跡」是極難人為設計出來的。這是因為我們并不知道對模型而言，什么才是「最優的思考過程」。而在 RLVR 中，模型可以通過優化獎勵函數，自行摸索出對自己最有效的解題方式。

此外，與 SFT 和 RLHF 這種「計算量相對較小的薄層微調」不同，RLVR 使用的是客觀、難以被投機取巧的獎勵函數，這使得訓練可以跑得非常久。結果就是：RLVR 提供了極高的能力 / 成本比，大量吞噬了原本準備用于預訓練的算力。

因此，2025 年的大部分能力提升，并不是來自模型規模的暴漲，而是來自相似規模模型 + 更長時間的 RL 訓練。這個階段還帶來了一個全新的「旋鈕」：通過在推理時生成更長的思考鏈條、投入更多測試時算力，模型能力可以繼續提升，并呈現出新的 scaling law。

OpenAI 的 o1（2024 年底）是第一個明確展示 RLVR 思路的模型，而 2025 年初的 o3，則是那個讓人直觀感受到質變拐點的版本。

幽靈 vs 動物：鋸齒狀智能

2025 年，是我（以及我認為整個行業）第一次真正直覺性地理解了 LLM 智能的「形狀」。我們并不是在「培育或進化動物」，而是在「召喚幽靈」。

LLM 的一切都和人類不同：神經結構不同、訓練數據不同、訓練算法不同，最關鍵的是優化目標完全不同。人類神經系統，是為叢林生存、部落協作而優化的；而 LLM 是為模仿人類文本、在數學謎題中拿分、在 LM Arena 里獲得點贊而優化的。

一旦某些領域具備可驗證性，RLVR 就會在這些區域「長出尖刺」。于是我們看到的，是一種鋸齒化（jagged）明顯的能力分布：它們可以在某些領域表現得像博學的天才，同時又在另一些地方像困惑的小學生，甚至輕易被 jailbreak 套走隱私數據。

我很喜歡一張 meme：人類智能是藍色曲線，AI 是紅色曲線。它也提醒我們：人類智能本身，同樣是鋸齒狀的，只是形狀不同。

這也解釋了我在 2025 年對基準普遍不當回事與不信任。問題在于：基準測試本質上就是可驗證環境，因此天然容易被 RLVR 或弱化版本的「合成數據訓練」所攻破。

在現實中，模型團隊往往會在基準所在的嵌入空間附近「培育能力突起」，把 jaggies 精準地長到測試點上。「在測試集上訓練」已經演變成了一門藝術

那么問題來了：如果一個模型碾壓了所有基準，卻依然不是 AGI，那意味著什么？

Cursor：LLM 應用的新一層

Cursor 在 2025 年的爆發本身就很驚人，但對我而言，更重要的是：它清晰地揭示了一種全新的 LLM 應用層

人們開始說，「這是某某領域的 Cursor」。在我今年 YC 演講中提到過：像 Cursor 這樣的 LLM 應用，本質是在為特定垂直領域打包和編排 LLM 能力：

上下文工程（context engineering）；
在后臺編排多次 LLM 調用，形成越來越復雜的 DAG，同時平衡成本與性能；
提供面向人的、領域專用的 GUI；
提供「自主性滑塊」（autonomy slider）。

2025 年圍繞著一個問題出現了大量討論：這一層會有多厚？LLM 實驗室會不會吞掉所有應用？還是說，LLM 應用層依然有廣闊空間？

我個人的判斷是：基礎模型會趨向于「一個通用能力很強的大學畢業生」，而真正把他們組織成專業團隊、在具體行業中落地的會是應用層，通過私有數據、傳感器、執行器和反饋回路將模型組織并投入實際工作流程」。

Claude Code：住在你電腦里的 AI

Claude Code（CC）是我第一次覺得：「這才像一個真正的 LLM Agent。」它以循環方式將推理與工具調用串聯起來，能持續解決長任務。

更重要的是：它運行在你的本地電腦上，直接使用你的環境、數據和上下文。

我認為 OpenAI 在這里判斷失誤了：他們把 agent /codex 的重心放在云端容器、由 ChatGPT 統一調度；而在一個能力鋸齒、起飛緩慢的世界里，更合理的順序其實是先讓 agent 成為開發者身邊的伙伴。

Claude Code 在這點上做對了，并且用一個極其優雅、極簡、極具說服力的 CLI 形態呈現出來。

AI 不再只是一個你訪問的網站，而是一個住在你電腦里的小幽靈。

這是一次全新的交互范式轉變。

Vibe Coding（氛圍編程）

2025 年，是 AI 跨過某個關鍵門檻的一年：人們可以只用英語構建復雜程序，甚至忘記代碼本身的存在。

有趣的是，「vibe coding」這個詞，最早只是我一條隨手寫的推文，完全沒想到會流傳這么廣。

Vibe coding 讓編程不再只是專業工程師的專利，任何人都可以上手；但同時，它也讓專業工程師可以寫出大量原本永遠不會被寫出來的軟件。

在 nanochat 項目中，我直接用 vibe coding 寫了一個高效的 Rust BPE tokenizer；我用它快速寫了很多 demo 項目（比如 menugen、llm-council、reader3、HN time capsule）；甚至為了定位一個 bug，我會 vibe coding 一個臨時應用，用完即棄。

代碼變得不值錢、短暫存在、并可隨意改寫與丟棄

Vibe coding 在重塑軟件形態之外，也會重塑工作角色。

Nano Banana：LLM 的 GUI

Google Gemini 的「Nano Banana」，是 2025 年最讓我震撼的模型之一。

在我的世界觀里，LLM 是類似 1970–80 年代計算機的新一代通用計算范式，因此我們必然會看到類似的演化路徑：

個人計算
微控制器（認知核心）
Agent 網絡（類似互聯網）

而在 UI/UX 層面，「聊天」就像 80 年代的命令行。文本是計算機最偏好的表示形式，但并不是人類最喜歡的輸入方式。人們更喜歡視覺化、空間化的信息 —— 這正是 GUI 出現的原因。

同理，LLM 也應該用我們偏好的形式與我們交流：圖片、信息圖、幻燈片、白板、動畫、網頁應用……

Emoji 和 Markdown 只是最早期、最粗糙的嘗試。那么，誰會構建真正的 LLM GUI？在我看來，Nano Banana 是一個非常早期但重要的信號。

它的意義不只在于圖像生成，而在于：文本、圖像與世界知識在同一模型中深度糾纏

最后總結

2025 年，是一個令人興奮、也充滿意外的大模型之年。

LLM 正在顯現出一種全新的智能形態：它們既比我預期的聰明得多，又比我預期的愚蠢得多

但無論如何，它們已經極其有用，而我認為行業甚至還沒有發揮出它們 10% 的潛力。

想法太多，空間太大，這個領域仍然是開放的。

正如我今年在 Dwarkesh 播客中說過的那樣：

我一方面相信進展會持續且迅猛，另一方面也清楚，還有大量艱苦而細致的工作要做。

「系好安全帶」，接下來只會更快。

原推鏈接：https://x.com/karpathy/status/2002118205729562949

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.