網易首頁 > 網易號 > 正文申請入駐

Andrej Karpathy 年度總結：Nano Banana最為震撼，指向下一代 AI GUI 的雛形

2025-12-20 09:11:24　來源: AI寒武紀

江蘇舉報

分享至

↑閱讀之前記得關注+星標??，，每天才能第一時間接收到更新

AK的年終總結來了，這是不可錯過的好文，全文分享給大家

2025 年是大型語言模型（LLM）領域蓬勃發展、大事頻發的一年。以下是我個人認為最值得關注且略感意外的“范式轉變”清單——這些變化改變了行業格局，并在理念上讓我深受觸動

1. 基于可驗證獎勵的強化學習（RLVR）

在 2025 年初，各大實驗室的 LLM 生產流程大體如下：

預訓練（Pretraining，約 2020 年的 GPT-2/3）

指令微調（Supervised Finetuning，約 2022 年的 InstructGPT）

基于人類反饋的強化學習（RLHF，約 2022 年）

長期以來，這一直是訓練生產級 LLM 的成熟穩定配方。而到了 2025 年，基于可驗證獎勵的強化學習（RLVR） 成了這一組合中事實上的新成員。通過針對一系列可自動驗證獎勵的環境（例如數學題或代碼謎題）進行訓練，LLM 會自發地演化出在人類看來類似于“推理”的策略——它們學會了將問題拆解為中間計算步驟，并學會了多種來回嘗試、推導解決問題的策略（參見 DeepSeek R1 論文中的示例）。在之前的范式中，這些策略很難實現，因為人類并不清楚 LLM 最優的推理路徑和糾錯過程應該是怎樣的——模型必須通過針對獎勵的優化，自己找到行之有效的方法。

與 SFT 和 RLHF 這類計算量較小的“輕量級”微調階段不同，RLVR 針對的是客觀（不可作弊）的獎勵函數，這使得進行更長周期的優化成為可能。事實證明，運行 RLVR 具有極高的“能力/成本比”，它吞噬了原本計劃用于預訓練的算力。因此，2025 年的大部分能力提升，都源于各大實驗室在消化這一新階段帶來的“算力積壓”，總體上我們看到的模型參數規模變動不大，但 RL 運行的時間要長得多。同樣，這一新階段還帶了一個全新的調節旋鈕（以及相關的縮放定律）：我們可以通過生成更長的推理路徑、增加“思考時間”，來控制模型在推理時的能力表現。OpenAI 的 o1（2024 年底）是 RLVR 模型的首次展示，但 o3 的發布（2025 年初）才是明顯的拐點，讓你能直觀感受到這種差異。

2. 幽靈 vs. 動物 / 鋸齒狀智能

2025 年，我（以及我認為整個行業也是如此）開始從直覺上內化 LLM 智能的“形態”。我們并不是在“進化或培養動物”，而是在“召喚幽靈”。LLM 技術棧的一切（神經架構、訓練數據、訓練算法，尤其是優化壓力）都完全不同，因此產生出完全不同于生物智能的實體也就不足為奇了，用觀察動物的視角來看待它們是不恰當的。

從監督信息的比特位來看，人類神經網絡是為了在叢林部落中生存而優化的；而 LLM 神經網絡是為了模仿人類文本、在數學題中獲取獎勵、以及在 LM Arena 榜單上獲得人類點贊而優化的。隨著可驗證領域的出現，RLVR 使得 LLM 在這些領域附近的能力出現“激增”，整體表現出一種有趣的**“鋸齒狀”性能特征**：它們既是博學的天才，又像是個思維混亂、有認知障礙的小學生，前一秒還在解難題，后一秒就可能被簡單的提示詞破解（Jailbreak）從而泄露你的數據。

與此相關的是，我在 2025 年對各種基準測試（Benchmarks）產生了普遍的審美疲勞和信任危機。核心問題在于，基準測試從定義上幾乎就是“可驗證環境”，因此極易受到 RLVR 或更弱形式的合成數據生成的攻擊。在典型的“刷榜（benchmaxxing）”過程中，實驗室團隊不可避免地在測試集周圍構建環境，長出“鋸齒”來覆蓋這些區域。“面向測試集訓練”已經成了一種新的藝術形式。

如果一個模型刷爆了所有榜單，卻依然沒能實現通用人工智能（AGI），那會是怎樣的景象？

3. Cursor / 新一代 LLM 應用層

關于 Cursor，最令我觸目的（除了它今年的彗星般崛起）是它令人信服地揭示了“LLM 應用”的新層級——人們開始討論各行各業的“Cursor 版”。正如我在今年的 Y Combinator 演講中所強調的，像 Cursor 這樣的 LLM 應用為特定垂直領域封裝并編排了 LLM 調用：

它們處理“上下文工程”

它們在底層編排多個 LLM 調用，將其串聯成日益復雜的有向無環圖（DAG），精細平衡性能和成本

它們為人類參與提供特定應用的圖形界面（GUI）。

它們提供了一個“自主程度調節滑塊”

2025 年有很多關于這個新應用層究竟會有多“厚”的討論。LLM 實驗室會通吃所有應用，還是會給垂直應用留下肥沃的草原？我個人懷疑，LLM 實驗室傾向于培養出能力全面的“大學生”，而 LLM 應用則會通過提供私有數據、傳感器、執行器和反饋閉環，來組織、微調并真正驅動這些“大學生”團隊，使之成為特定領域的專業從業者。

4. Claude Code / 住在你電腦里的 AI

Claude Code (CC) 的出現，是 LLM 智能體（Agent）的第一次令人信服的展示——它能以循環往復的方式串聯工具調用和推理，進行長時間的問題解決。此外，CC 令我關注的一點是，它運行在你的電腦上，使用你的私有環境、數據和上下文。我認為 OpenAI 在這方面走偏了，因為他們把 Codex/智能體的重心放在了云端容器，通過 ChatGPT 編排，而不是放在 localhost（本地）。雖然云端運行的智能體集群感覺像是“AGI 的終局”，但我們生活在一個能力參差不齊、技術緩慢起步的過渡世界，直接在電腦上運行智能體，與開發者及其具體配置手拉手工作，反而更有意義。CC 抓住了這個優先順序，并將其打包成一個精美、極簡、令人信服的命令行（CLI）形態，改變了 AI 的樣貌——它不再是一個像 Google 那樣你主動訪問的網站，而是一個“住”在你電腦里的靈體/幽靈。這是一種全新的、獨特的 AI 交互范式

5. Vibe coding

2025 年，AI 跨越了一個能力閾值，使得人們僅憑英語就能構建各種令人驚嘆的程序，甚至完全忘記了代碼的存在。有趣的是，“Vibe coding”這個詞是我在一條淋浴時的胡思亂想推文里偶然創造的，完全沒料到它會流傳這么廣。

有了Vibe coding，編程不再是受過高度訓練的專業人士的專利，而是任何人都能做的事。在這方面，它再次印證了我之前在《權力歸于人民》中所寫的：LLM 如何反轉了技術擴散的腳本——與以往所有技術不同，普通人從 LLM 中獲益遠多于專業人士、企業和政府。不僅普通人能嘗試編程，受過訓練的專業人士也能寫出更多（氛圍編碼產生的）原本根本不會去寫的軟件。在開發 nanochat 時，我用 Rust 氛圍編碼了我自己的高效 BPE 分詞器，而不需要去尋找現有庫或在那個深度學習 Rust。今年我氛圍編碼了許多項目，作為我想要存在的東西的快速 Demo。我甚至為了找一個 Bug 氛圍編碼了整個臨時應用——因為代碼突然變得免費、瞬時、可塑，用完即棄。氛圍編碼將重塑軟件生態，并改變職業定義。

6. Nano Banana / LLM 圖形界面

Google Gemini Nano Banana 是 2025 年最令人震撼、最具范式轉移意義的模型之一。在我的世界觀里，LLM 是繼 1970、80 年代計算機之后的下一次重大計算范式。因此，我們將看到基于類似邏輯的類似創新：我們將看到個人計算的等價物、微控制器的等價物（認知核心）、互聯網的等價物（智能體網絡）等等。

特別是在 UI/UX 方面，與 LLM 對話有點像在 80 年代向電腦控制臺輸入命令。文本是計算機（和 LLM）偏好的原始數據表示，但它并不是人類偏好的格式，尤其是在輸入端。人類其實不喜歡讀長篇大論——這很慢且費勁。相反，人類喜歡以視覺和空間方式消耗信息，這就是傳統計算中 GUI 被發明的原因。同理，LLM 也應該以我們偏好的格式與我們交流——通過圖像、信息圖、幻燈片、白板、動畫/視頻、網頁應用等。

這種模式的早期和現狀當然是 Emoji 和 Markdown，它們是裝飾和排版文本的方式。但誰來真正構建“LLM GUI”呢？在這種視角下，Nano Banana 是這種可能性的早期雛形。重要的是，它的顯著特征不僅在于圖像生成本身，而在于由文本生成、圖像生成和世界知識在模型權重中交織而成的聯合能力。

簡而言之： 2025 年是 LLM 領域激動人心且略帶意外的一年。LLM 正在演變成一種新型智能，它比我預期的要聰明得多，同時也比我預期的要笨得多。無論如何，它們都極其有用，我認為即便以目前的能力，整個行業實現出的潛力還不到 10%。與此同時，還有太多的想法值得嘗試，從概念上講，這個領域依然大有可為。正如我今年早些時候在 Dwarkesh 的播客中所說：我同時相信（表面上看似矛盾）我們會看到持續且飛速的進展，但依然有大量艱苦的工作等待完成。

坐穩了，好戲才剛開始。

source：

https://x.com/karpathy/status/2002118205729562949

--end--

最后記得??我，每天都在更新：歡迎點贊轉發推薦評論，別忘了關注我

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.