![]()
來源:機器之心
編輯:杜偉
2025 年還有 10 天就要結(jié)束,這意味著是時候進(jìn)行一波年終總結(jié)了。
對于人工智能領(lǐng)域而言,2025 年是大語言模型(LLM)快速演進(jìn)、重磅事件密集出現(xiàn)的一年。
就在昨天,知名 AI 學(xué)者 Karpathy 列出了一份清單,記錄了他個人認(rèn)為最重要、也多少有些出乎意料的「范式轉(zhuǎn)變」。
![]()
這些真正改變了行業(yè)格局、并在概念層面讓 Karpathy 印象深刻的變化會落在哪些領(lǐng)域呢?我們接下來一一來看(以第一人稱)。
可驗證獎勵強化學(xué)習(xí)(RLVR)
2025 年初,幾乎所有實驗室的 LLM 生產(chǎn)訓(xùn)練流程都像下面這樣:
預(yù)訓(xùn)練(類似 2020 年的 GPT-2/3);
監(jiān)督微調(diào)(SFT,類似 2022 年的 InstructGPT)
基于人類反饋的強化學(xué)習(xí)(RLHF,約 2022 年)
這套流程穩(wěn)定、可靠,曾長期被視為「工業(yè)級 LLM」的標(biāo)準(zhǔn)做法。
但在 2025 年,一種新的階段浮出水面,并迅速成為事實上的標(biāo)配:可驗證獎勵強化學(xué)習(xí)(Reinforcement Learning from Verifiable Rewards,RLVR)。
RLVR 的核心做法是,讓模型在可自動驗證的環(huán)境中接受強化學(xué)習(xí)訓(xùn)練,比如數(shù)學(xué)題、代碼題、邏輯謎題等。在這些環(huán)境中,模型自發(fā)學(xué)會一些在人類看來非常像「推理」的策略:它會把復(fù)雜問題拆解成中間步驟,并反復(fù)試探、修正路徑,逐步逼近答案(DeepSeek R1 的論文中有不少很好的例子)。
在以往的 SFT 或 RLHF 框架下,這類「推理軌跡」是極難人為設(shè)計出來的。這是因為我們并不知道對模型而言,什么才是「最優(yōu)的思考過程」。而在 RLVR 中,模型可以通過優(yōu)化獎勵函數(shù),自行摸索出對自己最有效的解題方式。
此外,與 SFT 和 RLHF 這種「計算量相對較小的薄層微調(diào)」不同,RLVR 使用的是客觀、難以被投機取巧的獎勵函數(shù),這使得訓(xùn)練可以跑得非常久。結(jié)果就是:RLVR 提供了極高的能力 / 成本比,大量吞噬了原本準(zhǔn)備用于預(yù)訓(xùn)練的算力。
因此,2025 年的大部分能力提升,并不是來自模型規(guī)模的暴漲,而是來自相似規(guī)模模型 + 更長時間的 RL 訓(xùn)練。這個階段還帶來了一個全新的「旋鈕」:通過在推理時生成更長的思考鏈條、投入更多測試時算力,模型能力可以繼續(xù)提升,并呈現(xiàn)出新的 scaling law。
OpenAI 的 o1(2024 年底)是第一個明確展示 RLVR 思路的模型,而 2025 年初的 o3,則是那個讓人直觀感受到質(zhì)變拐點的版本。
幽靈 vs 動物:鋸齒狀智能
2025 年,是我(以及我認(rèn)為整個行業(yè))第一次真正直覺性地理解了 LLM 智能的「形狀」。我們并不是在「培育或進(jìn)化動物」,而是在「召喚幽靈」。
LLM 的一切都和人類不同:神經(jīng)結(jié)構(gòu)不同、訓(xùn)練數(shù)據(jù)不同、訓(xùn)練算法不同,最關(guān)鍵的是優(yōu)化目標(biāo)完全不同。人類神經(jīng)系統(tǒng),是為叢林生存、部落協(xié)作而優(yōu)化的;而 LLM 是為模仿人類文本、在數(shù)學(xué)謎題中拿分、在 LM Arena 里獲得點贊而優(yōu)化的。
一旦某些領(lǐng)域具備可驗證性,RLVR 就會在這些區(qū)域「長出尖刺」。于是我們看到的,是一種鋸齒化(jagged)明顯的能力分布:它們可以在某些領(lǐng)域表現(xiàn)得像博學(xué)的天才,同時又在另一些地方像困惑的小學(xué)生,甚至輕易被 jailbreak 套走隱私數(shù)據(jù)。
![]()
我很喜歡一張 meme:人類智能是藍(lán)色曲線,AI 是紅色曲線。它也提醒我們:人類智能本身,同樣是鋸齒狀的,只是形狀不同。
這也解釋了我在 2025 年對基準(zhǔn)普遍不當(dāng)回事與不信任。問題在于:基準(zhǔn)測試本質(zhì)上就是可驗證環(huán)境,因此天然容易被 RLVR 或弱化版本的「合成數(shù)據(jù)訓(xùn)練」所攻破。
在現(xiàn)實中,模型團隊往往會在基準(zhǔn)所在的嵌入空間附近「培育能力突起」,把 jaggies 精準(zhǔn)地長到測試點上。「在測試集上訓(xùn)練」已經(jīng)演變成了一門藝術(shù)。
那么問題來了:如果一個模型碾壓了所有基準(zhǔn),卻依然不是 AGI,那意味著什么?
Cursor:LLM 應(yīng)用的新一層
Cursor 在 2025 年的爆發(fā)本身就很驚人,但對我而言,更重要的是:它清晰地揭示了一種全新的 LLM 應(yīng)用層。
人們開始說,「這是某某領(lǐng)域的 Cursor」。在我今年 YC 演講中提到過:像 Cursor 這樣的 LLM 應(yīng)用,本質(zhì)是在為特定垂直領(lǐng)域打包和編排 LLM 能力:
上下文工程(context engineering);
在后臺編排多次 LLM 調(diào)用,形成越來越復(fù)雜的 DAG,同時平衡成本與性能;
提供面向人的、領(lǐng)域?qū)S玫?GUI;
提供「自主性滑塊」(autonomy slider)。
2025 年圍繞著一個問題出現(xiàn)了大量討論:這一層會有多厚?LLM 實驗室會不會吞掉所有應(yīng)用?還是說,LLM 應(yīng)用層依然有廣闊空間?
我個人的判斷是:基礎(chǔ)模型會趨向于「一個通用能力很強的大學(xué)畢業(yè)生」,而真正把他們組織成專業(yè)團隊、在具體行業(yè)中落地的會是應(yīng)用層,通過私有數(shù)據(jù)、傳感器、執(zhí)行器和反饋回路將模型組織并投入實際工作流程」。
Claude Code:住在你電腦里的 AI
Claude Code(CC)是我第一次覺得:「這才像一個真正的 LLM Agent。」它以循環(huán)方式將推理與工具調(diào)用串聯(lián)起來,能持續(xù)解決長任務(wù)。
更重要的是:它運行在你的本地電腦上,直接使用你的環(huán)境、數(shù)據(jù)和上下文。
我認(rèn)為 OpenAI 在這里判斷失誤了:他們把 agent /codex 的重心放在云端容器、由 ChatGPT 統(tǒng)一調(diào)度;而在一個能力鋸齒、起飛緩慢的世界里,更合理的順序其實是先讓 agent 成為開發(fā)者身邊的伙伴。
Claude Code 在這點上做對了,并且用一個極其優(yōu)雅、極簡、極具說服力的 CLI 形態(tài)呈現(xiàn)出來。
AI 不再只是一個你訪問的網(wǎng)站,而是一個住在你電腦里的小幽靈。
這是一次全新的交互范式轉(zhuǎn)變。
Vibe Coding(氛圍編程)
2025 年,是 AI 跨過某個關(guān)鍵門檻的一年:人們可以只用英語構(gòu)建復(fù)雜程序,甚至忘記代碼本身的存在。
有趣的是,「vibe coding」這個詞,最早只是我一條隨手寫的推文,完全沒想到會流傳這么廣。
Vibe coding 讓編程不再只是專業(yè)工程師的專利,任何人都可以上手;但同時,它也讓專業(yè)工程師可以寫出大量原本永遠(yuǎn)不會被寫出來的軟件。
在 nanochat 項目中,我直接用 vibe coding 寫了一個高效的 Rust BPE tokenizer;我用它快速寫了很多 demo 項目(比如 menugen、llm-council、reader3、HN time capsule);甚至為了定位一個 bug,我會 vibe coding 一個臨時應(yīng)用,用完即棄。
代碼變得不值錢、短暫存在、并可隨意改寫與丟棄。
Vibe coding 在重塑軟件形態(tài)之外,也會重塑工作角色。
Nano Banana:LLM 的 GUI
Google Gemini 的「Nano Banana」,是 2025 年最讓我震撼的模型之一。
在我的世界觀里,LLM 是類似 1970–80 年代計算機的新一代通用計算范式,因此我們必然會看到類似的演化路徑:
個人計算
微控制器(認(rèn)知核心)
Agent 網(wǎng)絡(luò)(類似互聯(lián)網(wǎng))
而在 UI/UX 層面,「聊天」就像 80 年代的命令行。文本是計算機最偏好的表示形式,但并不是人類最喜歡的輸入方式。人們更喜歡視覺化、空間化的信息 —— 這正是 GUI 出現(xiàn)的原因。
同理,LLM 也應(yīng)該用我們偏好的形式與我們交流:圖片、信息圖、幻燈片、白板、動畫、網(wǎng)頁應(yīng)用……
Emoji 和 Markdown 只是最早期、最粗糙的嘗試。那么,誰會構(gòu)建真正的 LLM GUI?在我看來,Nano Banana 是一個非常早期但重要的信號。
它的意義不只在于圖像生成,而在于:文本、圖像與世界知識在同一模型中深度糾纏。
最后總結(jié)
2025 年,是一個令人興奮、也充滿意外的大模型之年。
LLM 正在顯現(xiàn)出一種全新的智能形態(tài):它們既比我預(yù)期的聰明得多,又比我預(yù)期的愚蠢得多。
但無論如何,它們已經(jīng)極其有用,而我認(rèn)為行業(yè)甚至還沒有發(fā)揮出它們 10% 的潛力。
想法太多,空間太大,這個領(lǐng)域仍然是開放的。
正如我今年在 Dwarkesh 播客中說過的那樣:
我一方面相信進(jìn)展會持續(xù)且迅猛,另一方面也清楚,還有大量艱苦而細(xì)致的工作要做。
「系好安全帶」,接下來只會更快。
原推鏈接:https://x.com/karpathy/status/2002118205729562949
閱讀最新前沿科技趨勢報告,請訪問歐米伽研究所的“未來知識庫”
https://wx.zsxq.com/group/454854145828
![]()
未來知識庫是“ 歐米伽 未來研究所”建立的在線知識庫平臺,收藏的資料范圍包括人工智能、腦科學(xué)、互聯(lián)網(wǎng)、超級智能,數(shù)智大腦、能源、軍事、經(jīng)濟、人類風(fēng)險等等領(lǐng)域的前沿進(jìn)展與未來趨勢。目前擁有超過8000篇重要資料。每周更新不少于100篇世界范圍最新研究資料。 歡迎掃描二維碼或訪問https://wx.zsxq.com/group/454854145828進(jìn)入。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.