2025年,被稱為智能體之年。這一年正在進入尾聲,智能體怎么樣了?
硅谷AI大神卡帕西(Andrej Karpathy),最近接受科技播客 Dwarkesh Patel長達3小時采訪,對AI界提出了一些尖銳的批評。他在對話中說:有些智能體就是垃圾,這個行業“試圖假裝這很神奇”。播客視頻發布之后,引起許多爭議。
卡帕西平時寫推文的風格,其實一向是反思、謙遜、技術含量很高又帶點人文色彩。他又發了一篇長推文,借此澄清了播客中被誤讀的重點:他并不看空 AGI,只是比當前的樂觀情緒更理性;他看好智能體交互、看衰傳統 RL;強調“認知核心”與記憶削弱的方向;也批評了過度自動化的 Agent 幻象。
下面是他的長推文翻譯,我們做了一點刪節,調整了小標題。如下:
![]()
很高興上周能參加 Dwarkesh 的節目。我覺得他的問題和整場對話都非常好。
我剛又重新看了一遍那期播客。首先,是的,我知道——我說話實在太快了,對此我很抱歉。這對我自己其實也不利,因為有時候我的“說話線程”比“思考線程”還快,結果導致有些解釋沒講好;有時我又擔心自己扯得太遠、太枝蔓。總之,這里是一些補充說明:
AGI 時間表:悲觀5-10倍
我在節目里談AGI時間表的部分似乎成了早期反響里最熱門的段落。我說的“智能體的十年(decade of agents)”其實指的是我之前那條推文。總體來說,我的 AI 時間線比你在舊金山的 AI 圈聚會或 Twitter 時間線上聽到的要悲觀 5–10 倍,但相比近來出現的一股“AI 懷疑論”浪潮,我又仍然算樂觀。
這并不矛盾——我認為我們確實在近幾年 LLM 上取得了巨大進展, 但同時要實現真正的 AGI 仍有大量工作要做:底層工程整合、感知器與執行器接入物理世界、社會制度配套、安全與防護(如越獄、數據投毒)等,還有許多研究任務要完成,才能造出一個“在任何崗位上你都寧愿雇用它而非人類”的實體。
從整體上看,10 年其實已經是個相當樂觀的 AGI 時間表——只是與當下的“過熱”情緒相比,才顯得不那么樂觀而已。
動物 vs 幽靈
我在 Sutton 的播客上寫過一篇相關的想法。我對“只需放出一種簡單算法就能從零學會一切”這類說法持懷疑態度。
如果有人真的造出了這樣的系統,那我寧愿被打臉——那將是 AI 史上最驚人的突破。
在我看來,動物絕不是這樣的例子。它們在出生前就被進化過程預裝了大量智慧,出生后的學習其實很有限(比如斑馬一出生就能站立奔跑)。從工程角度說,我們不可能“重做一次進化”。
但 LLM 意外地走出了一條替代路徑:我們通過預測網絡上的下一個 token,而不是生物進化,來“預裝”大量智能。 這種方式造出的智能體,不像動物,更像幽靈或靈體(ghosts/spirits)。當然,我們可以也應該讓它們逐漸更“像動物”,這也是許多前沿研究正在做的事情。
嘈雜的強化學習
我已經多次批評過RL。首先,它的問題是“像通過吸管吸監督信號(sucking supervision through a straw)”,也就是說信號效率極低。
其次,RL的反饋極其嘈雜:一個生成可能包含許多錯誤,但只要最終結果正確,就可能把那些錯誤步驟也獎勵了;反過來,一個中途很有洞見的 token 卻可能因為后續出錯而被懲罰。“過程監督”或LLM 評審也各有問題。
我認為我們會看到新的學習范式出現。我長期看好“智能體式交互(agentic interaction)”,但短期看衰傳統 RL。
我最近看到一些論文的方向是對的,類似我之前稱作“系統提示學習(system prompt learning)”的思路。但 arXiv 上的點子與能在前沿實驗室真正大規模落地的實現之間,仍有鴻溝。
總體我仍然樂觀——這一方向的進展會很快出現。 例如,ChatGPT 的記憶功能等,已經是這種新學習范式的原始實踐雛形。
認知才是核心
我早先的帖子中,核心想法是剝除 LLM 的記憶,使其更難死記硬背,甚至主動移除部分記憶,從而增強泛化能力。 否則模型會過度依賴所記住的東西。
人類記憶困難——而這反倒可能是個優點,一種天然的正則化。參見我另一篇關于模型規模趨勢“反向”的帖子: 為什么“模型必須先變大,然后才能變小”。
低能的智能體
我對當前業界的批評主要是:工具做得過頭,而能力還沒跟上。我生活在一個“中間狀態”的世界——我想與 LLM 協作,我們各有所長。整個業界似乎活在一個未來幻境里:那時完全自主的智能體并行合作寫完所有代碼,人類已無用武之地。
例如,我并不想要一個跑 20 分鐘后回來給我1000 行代碼的智能體。我更不想監督 10 個這樣的代理團隊。
我希望以自己能理解的“塊”為單位推進:LLM在寫代碼時能解釋給我聽;它能向我證明代碼正確;它自動查API文檔并展示用法;在不確定時少做假設,多與我協作。
我希望在過程中一起學習,成為更好的程序員,而不是被動地接收一堆“看似能跑的山一樣的代碼”。
我只是認為:這些工具應該更現實地匹配當前能力和行業需求。否則,若處理不好,我們可能會迎來“軟件垃圾山”:漏洞、攻擊面、安全問題都會激增。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.