![]()
上次我們解析了 JEPA的架構和Meta 的構想( ),這次聽聽楊立昆的直白表述。
在今年初巴黎AI峰會上,圖靈獎得主、Meta首席AI科學家楊立昆(Yann LeCun)投下了一枚重磅炸彈:“如果要研究人類級AI,就別碰大語言模型。”他用一個極具挑釁性的比喻總結了自己的觀點:今天最先進的大模型(LLM),在對世界的理解上,“比貓還笨”。
這番言論無異于在烈火烹油的AI熱潮中潑下一盆冷水。為何一位締造了現代深度學習的巨擘,會對當前最炙手可熱的技術提出如此根本性的質疑?這不僅是一場技術路線之爭,更指向一個深刻的問題:我們今天所追求的“智能”,是否走在正確的道路上?
第一部分:能說會道的“世界文盲”
要理解楊立昆的批判,首先必須剝開大語言模型(LLM)華麗的外殼,審視其技術內核。
LLM的本質是一個基于海量文本數據訓練的“自動補全”大師。無論是GPT-4還是其他同類模型,其核心任務都是在給定一段文本后,以最高的概率預測下一個詞或字符。它們通過學習數萬億詞元(token)之間的統計規律,成為了精通人類語言語法、風格和知識的“博學之士”。
然而,這種精通是表面的。LLM學習的是詞語與詞語之間的關聯,而非詞語所指向的物理世界。它們知道“蘋果”這個詞后面很可能跟著“是紅色的”或“可以吃”,但它們從未真正“見過”一個蘋果,也無法理解“從樹上掉下來”背后蘊含的重力法則。
“沒有世界模型,就沒有規劃。今天的大模型比貓還笨。” —— Yann LeCun
這便是楊立昆所指的致命缺陷:由于缺乏對真實世界的內在模型,LLM無法進行真正的規劃(Planning)和推理(Reasoning)。
它們可以“描述”計劃:一個LLM可以為你生成一份完美的“如何從辦公室走到樓下咖啡館”的路線計劃。
但它們無法“預演”計劃:它無法像人一樣,在腦海中模擬這個過程——預見到下雨需要帶傘,電梯壞了需要走樓梯,或者咖啡館可能已經關門。這種在心中預演并評估計劃可行性與后果的能力,源于我們對世界運行規律的內在理解,而這正是LLM所缺失的。
ACL 2024的一篇論文也佐證了這一點,研究表明即使是強大的GPT-4,在模擬常識性物理狀態變化時的準確率也僅約60%。它們是能說會道的“世界文盲”,雖然掌握了描述世界的語言,卻對世界本身一無所知。
![]()
第二部分:為何貓更“聰明”?——“世界模型”的重要性
楊立昆“比貓還笨”的比喻,看似夸張,實則點明了智能的另一種形態。
一只貓或許無法理解微積分或莎士比亞,但它擁有一個與生俱來的、直覺性的世界模型(World Model)。
它理解物理常識:貓知道物體是永存的(藏在毯子下的玩具依然存在),理解重力(松開爪子,東西會掉下去),并對空間有基本的概念。
它能夠預測和規劃:當一只貓準備跳上桌子時,它會估算高度、距離,并預測自己需要用多大的力氣才能成功。這個過程不是基于語言,而是基于對物理世界運行規律的本能理解和內部模擬。
這正是楊立昆所推崇的核心理念——世界模型。它是一個智能體內部對現實世界的模擬器,使其能夠:
通過觀察學習世界規律:不僅僅是閱讀文本,而是像嬰兒一樣,通過觀 察 視頻、與環境互動來學習。
在“腦中”進行模擬:在采取實際行動前,可以在內部世界模型中“做夢”或“ 想象 ”,預演不同行動可能帶來的后果。
獲得 真正的理解力與常識 :基于這種模擬能力,智能體才能 真正獲得關于因果、物理和邏輯的常識 。
從這個角度看,貓的“智能”雖然領域狹窄,但在理解和與物理世界互動這一核心維度上,它確實超越了當前只會“紙上談兵”的大語言模型。
![]()
第三部分:超越語言——JEPA與AI的未來
楊立昆的批判并非為了全盤否定,而是為了指明一條更具潛力的道路。在“破”的同時,他也給出了“立”的方案——聯合嵌入預測架構(JEPA, Joint Embedding Predictive Architecture)。
JEPA是構建世界模型的一條具體技術路徑。它的核心思想極具革命性:讓AI在抽象的表征空間(Representation Space)中進行預測,而不是在原始的像素或文本空間。
簡單來說,相比于讓LLM預測下一個“單詞”,或讓視頻模型生成下一幀畫面的每一個“像素”,JEPA的目標是:
觀察部分信息 (例如,視頻的一小部分)。
預測 另一部分信息的抽象特征 (例如,被遮擋區域里會發生什么事的高層語義)。
這種方法迫使模型去學習世界運行的底層規律和因果關系,而不是糾結于表面細節(比如樹葉的隨機擺動)。這代表了一條與LLM截然不同的AI發展路線圖:
發展路線
大語言模型 (LLM)
世界模型 (JEPA)
學習來源
離散的文本數據(低帶寬)
多模態的感官數據 ,如視頻(高帶寬)
學習目標
預測下一個詞元的統計概率
預測世界狀態的 抽象變化
核心能力
語言的模式匹配與生成
對物理世界的 理解、預測與規劃
智能體形態
博學的“書呆子”
能與世界 互動 的“行動派”
未來的通用人工智能(AGI)不應只是一個知識淵博的“數據庫”,而應是能夠理解并與物理世界互動的、擁有常識的智能體。
![]()
結論:回歸智能的本質
楊立昆對大語言模型的尖銳批判,并非否定其在特定任務上的巨大成功,而是警示我們:如果目標是達到人類級別的通用智能,僅靠擴大語言模型的規模是一條死胡同。
通往AGI的真正關鍵,在于讓機器構建起對現實世界的感知、理解和預測能力——即擁有自己的“世界模型”。這需要AI像嬰兒一樣,睜開“眼睛”去觀察世界,而不僅僅是閉門“讀書”。
這不僅是一場技術路線的爭論,更關乎我們對“智能”本質的根本思考。是選擇成為一個能言善辯的“世界文盲”,還是成為一個沉默但深刻的“世界觀察者”?楊立昆給出了他的答案。AI的未來,或許正取決于我們是否敢于跳出語言的牢籠,回歸對真實世界的探索。
![]()
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.