![]()
在11月5日的AI科技日上,小鵬汽車揭開了第二代VLA方案的一縷面紗。
“去掉了語言轉譯層”、“與標準VLA方案不同”的寥寥數語,引發了大眾對小鵬自動駕駛算法架構的諸多猜測。
好事者最為關心的是,小鵬新一代VLA是否開始轉向了華為WE世界行為模型。
由于事關用戶心智,為了避免宣發上的營銷劣勢,大師兄對此語焉不詳。
那么,事情的真相到底是什么樣呢?
01
在黑話橫行的本土自動駕駛市場,誰能打造出一個清晰易懂且代表前沿方向的技術標簽,誰就能在用戶的心中占據位置上的遙遙領先。
鑒于華為已經將世界行為模型打造成了其智駕技術的核心標簽,如果小鵬跟隨使用相同的技術名詞,就會陷入淪為跟班的困境,面臨為他人做嫁衣的風險。
![]()
但形式不改實質,綜合來看,小鵬第二代VLA的架構在本質上就是世界行為模型。
在標準的VLA中,遵循的是V->L->A的串行架構,作為中間層的語言L是內部推理的橋梁,用于將視覺的場景轉化為可理解的文本邏輯,然后再將這些場景理解轉譯為軌跡和動作。
![]()
而在標準的世界行為模型中,模型會基于三維空間形式而非語言形式的理解,在內部重構一個數字形式的物理世界。
然后通過預測不同決策下環境的變化,選擇最優路徑,最后根據路徑軌跡生成相應的動作,直接控制車輛。
很顯然,小鵬第二代VLA遵循的就是世界模型里「理解」->「推演」->「生成」的路徑。
![]()
小鵬第二代VLA之所以轉向世界行為模型,主要是為了解決信息損耗、推理效率的問題。
在標準VLA架構中,存在視覺-語言、語言-動作的兩次轉譯,這兩次轉換不可避免地造成了信息的丟失。
就像大師兄在科技日上講的那樣,即便用1200多字的文本來描述一張二維圖片,也無法描述得非常全面。
![]()
之所以如此,是因為對自動駕駛而言,真正重要的是場景理解,是對外在物理世界的全面洞察,而文字描述只是對物理世界的有損表達。
對于物理世界的理解,真正的關鍵是「語義」,而非「語言」,富含語義的二維圖像和三維視覺特征,顯然無法被語義承載能力孱弱的一維文本式語言序列全面表達。
![]()
這是維度不同帶來的根本難題。
在三體世界里,四維世界的歌者文明能輕松地通過二向箔對三維世界的太陽系造成降維打擊。
在太陽系文明里,三維世界的人類也可以從從容容、游刃有余地造成二維世界螞蟻的慌慌張張、連滾帶爬,完美詮釋了什么叫向下兼容和降維打擊。
所以,在自動駕駛算法里,真正要克服的根本難題是從二維圖像到三維空間的升維,而不是從二維圖像向一維語言的降維。
![]()
至于推理效率,首先,標準VLA模型的架構是V-L-A,需要先將二維圖像形式的車輛周圍環境轉換為一維形式的文本語言。
然后在大語言模型里進行推理,將對場景的理解轉換成控制動作,中間存在V-L、L-A的兩次語言轉譯,步驟多、延遲高。
而世界行為模型直接完成V-A之間的映射,自然延遲低、效率高。
![]()
其次,標準VLA模型的核心組成部分,是具備了太多冗余能力的大語言模型。
我們之前曾經調侃過,司機智能體只需要完成安全、高效、舒適、合規的駕駛任務就足矣,不需要他上知天文、下知地理、學貫中西,一言不合就開車。
02
強化學習之父、今年的圖靈獎得主理查德·薩頓在表達對LLM(大語言模型)的不屑時表示,對于智能而言,語言部分只是表面一層薄薄的裝飾。
致力于發展具備空間理解能力的LWM(大世界模型)的AI教母李飛飛也有“語言只是世界這個‘事實總和’的一小部分”的類似觀點。
![]()
當然,我們必須承認,語言是對思想和信息極其強大的編碼方式。
作為人類智慧的重要部分,語言智能是相互交流和深邃思考的媒介,也是全社會知識財富積累的載體。
正是有鑒于此,二十世紀(參數丨圖片)偉大的哲學家維特根斯坦曾經提出過一個核心命題:語言的邊界就是世界的邊界。
![]()
含著金鑰匙出生的維特根斯坦捐出了全部的財產,我們要給他點贊。
但是,對于他這個觀點,我們還是要批判一番。
站在智能的角度,自然界充斥著各種各樣與語言無關的智能形式。
要知道,語言智能是在文字出現之后才發展出來的,在文字出現之前的漫長時期里,人類以及各類動物早就已經具有了強大的具身智能。
在這兩種智能形式里,駕駛任務顯然和具身智能更加相關。
![]()
我們也可以通過一個非常簡單的例子來解釋語言智能在駕駛任務中的局限和缺陷。
比方說,讓一個看不見但能聽得見的盲人坐到駕駛位上,您一直不停地在他耳邊解釋、表達交通場景,前面幾米處有車、兩邊的車道線在什么位置、右邊有幾位外賣小哥、道路曲率是多少、前方多少米有紅綠燈,就算你描述得非常清楚,想必盲人師傅也是不敢開的吧?
![]()
你不需要擁有180的智商,就能意識到,對于駕駛任務而言,重要的是理解并在“大腦”內重建三維空間,而非理解一維語言。
正是因為將二維圖像、三維空間轉換成一維語言描述是一種損失非常非常大的生成方式,造成了太多信息的丟失,我們才立法禁止盲人開車的。
這個例子可以很好地反映以語言智能為核心的VLA方案的核心缺陷!
昔日佛陀在世,教化弟子三千,有弟子問佛陀他講的智慧是不是包含了這個世界上的全部。
佛陀抓起一把土說,我講的只是我手中的土,沒有講出來的就像 大地上的土一樣多。
為什么?就是因為語言的表達能力太孱弱了!
基于同樣的理由,小鵬汽車放棄了大力宣傳了將近一年之久的VLA方案,轉向了華為、特斯拉領銜的世界行為模型。
既然如此,一個有趣的問題來了,小鵬已經倒戈,理想汽車還會遠嗎?宣稱要在今年拿出VLA方案的小米又該怎么辦?
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.