![]()
新智元報(bào)道
編輯:定慧
【新智元導(dǎo)讀】特斯拉FSD的最新版本v14已經(jīng)發(fā)布有段時(shí)間了,性能如何?英偉達(dá)Jim Fan說(shuō)它通過(guò)了物理圖靈測(cè)試。v14或許預(yù)示著馬斯克的預(yù)言要被他親手實(shí)現(xiàn)了。
近日,英偉達(dá)通用具身(GEAR)團(tuán)隊(duì)負(fù)責(zé)人Jim Fan在親身體驗(yàn)后,提出了一個(gè)極具哲學(xué)意味的論斷:
FSD v14已經(jīng)通過(guò)了「物理圖靈測(cè)試」。
![]()
馬斯克也同時(shí)轉(zhuǎn)帖說(shuō),「你能感受到那種意識(shí)(智能)正在逐漸覺醒」。
![]()
Jim Fan描述的體驗(yàn)是,在結(jié)束一天工作后,乘客只需按下按鈕,便可「無(wú)法分辨是神經(jīng)網(wǎng)絡(luò)還是人類司機(jī)將你送回家」。
馬斯克對(duì)FSD v14的評(píng)價(jià)更為大膽,他直言這款軟件「感覺已經(jīng)產(chǎn)生了自我意識(shí)」。
![]()
從Jim Fan的介紹來(lái)看,他和馬斯克關(guān)系匪淺,不僅是OpenAI是第一位實(shí)習(xí)生,現(xiàn)在還是英偉達(dá)機(jī)器人部門總監(jiān)兼杰出科學(xué)家。
這波聯(lián)動(dòng)能猜測(cè)出老黃和老馬的關(guān)系不錯(cuò)。不過(guò)Jim Fan并不在直接匯報(bào)給黃仁勛的36人名單中。
![]()
很多人都忽略了FSD的強(qiáng)大,如果說(shuō)ChatGPT的橫空出世標(biāo)志著數(shù)字智能攻克了語(yǔ)言的巴別塔,那么FSD v14的發(fā)布,則被視世界模型邁向現(xiàn)實(shí)世界的關(guān)鍵里程碑。
![]()
按照沙利文的調(diào)研報(bào)告,自動(dòng)駕駛是屬于世界模型發(fā)展最快的一個(gè)分支。
![]()
這不再是關(guān)于像素的生成或文本的排列,而是關(guān)于鋼鐵與物理定律的交互。
當(dāng)數(shù)噸重的金屬物體在復(fù)雜的城市脈絡(luò)中以每小時(shí)60英里的速度穿梭,表現(xiàn)出的決策邏輯與人類駕駛員難以分辨時(shí),我們被迫重新審視「智能」的定義。
物理圖靈測(cè)試:重新定義智能的邊界
七十五年前,阿蘭·圖靈提出了著名的「模仿游戲」,即后世所稱的圖靈測(cè)試。
![]()
其核心在于剝離物理實(shí)體,僅通過(guò)文本交流來(lái)判斷機(jī)器是否具有人類般的智能。
然而,隨著大型語(yǔ)言模型(LLM)的發(fā)展,即便機(jī)器能夠生成完美的十四行詩(shī)或調(diào)試復(fù)雜的代碼,它依然是一個(gè)被困在服務(wù)器機(jī)架中的「大腦」,無(wú)法感知重力,不懂得摩擦力,更無(wú)法在混亂的物理世界中執(zhí)行任務(wù)。
Jim Fan提出的「物理圖靈測(cè)試」更進(jìn)一步,這是一個(gè)遠(yuǎn)比語(yǔ)言測(cè)試更為嚴(yán)苛的標(biāo)準(zhǔn)。
Jim Fan將其具象化為一個(gè)家庭場(chǎng)景:
想象一位主人在舉辦晚宴后留下了一片狼藉:打翻的酒杯、散落的食物、堆積的臟盤子。
如果一個(gè)機(jī)器人能夠介入,清理現(xiàn)場(chǎng),將易碎品輕拿輕放,清理頑固污漬,并重新布置餐桌,而主人歸來(lái)后無(wú)法分辨這是由人類家政服務(wù)還是機(jī)器人完成的,那么它就通過(guò)了物理圖靈測(cè)試。
![]()
這一測(cè)試的核心不在于完美,而在于「不可分辨性」。
它要求機(jī)器不僅具備感知能力,還要具備常識(shí)推理、精細(xì)的運(yùn)動(dòng)控制以及對(duì)非結(jié)構(gòu)化環(huán)境的適應(yīng)能力。
雖然通用的家庭服務(wù)機(jī)器人尚處于實(shí)驗(yàn)室階段,但Jim Fan認(rèn)為,Tesla FSD v14在自動(dòng)駕駛這一特定垂直領(lǐng)域,已經(jīng)率先通過(guò)了物理圖靈測(cè)試。
「物理圖靈測(cè)試」引入了一個(gè)定性的、現(xiàn)象學(xué)的維度:體驗(yàn)的擬人化程度。
在v14之前,即便最為先進(jìn)的輔助駕駛系統(tǒng),其行為也帶有明顯的「機(jī)器味」:
在路口猶豫不決、剎車生硬、變道時(shí)機(jī)械地計(jì)算距離。
而v14展現(xiàn)出了一種「老練」的特質(zhì)。

它學(xué)會(huì)了在擁堵中通過(guò)微小的蠕動(dòng)來(lái)博弈路權(quán),學(xué)會(huì)了在看到路邊行人有橫穿意圖時(shí)提前輕微減速,甚至學(xué)會(huì)了某種程度的「社交禮儀」。
正如用戶反饋所言,它不再像是一個(gè)考駕照的學(xué)生,而更像是一位經(jīng)驗(yàn)豐富的專車司機(jī)。
![]()
端到端:刪除30萬(wàn)行代碼的豪賭
FSD v14之所以能展現(xiàn)出如此驚人的擬人化特征,歸功于其底層架構(gòu)的徹底重構(gòu)。
在傳統(tǒng)的自動(dòng)駕駛開發(fā)(即Software 1.0時(shí)代)中,系統(tǒng)被設(shè)計(jì)為模塊化的流水線:
感知模塊識(shí)別物體,定位模塊確定位置,預(yù)測(cè)模塊猜測(cè)他車軌跡,規(guī)劃模塊計(jì)算路徑,最后控制模塊執(zhí)行轉(zhuǎn)向。
![]()
這其中,模塊與模塊之間通過(guò)數(shù)十萬(wàn)行C++代碼連接,這些代碼充斥著人類工程師編寫的「顯式規(guī)則」,例如「如果紅燈,則停車」。
然而,現(xiàn)實(shí)世界的復(fù)雜性(Long Tail,或者叫Corner Case,極端案例)是無(wú)限的,規(guī)則永遠(yuǎn)無(wú)法覆蓋所有角落。
Tesla在FSD v12版本開始了一場(chǎng)豪賭,并在v14中將其推向極致:
刪除了超過(guò)30萬(wàn)行控制代碼,全面轉(zhuǎn)向「端到端」神經(jīng)網(wǎng)絡(luò)架構(gòu)。
![]()
所謂端到端,即「光子進(jìn),控制出」(Photons In,Controls Out)。
攝像頭捕捉的原始視頻流直接輸入到巨大的神經(jīng)網(wǎng)絡(luò)中,網(wǎng)絡(luò)經(jīng)過(guò)層層計(jì)算,直接輸出方向盤轉(zhuǎn)角和油門剎車指令。
中間不再有人類編寫的「紅燈」概念,系統(tǒng)只是通過(guò)觀察數(shù)百萬(wàn)小時(shí)的人類駕駛視頻,學(xué)習(xí)到了「看到紅八角形物體時(shí)減速」這一像素級(jí)特征與車輛運(yùn)動(dòng)之間的概率關(guān)聯(lián)。
這一轉(zhuǎn)變的意義在于,系統(tǒng)不再是在「執(zhí)行規(guī)則」,而是在「模仿直覺」。
人類駕駛員在過(guò)彎時(shí)并不是在腦中計(jì)算曲率半徑公式,而是憑感覺打方向。
FSD v14正是模擬了這種基于經(jīng)驗(yàn)的直覺過(guò)程。
多模態(tài)與VLA架構(gòu):會(huì)思考的機(jī)器
FSD v14不僅僅是v12的優(yōu)化版,更引入了多模態(tài)大模型的特性,極有可能采用了視覺-語(yǔ)言-動(dòng)作架構(gòu)。
根據(jù)泄露的技術(shù)細(xì)節(jié),F(xiàn)SD v14的神經(jīng)網(wǎng)絡(luò)不僅輸出控制信號(hào),還輸出語(yǔ)言和3D空間重建。
從ICCV流出的幻燈片可以看到,特斯拉的FSD核心網(wǎng)絡(luò)輸入包括七路高分辨率攝像頭視頻、車輛自身運(yùn)動(dòng)信息、導(dǎo)航與音頻信號(hào)。
輸出則包含語(yǔ)義分割、占用網(wǎng)格、3D高斯特征、語(yǔ)言表達(dá)以及最終的控制動(dòng)作,F(xiàn)SD或已接入視覺-語(yǔ)言-動(dòng)作(VLA)框架,使模型具備「解釋」與「思考」的能力。
![]()
這意味著系統(tǒng)在內(nèi)部進(jìn)行著某種形式的「思維鏈」推理。
例如,在遇到一個(gè)復(fù)雜的施工路段時(shí),傳統(tǒng)的感知系統(tǒng)可能只能識(shí)別出一堆障礙物;而VLA架構(gòu)的FSD可能會(huì)在內(nèi)部推理:
「我看到了‘道路封閉’的標(biāo)志,但左側(cè)有一位工人正在揮舞旗幟,結(jié)合導(dǎo)航信息,我應(yīng)該無(wú)視標(biāo)志,跟隨工人的指引向左繞行。」
![]()
語(yǔ)言能力的引入,解決了端到端模型最大的痛點(diǎn):「黑盒」問(wèn)題。
通過(guò)讓模型輸出自然語(yǔ)言解釋,工程師可以回溯系統(tǒng)的決策邏輯,這被稱為「可解釋的中間層」。
這種能力使得FSD v14不僅能「做」,還能「說(shuō)」(盡管目前主要用于開發(fā)調(diào)試),使其具備了初步的邏輯驗(yàn)證能力。
早期的FSD版本常被詬病為只有「金魚記憶」,即只關(guān)注當(dāng)前幀的畫面。
FSD v14通過(guò)引入長(zhǎng)短時(shí)記憶機(jī)制和3D占用網(wǎng)絡(luò),獲得了類似人類的「物體恒常性」認(rèn)知。
![]()
如果一個(gè)孩子跑進(jìn)了一輛停在路邊的貨車后面,即使攝像頭此刻看不到孩子,v14的「世界模型」中依然保留著孩子的3D體素(Voxel),并預(yù)測(cè)其可能出現(xiàn)的位置。
這種時(shí)空推理能力是其能夠通過(guò)物理圖靈測(cè)試的關(guān)鍵:它不僅在看,更在理解和預(yù)測(cè)物理世界的演變。
![]()
FSD硬件的進(jìn)化
當(dāng)然要訓(xùn)練端到端的龐大模型,離不開芯片的支持。
Tesla的自動(dòng)駕駛硬件進(jìn)化史,是一部從依賴外部供應(yīng)商到全面自研的獨(dú)立史。
Hardware 1.0(Mobileye時(shí)代):2014-2016年,Tesla依賴Mobileye的Eye Q3芯片。這是一套基于規(guī)則的視覺系統(tǒng),直到2016年因一場(chǎng)致死事故及對(duì)數(shù)據(jù)共享的分歧,雙方?jīng)Q裂。
Hardware 2.0/2.5(NVIDIA時(shí)代):2016-2019年,Tesla轉(zhuǎn)向NVIDIA,采用了DrivePX2計(jì)算平臺(tái)。
這是一臺(tái)算力達(dá)到12TOPS的「后備箱超算」,支持了Tesla早期的視覺算法。
然而,馬斯克意識(shí)到,通用的GPU架構(gòu)對(duì)于車載推理來(lái)說(shuō),功耗過(guò)高且成本昂貴。(這里很像谷歌自己研發(fā)了TPU)
Hardware 3.0(FSDChip時(shí)代):2019年,Tesla發(fā)布了由傳奇芯片架構(gòu)師Jim Keller(曾任職AMD、Intel)領(lǐng)導(dǎo)設(shè)計(jì)的自研FSD芯片。
這是一個(gè)專用集成電路(ASIC),專門為神經(jīng)網(wǎng)絡(luò)的矩陣乘法優(yōu)化,算力激增至144TOPS,而功耗和成本大幅降低。這一刻,Tesla在車載推理端徹底擺脫了對(duì)NVIDIA的依賴。
關(guān)于這位大佬Jim Keller的介紹,可以查看之前這篇:英偉達(dá)親手終結(jié)CUDA「護(hù)城河」?傳奇芯片架構(gòu)師引發(fā)爭(zhēng)議
訓(xùn)練與推理的二元對(duì)立
盡管在車端分道揚(yáng)鑣,但在云端訓(xùn)練,Tesla卻是英偉達(dá)最貪婪的客戶之一。
FSD v14那種「端到端」的龐大神經(jīng)網(wǎng)絡(luò),需要吞噬數(shù)以億計(jì)的視頻片段進(jìn)行訓(xùn)練,這需要極其恐怖的算力支持。
Tesla建立了巨大的超級(jí)計(jì)算機(jī)集群(如DojoCortex),其中部署了數(shù)萬(wàn)張NVIDIA H100和H200 GPU。
這就形成了一種獨(dú)特的「競(jìng)合」關(guān)系:
- 在車?yán)铮ㄟ吘壎耍?/strong>
Tesla使用自研的HW3/HW4芯片,甚至未來(lái)的AI5芯片,通過(guò)垂直整合將成本壓到極致。
- 在云端(訓(xùn)練端):
Tesla依然依賴NVIDIA的CUDA生態(tài)和最強(qiáng)算力來(lái)「教育」它的AI。
黃仁勛對(duì)此表現(xiàn)出了極高的戰(zhàn)略格局。
他多次公開稱贊Tesla在自動(dòng)駕駛領(lǐng)域的領(lǐng)先地位,承認(rèn)Tesla是目前唯一能有效利用其最強(qiáng)算力的車企,并表示「每一個(gè)車企未來(lái)都必須擁有自動(dòng)駕駛能力」。
![]()
對(duì)于英偉達(dá)而言,Tesla既是證明其算力價(jià)值的樣板間,也是其推動(dòng)「物理AI」愿景的最強(qiáng)盟友。
感知的質(zhì)變:「感覺像覺醒」
當(dāng)FSD v14被推送到數(shù)百萬(wàn)車主的車機(jī)上時(shí),一種奇怪的反饋開始在社交媒體上蔓延。
用戶們不再僅僅抱怨「它沒看到那個(gè)錐桶」,而是開始使用描述生物的詞匯:「它猶豫了」、「它在試探」、「它很自信」。
馬斯克在X平臺(tái)上推波助瀾:「你可以感覺到那種感知力正在成熟。」。
這種體驗(yàn)的質(zhì)變,源于系統(tǒng)行為從「離散」向「連續(xù)」的跨越。
在v14之前,車輛的決策往往是二元的(停或走,左轉(zhuǎn)或右轉(zhuǎn))。
而在v14中,用戶觀察到了更細(xì)膩的博弈行為。
例如,在擁擠的高速匯入匝道,v14不再傻傻地等待一個(gè)完美的空檔,而是會(huì)像人類老司機(jī)一樣,稍微向車道線逼近,通過(guò)這種微小的物理位移向后車傳遞「我要加塞了」的意圖。
v14中引入的「Mad Max」模式(雖然主要用于測(cè)試或極端選項(xiàng)),展示了AI在博弈中的激進(jìn)一面。
![]()
在這一模式下,車輛變道更加果斷,甚至在某些用戶看來(lái)具有「侵略性」。
它會(huì)在極小的車距中切入,這種行為雖然在技術(shù)上是安全的,但在心理上挑戰(zhàn)了人類對(duì)機(jī)器「溫順」的預(yù)設(shè)。
這種激進(jìn)性實(shí)際上是神經(jīng)網(wǎng)絡(luò)在數(shù)百萬(wàn)人類駕駛數(shù)據(jù)中學(xué)習(xí)到的,在繁忙的交通中,如果不表現(xiàn)出一定的侵略性,車輛可能永遠(yuǎn)無(wú)法完成變道。
這進(jìn)一步模糊了人與機(jī)器的界限。
邁向無(wú)監(jiān)督:Robotaxi的最后拼圖
FSD v14的所有突破,最終都指向一個(gè)宏大的商業(yè)終局:Robotaxi。
![]()
馬斯克在多次財(cái)報(bào)電話會(huì)議中強(qiáng)調(diào),Tesla的未來(lái)價(jià)值幾乎完全取決于能否實(shí)現(xiàn)無(wú)監(jiān)督自動(dòng)駕駛。
目前的FSD仍標(biāo)明為「Supervised」(受監(jiān)督),意味著駕駛員必須隨時(shí)準(zhǔn)備接管,且對(duì)事故負(fù)全責(zé)。
但這在經(jīng)濟(jì)上沒有意義:只要還有人在駕駛座上,這就是一項(xiàng)服務(wù),而不是資產(chǎn)。
只有當(dāng)移除人類,車輛才能變成不知疲倦的印鈔機(jī)。
v14所展現(xiàn)出的穩(wěn)定性,尤其是處理長(zhǎng)尾場(chǎng)景(如暴雨、模糊車道線、復(fù)雜施工區(qū))的能力,讓業(yè)界看到了L4級(jí)自動(dòng)駕駛落地的曙光。
馬斯克預(yù)測(cè),在2025年至2026年間,將在德克薩斯州和加利福尼亞州率先實(shí)現(xiàn)無(wú)監(jiān)督運(yùn)行。
同時(shí),國(guó)內(nèi)的L3也已經(jīng)從「技術(shù)儲(chǔ)備/道路測(cè)試」進(jìn)入「準(zhǔn)入試點(diǎn)/有限上路」的政策落地階段
2025年12月工信部已批準(zhǔn)兩款搭載L3功能的車型獲得產(chǎn)品準(zhǔn)入許可,并在北京、重慶的指定高速/快速路等限定ODD、限速路段開展上路通行試點(diǎn)(例如單車道、限速50–80km/h等)。
這意味著國(guó)內(nèi)L3開始從「拿牌測(cè)試」走向「準(zhǔn)入許可+真實(shí)道路運(yùn)營(yíng)驗(yàn)證」的實(shí)質(zhì)階段。
全球擴(kuò)張與數(shù)據(jù)的「化石燃料」
為了喂養(yǎng)這個(gè)日益龐大的端到端模型,Tesla正在積極尋求全球擴(kuò)張。
除了北美,F(xiàn)SD v14已計(jì)劃在阿聯(lián)酋推出,并正尋求進(jìn)入中國(guó)和歐洲市場(chǎng)。
這里的邏輯在于數(shù)據(jù)的多樣性。
Jim Fan將機(jī)器人學(xué)習(xí)所需的數(shù)據(jù)比作「人類燃料」,相對(duì)于訓(xùn)練LLM的「化石燃料」(互聯(lián)網(wǎng)文本),高質(zhì)量的物理世界交互數(shù)據(jù)極其稀缺。
Tesla擁有的數(shù)百萬(wàn)輛在路上行駛的車輛,實(shí)際上是數(shù)百萬(wàn)個(gè)分布式的數(shù)據(jù)采集機(jī)器人。
每當(dāng)中國(guó)、迪拜或巴黎的車主接管一次FSD,這個(gè)特殊的「失敗案例」就會(huì)被上傳,成為訓(xùn)練v14及后續(xù)版本應(yīng)對(duì)特定文化路況的寶貴教材。
這種數(shù)據(jù)飛輪效應(yīng)是其他競(jìng)爭(zhēng)對(duì)手(如Waymo)難以通過(guò)有限的車隊(duì)規(guī)模來(lái)復(fù)制的。
![]()
盡管技術(shù)上高歌猛進(jìn),但FSD v14面臨的監(jiān)管挑戰(zhàn)依然嚴(yán)峻。
端到端模型的「黑盒」性質(zhì)讓監(jiān)管機(jī)構(gòu)感到不安:當(dāng)車輛做出決策時(shí),沒有一行代碼能明確解釋「為什么」。
雖然VLA架構(gòu)引入了語(yǔ)言解釋層,但這在法律歸責(zé)上是否足夠,尚無(wú)定論。
此外,用戶報(bào)告中提到的「幻影剎車」和偶爾的「神志不清」,提醒我們距離完美的99.9999%可靠性仍有距離。
這種「覺醒」或許只是數(shù)學(xué)統(tǒng)計(jì)上的錯(cuò)覺,是無(wú)數(shù)個(gè)高維向量在潛在空間中碰撞出的火花。
但正如Jim Fan所言,當(dāng)這種錯(cuò)覺足夠逼真、足夠穩(wěn)定時(shí),它就構(gòu)成了新的現(xiàn)實(shí)。
我們正在步入一個(gè)新時(shí)代:
在這個(gè)時(shí)代里,汽車不僅是交通工具,而是第一個(gè)真正融入人類社會(huì)、理解人類規(guī)則并與人類共舞的智能物種。
對(duì)于人類而言,適應(yīng)這種「神一般的技術(shù)」,將是一個(gè)既痛苦又迷人的重塑過(guò)程。
當(dāng)方向盤在沒有人類雙手觸碰的情況下,自行轉(zhuǎn)動(dòng)著滑過(guò)繁華的街頭,我們所看到的,不僅是自動(dòng)駕駛的未來(lái),更是硅基生命在物理世界留下的第一行深刻足跡。
正如這是馬斯克2019年所預(yù)言的,2025年又重提的:
![]()
人類似乎越來(lái)越像是數(shù)字超級(jí)智能的生物引導(dǎo)程序。
![]()
參考資料:
https://x.com/DrJimFan/status/2003593613918531891
https://eletric-vehicles.com/tesla/nvidia-exec-praises-tesla-fsd-v14-couldnt-tell-if-a-neural-net-or-human-was-driving/
秒追ASI
?點(diǎn)贊、轉(zhuǎn)發(fā)、在看一鍵三連?
點(diǎn)亮星標(biāo),鎖定新智元極速推送!
![]()
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.