![]()
VLA,這是 2025 年最熱的輔助駕駛技術路線之一,理想 i8 已經量產,小鵬 P7 緊追不舍,而華為卻說我們不用這個技術。
就在昨天,VLA 陣營又一位新玩家來了,元戎啟行發布全新一代輔助駕駛平臺——DeepRoute IO 2.0,并搭載自研的 VLA(Vision-Language-Action)模型。
元戎啟行 CEO 周光透露,開發 VLA 模型的起點是讓 AI 學會害怕。傳感器看不見,并不代表沒有危險,這也是在之前端到端時代輔助駕駛的局限。
經常使用輔助駕駛的司機一定有這樣的體驗,在駕駛員覺得危險的場景(例如遮擋、轉彎、車道合并)之下,輔助駕駛反而信心滿滿,快速通過。更嚴重的問題是,這樣的表現卻通常被駕駛員認為輔助駕駛的效率高于人類,造成過度信賴。隨著搭載輔助駕駛車型的不斷增多,任何問題都有可能被放大。
究其原因,AI 沒有學會害怕。

元戎啟行的 VLA 模型就有四大功能,分別是空間語義理解、異形障礙物識別、文字類引導牌理解、記憶語音控車。
![]()
其中,空間語義理解就成為了最核心的功能。在輔助駕駛過程中,車輛對前視攝像頭的畫面進行語義理解(Vision-Language),當車輛行駛到遮擋、復雜路口、橋洞等視野盲區時,系統可以進行預防性判斷,最終決策降低車速(Action)。
異形障礙物識別使系統能夠識別并靈活應對如施工錐桶、超載小貨車等非結構化障礙;文字類引導牌識別讓系統看懂路標,解析潮汐車道、公交專用道等文字信息;記憶語音控車功能支持自然語言指令交互,并逐步學習用戶偏好,實現個性化與擬人化的駕駛體驗。

周光透露,DeepRoute IO 2.0 平臺適配「多模態+多芯片+多車型」,支持激光雷達與純視覺版本。目前,基于 DeepRoute IO 2.0 平臺,元戎啟行已達成 5 個車型的定點合作項目,首批量產車即將進入市場。
對話周光:VLA 最大難點在思維鏈和長時序推理
一場簡短的發布后,元戎啟行 CEO 周光接受了 42 號車庫等多家媒體的共同采訪。
![]()
聚焦元戎啟行 VLA 模型的技術細節,周光表示,基于英偉達 Thor 芯片,VLA 能夠以每秒幾 Hz 的水平運行,可以做到實時響應。
在 VLA 研發過程中,最大的難點是思維鏈(Chain of Thought, CoT)和長時序推理。周光認為:「這才是 VLA 真正的核心能力。思維鏈是這類架構的基本要求。沒有它,就不能算是 VLA。」
最近,業內針輔助駕駛究竟要不要激光雷達,VLA 路線是不是輔助駕駛更優的方案展開了相當多的討論。而發起這兩個討論的,一個是馬斯克,另一個是華為。
周光認為,激光雷達目前對通用障礙物識別仍有重要作用。但隨著大模型技術的發展,視覺會在感知中扮演越來越重要的角色,大模型有望逐步解決現在依賴激光雷達的部分任務。
那么輔助駕駛真的需要 VLA 嗎?周光認為,真正要實現思維鏈(COT)就需要走 VLA 方向,除非算力不足,可能會選擇別的路徑。
在一小時的深度交流中,周光談到了元戎啟行 VLA 模型的技術細節、VLA 訓練,并針對行業熱點問題進行了一一回應,我們將對話全程進行了整理,在不改變愿意的前提下略有刪減,供大家參考。
量產 VLA 的其他技術細節
Q:量產 VLA 模型的目標運行幀率是多少?
A:目前是每秒幾赫茲的水平,具體數值不便透露,但肯定能做到實時響應,不會出現幾秒一幀的情況。
Q:VLA 模型針對不同芯片平臺,在算法和訓練上做了哪些優化?技術架構是否有前瞻性布局?
A:VLA 模型的研發和訓練本身與芯片無關,訓練完成后才會進行部署適配。不同芯片平臺主要影響的是工程部署的工作量,并不會反過來改變訓練方式或模型架構。
Q:元戎啟行支持多種芯片平臺,是否有具體范圍?隨著國產芯片(如地平線)和車企自研芯片的發展,這些是否都能適配?車企能指定芯片嗎?
A:芯片適配有一定要求,比如基礎算力、帶寬等。模型訓練完成后會經過蒸餾和量化,適配需要滿足基本條件。合作中車廠可以提出芯片需求,適配成本(時間、資金、數據)都是可協商的。我們目前以某款芯片為起點,未來會支持更多芯片,并不局限于一家。
Q:目前行業明確走 VLA 路線的似乎只有元戎啟行和理想。也有觀點認為,大語言模型雖強于文本推理,但在空間感知上并非強項。您如何看待這種說法?
A:更準確地說,VLA 本質是「基于 GPT 的端到端模型」。目前堅持投入大算力的公司,包括小鵬,其實都在朝這個方向走。比如特斯拉最新芯片算力達 2,500 TOPS,CNN 模型根本不需要如此大規模的算力,只有 GPT 架構才需要大參數和大算力支持。CNN 模型參數量有限,而 GPT 架構天然適合擴展,這才是未來方向。
Q:關于語音控車,您提到它屬于基礎功能。那么在 VLA 模型中,真正難的是什么?
A:最難的是思維鏈(Chain of Thought, CoT)和長時序推理。這才是 VLA 真正的核心能力。
Q:是否可通過思維鏈的表現來評價 VLA 模型的好壞?
A:思維鏈是這類架構的基本要求。沒有它,就不能算是 VLA。目前行業還沒有像 NLP 那樣統一的評測基準,但未來可能會建立基于物理場景的專用 Benchmark。
Q:從車機界面能否直觀判斷 VLA 模型的優劣?
A:現階段我們還是聚焦于解決 0 到 1 的問題。像特斯拉的交互已經做得很成熟,但我們需要先確保核心能力落地,再優化用戶體驗。
Q:車端實際能跑多大的模型?
A:參數量暫不方便透露。不過受車規算力和功耗限制,即便是上車的 GPT 模型,也仍屬于“小模型”范疇。
Q:VLA 模型是否也會出現幻覺?如何降低這類風險?
A:預訓練階段確實可能產生幻覺,但通過后訓練對齊技術,已經能極大抑制這一現象。現在主流大模型(如豆包、千問)幻覺現象已經很少,這方面已有較好的解決方案。
Q:隨著 VLA、VLM 等技術推進,輔助駕駛能力基線普遍提升,各家方案是否會出現趨同?元戎啟行如何保持自身特色?
A:端到端技術確實存在趨同,差別更多體現在推進節奏上。元戎在防御性駕駛等方面布局較早,半年前就已強調這一方向。技術判斷的準確性是關鍵,尤其在 VLA 這種廣度較大的領域。
Q:VLA 模型幀率目前低于某些端到端方案(10 - 20 幀),這是現階段的限制嗎?是否有補償方式?
A:幀率影響本質是延遲問題。從 100 毫秒降至 50 毫秒已有明顯收益,VLA 初期幀率稍低是正常現象。幀率并非越高越好,預判能力增強也能彌補幀率限制。
Q:如果持續提升 VLA 的推理(Reasoning)能力,未來可能帶來哪些突破?
A:VLA 目前還未完全實現思維鏈(COT),這是關鍵差距。長遠來看,語言和推理能力是實現完全無人化自動駕駛的核心。比如遇到「左轉不受燈控」這種臨時標識,依賴地圖更新是不夠的,第一次遇到就需實時理解。VLA 在這條路上任重道遠,需要更多技術沉淀。特斯拉之所以投入十倍算力和參數,正是因為 GPT 架構是明確方向,CNN 無法支撐這種擴展。
Q:請問 VLA 模型系統最低可適配什么價位的車型?哪些車型能夠應用?
A:目前 15 萬元以上的車型都可以適配,10 萬元級別的車型通過優化也有機會搭載。端到端方案成本更低,而 VLA 模型目前更依賴算力支持。傳感器方面,11 個攝像頭正成為主流配置,像特斯拉就堅持純視覺路線。行業整體在提升算力,下一代芯片將達到 5,000 TOPS,甚至 10,000 TOPS 級別也不遠了。
Q:VLA 模型相比端到端方案會貴多少?成本差距大嗎?
A:主要成本差異在芯片,其余部分基本一致。芯片成本取決于制程工藝,目前千T級芯片算力時代已經到來,例如特斯拉 2,500 TOPS 芯片,雙芯片即可實現 5,000 TOPS。
Q:上次車展聽您提到 VLA 模型不止用于車,還會拓展至機器人。能否多分享一些?是人形機器人還是無人駕駛?是否有相關合作?車用和機器人用的 VLA 模型是同一套嗎?
A:是的,VLA 模型本身是通用架構,不再為特定場景定制。正如我們年初發布的 RoadAGI 策略所說,未來這一技術可泛化至多種移動場景——包括小區、電梯、辦公室等室內外環境。現在的機器人很多還依賴遙控或巡線技術,而我們希望能實現真正自主、通用的移動能力。
Q:您給當前版本打幾分(滿分10分)?最大挑戰是什么?
A:我個人打 6 分,剛及格。VLA 模型仍處于早期,相當于「幼年期」,但上限遠高于端到端方案。新一代架構需要新一代芯片支持,這不是 CNN 時代可比的。
Q:非 VLA 架構也可實現防御性駕駛,VLA 是必須的嗎?
A:統計方法能部分實現防御策略,但復雜場景需真正推理能力。VLA 因具備 CoT 和語言推理,能更徹底解決這些問題。BEV 在空間理解上存在天然局限。
VLA 是如何訓練的?
Q:元戎啟行 VLA 的基礎模型是千問嗎?
A:我們會采用多種模型進行蒸餾,千問是開源模型中比較優秀的,我們也嘗試過基于千問以及自研蒸餾的方案。所以并不完全依賴于某一特定模型,也有來自千問的技術成分,但不完全一致。
Q:您沒有提到云端世界模型和仿真數據。目前行業普遍使用仿真路徑,元戎如何應對推理卡資源問題?
A:VLA 與第一代端到端最根本的區別是模型架構變了——從 CNN 轉向 GPT。訓練方法比如是否引入 RL,只是策略問題。CNN 架構本身無法實現類似人類的推理和泛化能力。
Q:訓練數據來源是什么?是否來自自有測試車隊和長城?
A:數據來源是多方面的:包括自有測試車隊、量產車數據,以及生成數據。要實現 GPT 架構的預訓練,必須依賴大規模、多樣化數據集,這是 CNN 模型無法勝任的。
Q:關于 VLA 模型對訓練資源的需求,有廠商表示需要數萬張卡。元戎啟行如何看待這種巨大的資源消耗?是否會帶來成本壓力?另外,為什么現在行業都在強調強化學習和 AI 訓練?
A:強化學習只是模型訓練的一種手段,屬于「后訓練」階段的一部分。如今行業已進入后訓練時代,但這本身并不值得過度強調——就像 GPT 或 Waymo 也不會單獨強調強化學習。元戎在技術選型上一直較為精準,VLA 是一個全新領域,方向選擇很多,如果有清晰的技術判斷,資源消耗完全可以更高效。事實上,輔助駕駛場景的 GPT 模型規模相對可控,比如 7B 模型并不需要極端龐大的算力。
Q:仿真測試方面,有廠商大幅減少實車測試、增加仿真里程,這是行業趨勢嗎?
A:我們更專注于自身技術路線。仿真是數據來源的一種,關鍵不在于是真實還是仿真,而在于數據質量。高質量數據集才是模型優化的核心。
Q:長期看仿真數據在訓練中的占比會達到多少?仿真數據生成能力會成為壁壘嗎?
A:仿真需基于真實數據,否則無法有效模擬。現實數據仍是主體,仿真作為補充。從預訓練到后訓練階段,仿真比例會逐漸提升。行業應關注大模型整體發展,避免局限在自動駕駛領域。技術本質是相通的,就像人腦神經元結構并無太大差異。
對行業熱點的看法
Q:最近馬斯克提到「激光雷達會讓自動駕駛越來越不安全」,您怎么看?
A:激光雷達目前對通用障礙物識別仍有重要作用,正如之前提到的,大模型的知識庫能力可以識別很多未知障礙物。我相信隨著大模型技術的發展,視覺會在感知中扮演越來越重要的角色。短期來看,激光雷達受限于技術發展和數據集的成熟度,仍有其價值;長期來看,大模型有望逐步解決現在依賴激光雷達的部分任務。
Q:如何看待其他車企推出 VLA 模型?比如小鵬。元戎的差異化優勢在哪里?
A:小鵬的 VLA 進展也不錯,他們基于千問模型做出了實打實的成果。VLA 涵蓋面很廣,不像端到端那樣直接,更需要精準的技術判斷和持續積累。
Q:從規則算法、端到端 1.0 到 VLA 模型,如果現在車企或供應商想自研輔助駕駛系統,能否可以直接切入 VLA?是否需要完整經歷之前的研發階段?您研發端到端時是否預見到其上限?
A:每個階段都無法跳過,從有圖、無圖、端到端到 VLA 模型,整個發展過程必不可少,最多只能壓縮某些階段的時間,但不可能完全繞過。至于 VLA 模型的上限,目前其下限已經超過端到端方案的上限。
Q:過去幾年,國內外廠商推出的智駕芯片對于 Transformer 模型的支持都不是很好。既然 VLA 是一個 GPT based E2E 架構,這是不是意味著:以后各家廠商在研發高階智能輔助駕駛芯片時,除了做到數千 TOPS 的算力,還必須將對 Transformer 模型的原生、高效支持作為核心設計指標?
A:確實如此。早期芯片主要針對 CNN 設計,未來一定會加強對 Transformer 的支持,尤其是在 FP4、FP6 等精度的優化上。
Q:華為不走 VLA 路線,您怎么看?
A:若算力不足,確實可能選擇其他路徑。但真正要實現思維鏈(CoT)仍需 VLA 方向。
Q:作為行業參與者,如何共同將智駕蛋糕做大?除技術外還需哪些助力?
A:宣傳需理性,避免過度承諾,尤其在安全方面。技術發展需時間,需正確引導用戶預期。監管與行業自律也很重要。
Q:元戎是否會參與 L4 競爭?目前進展如何?
A:傳統自動駕駛等級劃分已過時,真正的無人駕駛需推理能力,純規則系統無法應對「紅燈可左轉」這類問題。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.