網易首頁 > 網易號 > 正文申請入駐

元戎啟行發布VLA模型，起點是讓AI學會害怕？｜附CEO對話實錄

2025-08-27 23:15:26　來源: 42號車庫

上海舉報

分享至

VLA，這是 2025 年最熱的輔助駕駛技術路線之一，理想 i8 已經量產，小鵬 P7 緊追不舍，而華為卻說我們不用這個技術。

就在昨天，VLA 陣營又一位新玩家來了，元戎啟行發布全新一代輔助駕駛平臺——DeepRoute IO 2.0，并搭載自研的 VLA（Vision-Language-Action）模型。

元戎啟行 CEO 周光透露，開發 VLA 模型的起點是讓 AI 學會害怕。傳感器看不見，并不代表沒有危險，這也是在之前端到端時代輔助駕駛的局限。

經常使用輔助駕駛的司機一定有這樣的體驗，在駕駛員覺得危險的場景（例如遮擋、轉彎、車道合并）之下，輔助駕駛反而信心滿滿，快速通過。更嚴重的問題是，這樣的表現卻通常被駕駛員認為輔助駕駛的效率高于人類，造成過度信賴。隨著搭載輔助駕駛車型的不斷增多，任何問題都有可能被放大。

究其原因，AI 沒有學會害怕。

元戎啟行的 VLA 模型就有四大功能，分別是空間語義理解、異形障礙物識別、文字類引導牌理解、記憶語音控車。

其中，空間語義理解就成為了最核心的功能。在輔助駕駛過程中，車輛對前視攝像頭的畫面進行語義理解（Vision-Language），當車輛行駛到遮擋、復雜路口、橋洞等視野盲區時，系統可以進行預防性判斷，最終決策降低車速（Action）。

異形障礙物識別使系統能夠識別并靈活應對如施工錐桶、超載小貨車等非結構化障礙；文字類引導牌識別讓系統看懂路標，解析潮汐車道、公交專用道等文字信息；記憶語音控車功能支持自然語言指令交互，并逐步學習用戶偏好，實現個性化與擬人化的駕駛體驗。

周光透露，DeepRoute IO 2.0 平臺適配「多模態+多芯片+多車型」，支持激光雷達與純視覺版本。目前，基于 DeepRoute IO 2.0 平臺，元戎啟行已達成 5 個車型的定點合作項目，首批量產車即將進入市場。

對話周光：VLA 最大難點在思維鏈和長時序推理

一場簡短的發布后，元戎啟行 CEO 周光接受了 42 號車庫等多家媒體的共同采訪。

聚焦元戎啟行 VLA 模型的技術細節，周光表示，基于英偉達 Thor 芯片，VLA 能夠以每秒幾 Hz 的水平運行，可以做到實時響應。

在 VLA 研發過程中，最大的難點是思維鏈（Chain of Thought, CoT）和長時序推理。周光認為：「這才是 VLA 真正的核心能力。思維鏈是這類架構的基本要求。沒有它，就不能算是 VLA。」

最近，業內針輔助駕駛究竟要不要激光雷達，VLA 路線是不是輔助駕駛更優的方案展開了相當多的討論。而發起這兩個討論的，一個是馬斯克，另一個是華為。

周光認為，激光雷達目前對通用障礙物識別仍有重要作用。但隨著大模型技術的發展，視覺會在感知中扮演越來越重要的角色，大模型有望逐步解決現在依賴激光雷達的部分任務。

那么輔助駕駛真的需要 VLA 嗎？周光認為，真正要實現思維鏈（COT）就需要走 VLA 方向，除非算力不足，可能會選擇別的路徑。

在一小時的深度交流中，周光談到了元戎啟行 VLA 模型的技術細節、VLA 訓練，并針對行業熱點問題進行了一一回應，我們將對話全程進行了整理，在不改變愿意的前提下略有刪減，供大家參考。

量產 VLA 的其他技術細節

Q：量產 VLA 模型的目標運行幀率是多少？

A：目前是每秒幾赫茲的水平，具體數值不便透露，但肯定能做到實時響應，不會出現幾秒一幀的情況。

Q：VLA 模型針對不同芯片平臺，在算法和訓練上做了哪些優化？技術架構是否有前瞻性布局？

A：VLA 模型的研發和訓練本身與芯片無關，訓練完成后才會進行部署適配。不同芯片平臺主要影響的是工程部署的工作量，并不會反過來改變訓練方式或模型架構。

Q：元戎啟行支持多種芯片平臺，是否有具體范圍？隨著國產芯片（如地平線）和車企自研芯片的發展，這些是否都能適配？車企能指定芯片嗎？

A：芯片適配有一定要求，比如基礎算力、帶寬等。模型訓練完成后會經過蒸餾和量化，適配需要滿足基本條件。合作中車廠可以提出芯片需求，適配成本（時間、資金、數據）都是可協商的。我們目前以某款芯片為起點，未來會支持更多芯片，并不局限于一家。

Q：目前行業明確走 VLA 路線的似乎只有元戎啟行和理想。也有觀點認為，大語言模型雖強于文本推理，但在空間感知上并非強項。您如何看待這種說法？

A：更準確地說，VLA 本質是「基于 GPT 的端到端模型」。目前堅持投入大算力的公司，包括小鵬，其實都在朝這個方向走。比如特斯拉最新芯片算力達 2,500 TOPS，CNN 模型根本不需要如此大規模的算力，只有 GPT 架構才需要大參數和大算力支持。CNN 模型參數量有限，而 GPT 架構天然適合擴展，這才是未來方向。

Q：關于語音控車，您提到它屬于基礎功能。那么在 VLA 模型中，真正難的是什么？

A：最難的是思維鏈（Chain of Thought, CoT）和長時序推理。這才是 VLA 真正的核心能力。

Q：是否可通過思維鏈的表現來評價 VLA 模型的好壞？

A：思維鏈是這類架構的基本要求。沒有它，就不能算是 VLA。目前行業還沒有像 NLP 那樣統一的評測基準，但未來可能會建立基于物理場景的專用 Benchmark。

Q：從車機界面能否直觀判斷 VLA 模型的優劣？

A：現階段我們還是聚焦于解決 0 到 1 的問題。像特斯拉的交互已經做得很成熟，但我們需要先確保核心能力落地，再優化用戶體驗。

Q：車端實際能跑多大的模型？

A：參數量暫不方便透露。不過受車規算力和功耗限制，即便是上車的 GPT 模型，也仍屬于“小模型”范疇。

Q：VLA 模型是否也會出現幻覺？如何降低這類風險？

A：預訓練階段確實可能產生幻覺，但通過后訓練對齊技術，已經能極大抑制這一現象。現在主流大模型（如豆包、千問）幻覺現象已經很少，這方面已有較好的解決方案。

Q：隨著 VLA、VLM 等技術推進，輔助駕駛能力基線普遍提升，各家方案是否會出現趨同？元戎啟行如何保持自身特色？

A：端到端技術確實存在趨同，差別更多體現在推進節奏上。元戎在防御性駕駛等方面布局較早，半年前就已強調這一方向。技術判斷的準確性是關鍵，尤其在 VLA 這種廣度較大的領域。

Q：VLA 模型幀率目前低于某些端到端方案（10 - 20 幀），這是現階段的限制嗎？是否有補償方式？

A：幀率影響本質是延遲問題。從 100 毫秒降至 50 毫秒已有明顯收益，VLA 初期幀率稍低是正常現象。幀率并非越高越好，預判能力增強也能彌補幀率限制。

Q：如果持續提升 VLA 的推理（Reasoning）能力，未來可能帶來哪些突破？

A：VLA 目前還未完全實現思維鏈（COT），這是關鍵差距。長遠來看，語言和推理能力是實現完全無人化自動駕駛的核心。比如遇到「左轉不受燈控」這種臨時標識，依賴地圖更新是不夠的，第一次遇到就需實時理解。VLA 在這條路上任重道遠，需要更多技術沉淀。特斯拉之所以投入十倍算力和參數，正是因為 GPT 架構是明確方向，CNN 無法支撐這種擴展。

Q：請問 VLA 模型系統最低可適配什么價位的車型？哪些車型能夠應用？

A：目前 15 萬元以上的車型都可以適配，10 萬元級別的車型通過優化也有機會搭載。端到端方案成本更低，而 VLA 模型目前更依賴算力支持。傳感器方面，11 個攝像頭正成為主流配置，像特斯拉就堅持純視覺路線。行業整體在提升算力，下一代芯片將達到 5,000 TOPS，甚至 10,000 TOPS 級別也不遠了。

Q：VLA 模型相比端到端方案會貴多少？成本差距大嗎？

A：主要成本差異在芯片，其余部分基本一致。芯片成本取決于制程工藝，目前千T級芯片算力時代已經到來，例如特斯拉 2,500 TOPS 芯片，雙芯片即可實現 5,000 TOPS。

Q：上次車展聽您提到 VLA 模型不止用于車，還會拓展至機器人。能否多分享一些？是人形機器人還是無人駕駛？是否有相關合作？車用和機器人用的 VLA 模型是同一套嗎？

A：是的，VLA 模型本身是通用架構，不再為特定場景定制。正如我們年初發布的 RoadAGI 策略所說，未來這一技術可泛化至多種移動場景——包括小區、電梯、辦公室等室內外環境。現在的機器人很多還依賴遙控或巡線技術，而我們希望能實現真正自主、通用的移動能力。

Q：您給當前版本打幾分（滿分10分）？最大挑戰是什么？

A：我個人打 6 分，剛及格。VLA 模型仍處于早期，相當于「幼年期」，但上限遠高于端到端方案。新一代架構需要新一代芯片支持，這不是 CNN 時代可比的。

Q：非 VLA 架構也可實現防御性駕駛，VLA 是必須的嗎？

A：統計方法能部分實現防御策略，但復雜場景需真正推理能力。VLA 因具備 CoT 和語言推理，能更徹底解決這些問題。BEV 在空間理解上存在天然局限。

VLA 是如何訓練的？

Q：元戎啟行 VLA 的基礎模型是千問嗎？

A：我們會采用多種模型進行蒸餾，千問是開源模型中比較優秀的，我們也嘗試過基于千問以及自研蒸餾的方案。所以并不完全依賴于某一特定模型，也有來自千問的技術成分，但不完全一致。

Q：您沒有提到云端世界模型和仿真數據。目前行業普遍使用仿真路徑，元戎如何應對推理卡資源問題？

A：VLA 與第一代端到端最根本的區別是模型架構變了——從 CNN 轉向 GPT。訓練方法比如是否引入 RL，只是策略問題。CNN 架構本身無法實現類似人類的推理和泛化能力。

Q：訓練數據來源是什么？是否來自自有測試車隊和長城？

A：數據來源是多方面的：包括自有測試車隊、量產車數據，以及生成數據。要實現 GPT 架構的預訓練，必須依賴大規模、多樣化數據集，這是 CNN 模型無法勝任的。

Q：關于 VLA 模型對訓練資源的需求，有廠商表示需要數萬張卡。元戎啟行如何看待這種巨大的資源消耗？是否會帶來成本壓力？另外，為什么現在行業都在強調強化學習和 AI 訓練？

A：強化學習只是模型訓練的一種手段，屬于「后訓練」階段的一部分。如今行業已進入后訓練時代，但這本身并不值得過度強調——就像 GPT 或 Waymo 也不會單獨強調強化學習。元戎在技術選型上一直較為精準，VLA 是一個全新領域，方向選擇很多，如果有清晰的技術判斷，資源消耗完全可以更高效。事實上，輔助駕駛場景的 GPT 模型規模相對可控，比如 7B 模型并不需要極端龐大的算力。

Q：仿真測試方面，有廠商大幅減少實車測試、增加仿真里程，這是行業趨勢嗎？

A：我們更專注于自身技術路線。仿真是數據來源的一種，關鍵不在于是真實還是仿真，而在于數據質量。高質量數據集才是模型優化的核心。

Q：長期看仿真數據在訓練中的占比會達到多少？仿真數據生成能力會成為壁壘嗎？

A：仿真需基于真實數據，否則無法有效模擬。現實數據仍是主體，仿真作為補充。從預訓練到后訓練階段，仿真比例會逐漸提升。行業應關注大模型整體發展，避免局限在自動駕駛領域。技術本質是相通的，就像人腦神經元結構并無太大差異。

對行業熱點的看法

Q：最近馬斯克提到「激光雷達會讓自動駕駛越來越不安全」，您怎么看？

A：激光雷達目前對通用障礙物識別仍有重要作用，正如之前提到的，大模型的知識庫能力可以識別很多未知障礙物。我相信隨著大模型技術的發展，視覺會在感知中扮演越來越重要的角色。短期來看，激光雷達受限于技術發展和數據集的成熟度，仍有其價值；長期來看，大模型有望逐步解決現在依賴激光雷達的部分任務。

Q：如何看待其他車企推出 VLA 模型？比如小鵬。元戎的差異化優勢在哪里？

A：小鵬的 VLA 進展也不錯，他們基于千問模型做出了實打實的成果。VLA 涵蓋面很廣，不像端到端那樣直接，更需要精準的技術判斷和持續積累。

Q：從規則算法、端到端 1.0 到 VLA 模型，如果現在車企或供應商想自研輔助駕駛系統，能否可以直接切入 VLA？是否需要完整經歷之前的研發階段？您研發端到端時是否預見到其上限？

A：每個階段都無法跳過，從有圖、無圖、端到端到 VLA 模型，整個發展過程必不可少，最多只能壓縮某些階段的時間，但不可能完全繞過。至于 VLA 模型的上限，目前其下限已經超過端到端方案的上限。

Q：過去幾年，國內外廠商推出的智駕芯片對于 Transformer 模型的支持都不是很好。既然 VLA 是一個 GPT based E2E 架構，這是不是意味著：以后各家廠商在研發高階智能輔助駕駛芯片時，除了做到數千 TOPS 的算力，還必須將對 Transformer 模型的原生、高效支持作為核心設計指標？

A：確實如此。早期芯片主要針對 CNN 設計，未來一定會加強對 Transformer 的支持，尤其是在 FP4、FP6 等精度的優化上。

Q：華為不走 VLA 路線，您怎么看？

A：若算力不足，確實可能選擇其他路徑。但真正要實現思維鏈（CoT）仍需 VLA 方向。

Q：作為行業參與者，如何共同將智駕蛋糕做大？除技術外還需哪些助力？

A：宣傳需理性，避免過度承諾，尤其在安全方面。技術發展需時間，需正確引導用戶預期。監管與行業自律也很重要。

Q：元戎是否會參與 L4 競爭？目前進展如何？

A：傳統自動駕駛等級劃分已過時，真正的無人駕駛需推理能力，純規則系統無法應對「紅燈可左轉」這類問題。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.