<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      ColaVLA:自動駕駛大模型,不一定非要把「思考過程」寫成文字

      0
      分享至



      過去兩年,自動駕駛和大模型的結(jié)合越來越熱。一個很自然的方向是:既然視覺語言模型已經(jīng)具備很強(qiáng)的場景理解和推理能力,那能不能讓它像人類司機(jī)一樣,先理解環(huán)境、再做判斷、最后輸出軌跡?

      這條路線聽起來很合理,但真正落到自動駕駛上,很快就會遇到一個問題:很多方法雖然引入了大模型,卻仍然把「推理」做成了文本鏈?zhǔn)酵评怼R簿褪钦f,模型要先生成中間解釋,再把這些解釋一步步轉(zhuǎn)成動作或軌跡。這樣做的優(yōu)點是看起來 「更會思考」,但代價也非常明顯:文本是離散 token,而軌跡是連續(xù)控制;文本推理還依賴自回歸解碼,速度慢、鏈路長,不太適合實時駕駛。

      來自清華大學(xué)與香港中文大學(xué) MMLab 的研究團(tuán)隊提出了全新的隱空間推理與層次化軌跡規(guī)劃的 VLA 框架 --ColaVLA,論文已經(jīng)被 CVPR2026 主會接收。



      • 論文標(biāo)題:ColaVLA: Leveraging Cognitive Latent Reasoning for Hierarchical Parallel Trajectory Planning in Autonomous Driving
      • 論文鏈接: https://arxiv.org/abs/2512.22939
      • 代碼鏈接: https://github.com/pqh22/ColaVLA

      這篇論文給出的答案很直接:自動駕駛中的推理,不一定要寫成文字。

      與其讓模型「邊說邊想」,不如讓它在統(tǒng)一潛空間里完成推理,再把結(jié)果直接交給動作規(guī)劃器。這樣既能保留 VLM 的語義先驗和知識能力,又能繞開顯式文本生成帶來的延遲和表示錯位。

      整篇論文最重要的貢獻(xiàn),其實可以概括成兩句話:第一,把推理從文本空間搬到潛空間;第二,把軌跡生成從串行過程改成分層并行過程。



      一、核心思路:先「想清楚」,再「開出來」

      ColaVLA 的整體框架由兩個核心部分組成:

      • Cognitive Latent Reasoner:負(fù)責(zé)完成高層駕駛認(rèn)知
      • Hierarchical Parallel Planner:負(fù)責(zé)把高層策略展開成連續(xù)軌跡

      作者的目標(biāo)不是簡單把一個大模型接到規(guī)劃器前面,而是重新定義「推理」和「動作」之間的接口,讓二者真正對齊。

      先看前半部分,也就是潛空間推理器。作者把它設(shè)計成一個很像人類司機(jī)的四步過程:

      • Understand
      • Recognize
      • Rethink
      • Decide

      這四步看上去很直觀,但真正巧妙的地方在于,它們都不是通過自然語言完成的,而是在統(tǒng)一潛空間中隱式完成。

      第一步 Understand,是先整體看懂場景。模型會把多視角視覺信息、固定駕駛提示和 ego 車狀態(tài)一起送入共享 VLM,先建立一個全局場景理解,而不是一上來就直接回歸軌跡。

      第二步 Recognize,是從大量視覺信息里篩出真正和當(dāng)前駕駛動作相關(guān)的關(guān)鍵實體。這里論文設(shè)計了一個 ego-adaptive router,根據(jù)當(dāng)前自車狀態(tài)動態(tài)選擇最重要的視覺 token,保留的通常是車道、鄰近車輛、行人、交通燈這些安全關(guān)鍵線索,而不是無差別地處理整張圖。

      第三步 Rethink,則是在壓縮后的關(guān)鍵信息上再做一次 “復(fù)核式推理”,并借助一組可學(xué)習(xí)的 meta-query 來表示不同高層駕駛策略。

      最后一步 Decide,輸出的也不是一句解釋文本,而是一組面向動作生成的高層駕駛先驗。這樣一來,模型就不再需要把推理結(jié)果先翻譯成自然語言,再從語言翻譯回動作空間,而是直接完成從認(rèn)知到策略的內(nèi)部閉合。



      二、真正落到動作層面,它的規(guī)劃器為什么更合理?

      很多自動駕駛方法的問題,不只是上游推理方式不合適,下游軌跡生成方式也未必真正符合駕駛動作的結(jié)構(gòu)。有些方法一次性直接回歸整條軌跡,雖然簡單,但缺少層次;有些方法依賴復(fù)雜生成過程,雖然表達(dá)能力強(qiáng),但效率和部署穩(wěn)定性不一定理想。

      ColaVLA 這里的思路很清晰:駕駛軌跡本來就是分層的,所以生成過程也應(yīng)該分層。

      論文提出的Hierarchical Parallel Planner有三個關(guān)鍵詞:

      • 先粗后細(xì)
      • 保持因果
      • 并行解碼

      它不是把未來軌跡當(dāng)作一個扁平輸出,而是先確定粗粒度意圖,再逐步補(bǔ)足中間細(xì)節(jié)。這更像真實駕駛員的決策方式:先想清楚「往哪去」,再決定「具體怎么走」。

      同時,作者還設(shè)計了一個 causality-preserving 的注意力機(jī)制,保證不同尺度之間的信息流是從粗到細(xì)、逐層細(xì)化的,而不是相互泄漏。這樣一來,多尺度結(jié)構(gòu)就不只是形式上的分解,而是真正具有因果約束的軌跡生成過程。

      更重要的是,這個 planner 可以在單次前向傳播中并行完成多尺度、多模式軌跡解碼,不用再像文本 CoT 那樣一步一步串行生成。



      三、實驗結(jié)果說明了什么?

      從結(jié)果上看,ColaVLA 最打動人的地方,不只是「指標(biāo)更高」,而是它同時兼顧了精度、安全和效率。

      1. Open-loop:不只是預(yù)測更準(zhǔn),而且更安全

      在 nuScenes 的開環(huán)評測中,ColaVLA 在動作類方法里取得了最優(yōu)綜合表現(xiàn),平均 L2 誤差為0.30 m,平均碰撞率為0.23%。相比強(qiáng)基線 SOLVE-E2E,L2 進(jìn)一步下降,碰撞率也明顯降低。

      這說明它輸出的軌跡并不只是數(shù)值上更接近真值,而是在安全性層面也更優(yōu)。



      2. Closed-loop:真正體現(xiàn)方法價值的部分

      在更關(guān)鍵的閉環(huán)評測 NeuroNCAP 中,ColaVLA 的平均得分達(dá)到3.48,平均碰撞率降到36.8%,明顯優(yōu)于多種前序方法。

      論文特別指出,相比依賴文本推理、并使用額外數(shù)據(jù)的 ImpromptuVLA,ColaVLA 在不顯式生成文本思維鏈的情況下,依然取得了更好的閉環(huán)表現(xiàn)。

      這個結(jié)果很有說服力,因為它說明:對自動駕駛來說,更長、更復(fù)雜的文字推理鏈,并不一定能帶來更好的真實駕駛行為;真正關(guān)鍵的,還是內(nèi)部決策表征是否適合動作生成,以及規(guī)劃器是否具有合理的因果結(jié)構(gòu)。



      3. 推理效率:它把「落地可能性」往前推了一步

      效率上,ColaVLA 也給出了非常亮眼的結(jié)果。在扎實的工程優(yōu)化后,它的在 H200 上的端到端推理延遲為228 ms/frame,而對比的文本式方法整體快了5 倍到 10 倍左右。

      這意味著,把推理從文本搬到潛空間,并不只是概念上更優(yōu)雅,而是真的換來了實打?qū)嵉乃俣仁找妗τ趶?qiáng)調(diào)閉環(huán)和實時性的自動駕駛來說,這一點尤其關(guān)鍵。

      四、消融實驗最值得記住的幾點

      這篇論文的消融實驗也比較完整,但最值得記住的其實只有四點。

      第一,潛空間推理本身確實有效。只要加入 latent reasoning,模型的軌跡誤差就會下降;再加入 rethink 階段,效果還會進(jìn)一步提升。這說明「先抓關(guān)鍵、再做復(fù)核」的認(rèn)知鏈條不是敘事包裝,而是真正有助于決策質(zhì)量。

      第二,分層并行規(guī)劃器本身也很重要。即便把 reasoning 模塊去掉,作者的 planner 在閉環(huán)上依然明顯優(yōu)于普通 MLP 頭和 diffusion 頭,說明它確實更符合真實駕駛動作的生成邏輯。

      第三,關(guān)鍵 token 不是越多越好,而是平衡最好最重要。保留太少會丟信息,保留太多又會引入冗余,論文最終選擇了一個在表達(dá)能力和效率之間更均衡的配置。

      第四,最優(yōu)的軌跡生成方式不是一次性回歸整條軌跡,而是先確定關(guān)鍵點,再逐層補(bǔ)齊中間細(xì)節(jié),這和駕駛動作本身的因果結(jié)構(gòu)是對得上的。

      五、這篇論文真正有價值的地方是什么?

      如果只把 ColaVLA 看成「又一個自動駕駛模型」,其實低估了它。

      我覺得這篇工作的更大意義在于,它提出了一個非常明確的判斷:

      自動駕駛中的推理,不一定需要顯式寫成文字。

      過去很多工作默認(rèn)認(rèn)為,大模型的優(yōu)勢來自「會解釋」「會說話」「能輸出思維鏈」。但 ColaVLA 給出的答案是:在自動駕駛這種連續(xù)控制任務(wù)里,更重要的也許不是「讓模型把思考說出來」,而是「讓模型在內(nèi)部真正想清楚,并用更適合動作生成的方式表達(dá)出來」。

      從這個角度看,它代表的是一種很值得重視的范式變化:

      • 從text reasoning轉(zhuǎn)向latent reasoning
      • 從sequential decoding轉(zhuǎn)向parallel decoding
      • 從「展示推理過程」轉(zhuǎn)向「兼顧安全、效率和閉環(huán)表現(xiàn)」

      論文最后的結(jié)論也很清楚:把推理從文本遷移到潛空間,為自動駕駛中的知識驅(qū)動決策提供了一條更可擴(kuò)展、也更現(xiàn)實的路徑。

      六、總結(jié)

      如果要用一句話總結(jié) ColaVLA,我會這樣說:

      它不是讓自動駕駛大模型「更會說」,而是讓它「更會在內(nèi)部想清楚,再更快地開出來」。

      這篇論文最核心的貢獻(xiàn),不只是提出了一個新模塊,也不只是刷新了幾項指標(biāo),而是它證明了下面幾件事:

      1. 自動駕駛里的推理,可以不依賴顯式文本思維鏈;
      2. 潛空間推理同樣可以保留高層駕駛決策能力;
      3. 分層并行、因果一致的規(guī)劃器,更適合真實駕駛動作生成;
      4. 當(dāng)推理形式和動作生成真正對齊時,系統(tǒng)才能同時獲得更好的安全性、效率和閉環(huán)表現(xiàn)。

      對于后續(xù)自動駕駛大模型的發(fā)展來說,這篇工作很可能代表著一個很值得繼續(xù)深入的方向:

      不是把大模型硬塞進(jìn)自動駕駛,而是重新設(shè)計一種真正適合自動駕駛的大模型推理方式。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點推薦
      邱彪有麻煩了!剩7場比賽,對手全是狠角色,媒體人:能贏3場算賺

      邱彪有麻煩了!剩7場比賽,對手全是狠角色,媒體人:能贏3場算賺

      金山話體育
      2026-04-07 09:54:48
      張本美和奪冠,三十多年前何智麗的回旋鏢打回中國乒乓球隊

      張本美和奪冠,三十多年前何智麗的回旋鏢打回中國乒乓球隊

      羅納爾說個球
      2026-03-17 21:33:29
      新款螢火蟲上市售價7.98萬元起 內(nèi)外煥新動力全面提升

      新款螢火蟲上市售價7.98萬元起 內(nèi)外煥新動力全面提升

      第壹新車
      2026-04-07 20:19:12
      從8.3飆到9.6,這是國產(chǎn)真·神劇

      從8.3飆到9.6,這是國產(chǎn)真·神劇

      獨立魚
      2026-04-07 21:09:03
      8700 萬鎊!曼聯(lián)鎖定邊路新殺器,實力碾壓姆貝莫

      8700 萬鎊!曼聯(lián)鎖定邊路新殺器,實力碾壓姆貝莫

      奶蓋熊本熊
      2026-04-08 04:52:55
      瘋?cè)偑劷鸶哌_(dá)2.26億美元!NCAA真的令中國聯(lián)賽汗顏?

      瘋?cè)偑劷鸶哌_(dá)2.26億美元!NCAA真的令中國聯(lián)賽汗顏?

      田先生籃球
      2026-04-06 23:02:37
      浙江新增一所985大學(xué),全國都在限制,浙江為什么突圍?

      浙江新增一所985大學(xué),全國都在限制,浙江為什么突圍?

      高等教育數(shù)字局
      2026-04-07 12:25:12
      隨著63歲穆帥率隊爆冷1-1,波爾圖2-2,葡體4-2,葡超最新積分榜出爐

      隨著63歲穆帥率隊爆冷1-1,波爾圖2-2,葡體4-2,葡超最新積分榜出爐

      側(cè)身凌空斬
      2026-04-07 06:04:43
      伊朗民眾組成人鏈保護(hù)發(fā)電廠和橋梁

      伊朗民眾組成人鏈保護(hù)發(fā)電廠和橋梁

      21世紀(jì)經(jīng)濟(jì)報道
      2026-04-07 23:38:05
      為什么WTO很少被提起了?中國入世談判花了15年,如今幾乎被架空

      為什么WTO很少被提起了?中國入世談判花了15年,如今幾乎被架空

      古史青云啊
      2026-04-07 14:52:09
      中國的“性蕭條”時代,正式到來了

      中國的“性蕭條”時代,正式到來了

      律法刑道
      2025-12-15 08:28:58
      為什么沒人聯(lián)合打以色列,答案很簡單:不是沒人想打,是沒人敢打

      為什么沒人聯(lián)合打以色列,答案很簡單:不是沒人想打,是沒人敢打

      墨印齋
      2026-04-07 13:47:02
      陳麗華去世后,富華已完成交接,遲重瑞的晚年也成關(guān)注點

      陳麗華去世后,富華已完成交接,遲重瑞的晚年也成關(guān)注點

      白淺娛樂聊
      2026-04-07 22:32:15
      你的親戚能壞到啥地步?網(wǎng)友:只要你有道理,千萬別怕,發(fā)瘋到底

      你的親戚能壞到啥地步?網(wǎng)友:只要你有道理,千萬別怕,發(fā)瘋到底

      帶你感受人間冷暖
      2026-04-08 00:40:03
      為何中年女性出軌不開房了,反而喜歡選擇這些地點呢?

      為何中年女性出軌不開房了,反而喜歡選擇這些地點呢?

      思絮
      2026-03-20 12:18:19
      偶像,約基奇賽后主動找到楊瀚森擁抱致意

      偶像,約基奇賽后主動找到楊瀚森擁抱致意

      懂球帝
      2026-04-07 12:58:11
      2020年,長沙女子癌癥晚期,爭奪女兒40萬學(xué)費,直言:我只想活著

      2020年,長沙女子癌癥晚期,爭奪女兒40萬學(xué)費,直言:我只想活著

      大魚簡科
      2026-04-06 11:33:07
      王濛當(dāng)面懟倪萍,這一句“我不吃這套”讓多少人破防了

      王濛當(dāng)面懟倪萍,這一句“我不吃這套”讓多少人破防了

      情感大頭說說
      2026-04-07 16:52:00
      航天從不是賭局!NASA拿4人生命趕進(jìn)度,反觀中國,行穩(wěn)致遠(yuǎn)才是王道

      航天從不是賭局!NASA拿4人生命趕進(jìn)度,反觀中國,行穩(wěn)致遠(yuǎn)才是王道

      Thurman在昆明
      2026-04-06 01:26:13
      可愛教主,真潤啊!

      可愛教主,真潤啊!

      貴圈真亂
      2026-04-07 12:25:06
      2026-04-08 05:56:49
      機(jī)器之心Pro incentive-icons
      機(jī)器之心Pro
      專業(yè)的人工智能媒體
      12701文章數(shù) 142616關(guān)注度
      往期回顧 全部

      科技要聞

      滿嘴謊言!OpenAI奧特曼黑料大起底

      頭條要聞

      特朗普:伊朗人愿為自由承受轟炸

      頭條要聞

      特朗普:伊朗人愿為自由承受轟炸

      體育要聞

      阿韋洛亞:諾伊爾是本場最佳;我們會帶著必勝的信念前往德國

      娛樂要聞

      女首富陳麗華離世 被曝生前已分好遺產(chǎn)

      財經(jīng)要聞

      10萬億財政轉(zhuǎn)移支付,被誰拿走了?

      汽車要聞

      不止是大 極狐首款MPV問道V9靜態(tài)體驗

      態(tài)度原創(chuàng)

      家居
      時尚
      房產(chǎn)
      教育
      公開課

      家居要聞

      雅致愜意 感知生活之美

      120元和120分鐘,哪個更奢侈?

      房產(chǎn)要聞

      重磅!三亞擬出安居房新政!

      教育要聞

      別再問“哪個專業(yè)最好”先問這3個問題!選錯專業(yè)=毀四年#新學(xué)期超給力

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進(jìn)入關(guān)懷版