網易首頁 > 網易號 > 正文申請入駐

對話小米輔助駕駛團隊：兩年三階，一場以體驗為終點的技術馬拉松

2026-04-08 21:42:55　來源: 36氪

北京舉報

分享至

今天在何處聚焦資源，
明天便可能在哪里贏得市場。

在智能電動車競賽中，輔助駕駛的角逐早已成為決定勝負的重中之重。

2026年3月，隨著新一代SU7發布，小米正式推出基于XLA認知大模型的新一代輔助駕駛方案。這不僅是一次技術路線的關鍵轉折，也讓小米把“體驗優先”的思路推進到新的階段。

這個一度被行業視為“后來者”的玩家，如今正憑借一套清晰而迅猛的技術進化路徑，走出一條聚焦用戶體驗、務實演進的新派道路。

回顧小米輔助駕駛的發展歷程，這是一段小米從跟隨行業主流技術路徑，到逐步形成自主技術路徑和技術思考的進化史。

2024年3月，小米輔助駕駛在第一代SU7上首次量產，當時行業正圍繞“無圖”和“開城”展開激辯，小米第一代方案也以此切入，正式進入“無圖開城”的戰場。作為新選手，小米對主流趨勢的回應是跟從。

隨著規則驅動的無圖方案逐漸觸及天花板，行業轉向探索以數據為核心的“端到端”模型。2025年2月，小米迅速跟進，推出第二代輔助駕駛系統，并于同年7月快步迭代至1000Clips版本，在數據驅動的賽道上奮起直追。

然而，數據驅動的“蜜月期”并未持續太久。端到端方案的體驗高度依賴數據，難以窮盡的長尾場景成為共同挑戰，行業進入瓶頸期。無人區的技術探索并無先跡可循，行業迸發出多條技術路線。

小米并未盲目持續投入數據軍備競賽，而是從第一性原理思考，將目光投向更本質的駕駛原理——能否讓“車”像“人”一樣學會開車？

2026年3月，小米便帶來了第三代方案：XLA認知大模型。與此前兩代不同，XLA不再僅僅依賴單純的規則或數據模式，而是試圖讓輔助駕駛系統真正“理解”環境，進行常識與因果推斷。

小米輔助駕駛此刻已不再只是行業的跟隨者，在認知驅動的新起點上，小米與領先玩家站在了同一起跑線，甚至展現出了獨特的技術思考。

從規則、數據到認知，兩年三次跨越，小米的壓力不言而喻。規則時代需補工程積累的課，數據時代要追趕閉環規模，后來者必須加倍奔跑。而恰在此時，行業方向再度調轉，向認知層面進發。小米這一次不僅果斷跟上了節奏，更是憑借對用戶體驗的堅持，給出了完成度與特色兼具的答案。

小米是如何做到的？36氪與小米汽車智能駕駛端到端技術負責人陳光、小米汽車智能駕駛基座大模型負責人陳龍進行了一場深度對話。

交談中，陳龍坦言，小米輔助駕駛的確起步較晚、發布節奏也沒有同行那么快，“但我們一定是把體驗最好、最安全的這個產品送到用戶手中”。比起博眼球，小米更愿意選擇務實的那條路。

其次，與許多單純追求技術指標的公司不同，小米在輔助駕駛領域依然延續著“和用戶交朋友”的理念。

小米最終為何選擇XLA？陳光告訴36氪，在確定采用XLA路線之前，團隊內部也曾經歷過技術路徑的爭論。在行業方向尚未明朗之時，各種方案看似都有其合理之處。最后如何統一方向？陳光表示，“團隊一致認可，XLA才能夠為用戶帶來真正‘很酷’的體驗。”

這種體驗優先的思路，背后實則需要十分堅實的技術支撐。小米在多模態認知、具身智能交互以及工程落地已探索與實踐數年，這些經驗理解，便是其在輔助駕駛行業最新的技術爭奪戰中拔得頭籌的重要原因。

輔助駕駛的“認知時代”剛剛啟幕，尚無成熟路徑可循。這場無人區的探索，比拼的不僅是技術，更是企業的戰略定力與對用戶需求的洞察深度。今天在何處聚焦資源，明天便可能在哪里贏得市場。

小米所選擇的這條融合自研基座模型、多模態認知與具身智能數據的XLA之路，能否真正實現從“并跑”到“引領”的跨越？從接下來的對話中，一起聆聽小米如何拆解其中的邏輯、挑戰與未來構想。

解析：XLA，

在認知大模型上進行創新

36氪：小米的輔助駕駛，現在在做什么？

陳龍：我們正在做的，就是在輔助駕駛領域，引入認知大模型這個范式。我們希望通過大模型，讓輔助駕駛系統有對環境的認知能力，能習得一些人類世界的常識、交通規則和一些道路實物的因果關系，從而解決端到端難以解決的長尾問題。

前段時間發布的XLA認知大模型，就是我們推出的第一版認知驅動的輔助駕駛系統。

36氪：相比端到端，認知大模型的優勢是什么？

陳龍：我舉一個場景案例，比如前方道路封閉了，現場通過路牌和圍擋引導車輛繞行，過程中可能還需要臨時借道，甚至短暫跨越雙黃線。端到端版本更多是根據當前道路形態繼續往前走，遇到這種臨時改道場景，未必能主動理解“現在應該繞行”。但XLA認知大模型可以結合現場標識和環境信息，理解這是一個“封路后按指示繞行”的場景，進一步推理出可行路徑，并發起合理繞行。

36氪：聽起來和行業現在熱議的VLA大模型沒什么區別？

陳龍：VLA其實是學術界傳過來的名詞，它的意思就是視覺語言大模型。

我們XLA認知大模型不僅僅有視覺信息，還有聲音信息、雷達信息，包括更多模態的比如導航之類的。我們XLA中X的第一層意思，就是我們采用了比視覺更多的模態作信息輸入。

另一方面就是我們在XLA的基座模型中，融入了具身智能相關的數據。

這里也有一個很重要的差別，行業里其他廠商的認知大模型是在一些開源模型上打造的，小米使用的是我們自研的Xiaomi MiMo-Embodied具身基座模型。因為是自研的，所以我們在基座模型的預訓練階段，便加入了很多具身智能的數據。所以XLA中X的第二層含義，便是我們具備更豐富的數據。

還有一個很核心的區別。

行業里的VLA，有些會輸出大段文字推理，然后再輸出動作。這樣有一個問題，就是速度太慢了，延時不可控。然后就有另一種說法，那索性去掉語言了。但這樣它就不是VLA了，因為根本就沒用上L的推理能力了。

我們XLA使用的是潛空間推理。具體做法就是，在推理的時候使用的是機器語言，這樣的話過程和推理時延都是可控的。當然，這個機器語言也可以解碼成文字，具備可解釋性。我們既保證了推理能力，又大大提升了效率。

36氪：現在業界都在探索汽車和具身智能機器人的關系，小米為什么會把具身智能的數據用到汽車上？

陳龍：我們把具身智能相關數據加進來，主要是為了訓練汽車的空間感知和空間推理能力。

空間感知里，有一個精度差距。汽車對周圍事物的感知精度，一般是在分米級別。但人形機器人，它平常的訓練任務可能是抓握杯子之類的，它的數據精度可以是厘米甚至更高級別。用人形機器人的數據來訓練汽車，那汽車的能力不就更強了嗎？

其次，現在的輔助駕駛汽車在路上開，其實沒有跟周圍事物產生交互的。我們的目的其實是要避免碰撞，但輔助駕駛系統其實并不了解碰撞到底是什么。空間推理能力，其實就是讓汽車理解，這樣子開造成什么樣的后果。而機器人，剛好就有很多這樣的交互的數據。

我們的Xiaomi MiMo-Embodied，就是全球首個打通了輔助駕駛和機器人的具身智能基座模型。當然，我們也發現，輔助駕駛和機器人的數據是互相增強的，所以未來我們希望輔助駕駛、機器人甚至其他小米智能設備都進化成一個大腦，從而帶來更加無縫的體驗。

36氪：但具身智能的數據復雜又精巧，想要跟輔助駕駛的數據融合，挑戰不小。

陳龍：是的。

具身智能數據，首先就包含很多不同形態的機器人本體，這些機器人本體上，傳感器的位置不一樣，甚至相機圖像的分辨率都不同。然后輔助駕駛的輸出大多是2D層面的，但機器人更多是3D空間的多關節輸出。

難就難在，如何設計一個精巧的模型結構，讓這些不同的數據統一起來。當然，目前的訓練目標主要是空間感知和空間推理，還不太涉及動作級別，可能未來才需要考慮兩種任務在執行空間上的差別。

36氪：XLA僅限于行車場景嗎？泊車上有什么進展嗎？

陳光：我們的泊車也更智能了。這次有推出一個新功能，比如你導航的最終目的地是一個商場的商戶，那我們泊車會在這個商圈停車場中，尋找離這個商戶電梯口最近的停車位。目前，這個功能收到了一些用戶的好評和推薦了。

工程落地：

讓“車”像“人”，并不容易

36氪：感覺這個功能實現起來不容易。

陳光：我覺得難點有很多，但本質上還是怎么能像人一樣，到一個相對陌生的環境時，能找到最適合自己的停車位。

車進入一個地庫后，你需要能讀懂地庫的環境，包括一些文字標牌、電梯口的信息之類的。如果最近的停車位都停滿了，我們就會開始漫游，找更適合的停車位。本質上就是，怎么根據已有的這些指引信息，去到導航最終的目的地。

36氪：這對車端實時處理能力要求很高。

陳光：是的，比較高。我們是經過了很大的算法優化，才把XLA部署上去的。這種算法適配，其實也是很大的挑戰。我們前前后后經歷了很多開發和工程的優化，也踩過一些坑，做的也是有一些辛苦。在這里面，我們是有一些Know-How的。

36氪：你如何評價小米輔助駕駛的工程能力？

陳光：我個人認為還是很比較領先的，現在還是很少有能把這么復雜的一個模型部署到這個實際的車端，并且推送給所有用戶的企業。

36氪：那小米接下來的方向會是什么？

陳龍：第一肯定是算力問題。大模型，它尺寸越大，能力就越強，我們當然想在車上放一個最強的一個模型，但是車端是有算力限制的。我們現在做的潛空間推理，意義就是這個。當然，以后會做更多。

陳光：是的，車端模型參數量的進一步的提升，包括它在訓練過程中如何能消費更多的數據、能理解更多的場景，這是第一個的挑戰。

第二個挑戰，就是怎么給用戶開發更多行車和泊車的功能，進一步提升產品體驗，特別是新功能能不能給用戶帶來更多驚喜。

升級：優質數據、

基座模型與仿真世界缺一不可

36氪：認知大模型的優化也依賴數據嗎？

陳龍：數據肯定是一方面，我們持續需要高質量的數據，另一方面就是模型能力本身，尤其是基座模型。

剛剛提到，有些廠商會用開源的基座模型。這里有一個問題，你并不知道這些開源模型是怎么做預訓練的，它可能沒有很細致的數據清洗和標準，甚至還會使用到網上比較抽象的、危險的信息。這些東西反映到最終的駕駛行為時，可能會引發蝴蝶效應，造成很大風險。

但從頭做基座大模型非常不容易，第一是需要一個很強的團隊，然后是數據篩選和清洗工作，再要搭建調試自己的Infra系統，還要有一套評測指標。并且，一個版本模型發布出來后，可能幾個月就已不再是領先架構了，所以這一套動作還要反復做。

所以認知大模型能優化到什么程度，不僅取決于企業在基座模型投入的人才和資源，還和企業對大模型趨勢的判斷有關。

36氪：所以小米現在All in認知大模型了？

陳光：現在行業對輔助駕駛有不同的探索路線，一類是我們現在做的XLA，直接引入認知大模型，另一類則希望用世界模型的生成和重建的能力去解決認知的問題。

當然，我們不認為認知大模型和世界模型是對立的，就算是多模態語言模型，也需要一個很好的仿真模擬環境。

我們其實是把兩條技術路線結合起來了，并不是說車端用XLA的技術，我們在云端就要完全放棄世界模型。

36氪：世界模型還是有難以替代的優勢。

陳光：至少在一些閉環仿真，就是將這種物理世界投射到這種數字空間的時候，世界模型是不可缺少的。

現在技術的焦點就是長尾場景，比如馬路上滾落一個異形石塊或者輪胎，真實世界你很難用實車去遇到，很難批量收集這樣的場景。所以無論是世界模型還是XLA，都要在仿真模擬器里探索。

36氪：這算是行業級的技術新共識嗎？

陳光：可能因為小米在一段式端到端的階段就走得比較靠前，所以我們在認知大模型出現前，就覺得閉環仿真能力很重要，包括特斯拉在內，行業領頭羊們對世界模型的重建和生產，應該都做得比較扎實了。

36氪：世界模型出現前，閉環仿真是怎么做的？

陳光：很難做，幾乎只有靜態場景，動態場景都依賴真實數據，所以以前大家總是會說“數據量很稀缺”。

36氪：但XLA已經可以“看懂”這些路面障礙物了，還需要這樣的數據反復訓練嗎？

陳光：我們希望一個功能在真實給用戶之前，都在一個模擬器里面完整去測過。

36氪：測過就能保證真實使用時的安全嗎？

陳光：數字空間和世界模型，其實是一個漏斗的作用，它可以把大部分的問題都攔截住。對于剩下的問題，多模態大模型本身就具備泛化能力，我們希望通過它本身的認知和推理能力來提出更好的解決方案。這兩者其實是一個結合的作用。

36氪：那小米會在世界模型上持續投入嗎？未來迭代的方向會是什么？

陳光：今年我們在GTC上介紹了小米在世界模型上的新進展，也在包括CVPR2026、ICLR2026、NIPS2025、ICCV2025這些頂會上發表了近10篇世界模型相關的論文，這足以說明，小米高度重視世界模型。

方向的話，我覺得三個方面。

第一是真不真，這個可能跟咱們理解的完美真實不太一樣。我舉個例子，我們希望模仿的雨天，是攝像頭上掛有水珠的那種真實的圖像，而不是說模擬出一個絕對干凈的雨天環境。我們希望模擬的情景，能和車端最后獲取的信息一致，這樣你的測試才有效果。

第二就是要很豐富。我今天可能想解決陽光直射場景的通行，過兩天可能又希望解決大雨、大霧或大雪情況下的通行。所以能不能在不改變交通信息的情況下，只改變天氣光照信息呢？

第三就是場景的編輯能力，你的數字資產要足夠豐富，我能用這些信息模擬各種各樣的場景。足夠豐富，才有足夠的作用。

36氪：聽起來很復雜，小米在這已經投入多久了？

陳光：已經兩年了。我回憶了一下，從24年上半年開始就有一些技術上的準備了。到24年末，小米的技術已經在行業和學術界得到一定認可。25年下半年就可以走到技術的收獲期了，有一些重點比賽的冠軍、論文之類的。

36氪：也就是說，小米在這方面已經具備明顯優勢了？

陳光：我們當然希望先發優勢能一直保持下去，我們做的確實比較早，希望能對行業產生一些正向影響，大家一起來把這個事做扎實一些，最終其實也是服務于整個行業的產品體驗嘛。

價值觀：既要安全、也要體驗

36氪：什么是好的輔助駕駛體驗？

陳光：我覺得好的體驗，最重要的事情一定是安全。不能給用戶帶來不安全或者不安心的產品，這個是我們當前最核心的一個事情。

36氪：為什么會把安全和安心拆開來講？

陳光：從技術角度講，你只要不碰撞就是安全。但用戶對安全的感受，并不只是“不碰撞”。比如急剎車，用戶不清楚系統為什么做出這樣“過激”的行為，可能會有體感上的不適，也會產生“不安全”的感覺。

所以我們不光要保證輔助駕駛的技術維度的安全，也要保證給用戶帶來足夠的安心感。只有既安全、又讓人敢用、愿用，這樣的產品體驗才是完整的。

36氪：小米在安心感上，有什么心得嗎？

陳光：我覺得是有一些新的進展的。

比如我們在路口盲區，會有一些預防性的減速，這就很像人類開車的思路，用戶第一反應會是你做了這個動作，你懂這個場景。

再比如，前方即將進入擁堵路段了，我們的車不會走到最后一步、到非常極限的時候才做一腳急剎，而是說會早早的、防御性地降低速度。這也代表了我們在安全和安心感上的一些思考吧。

36氪：能否總結下小米輔助駕駛研發的性格，或者說是價值觀？

陳光：怎么說呢，小米的價值觀還是深刻影響了小米輔助駕駛團隊的性格。我覺得和用戶交朋友是最重要事情，從用戶的角度去思考他們需要什么樣的產品體驗，再反過來去推進這個技術的迭代。

就比如從端到端到XLA，初期我們有些同事看好世界模型、有些同事更看好XLA，但深度討論過后，大家最終是覺得XLA一旦做成，一定能給用戶帶來很酷的產品體驗，所以就算再難，我們也沖了。

陳龍：是的，雖然我們小米的輔助駕駛的起步比較晚，可能我們這個發布的節奏也沒有那么的快，但我們一定是把體驗最好、最安全的這個產品送到用戶手中。

從我的角度，我覺得我們也一直在踐行第一性原理。因為我們堅信大模型可以幫助輔助駕駛解決一些關鍵問題，所以我們會做很多大模型的探索工作，最終希望把大模型的能力發揮出來，推動輔助駕駛朝更高階能力繼續演進。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.