![]()
![]()
- 今天在何處聚焦資源,
- 明天便可能在哪里贏得市場。
![]()
在智能電動車競賽中,輔助駕駛的角逐早已成為決定勝負的重中之重。
2026年3月,隨著新一代SU7發布,小米正式推出基于XLA認知大模型的新一代輔助駕駛方案。這不僅是一次技術路線的關鍵轉折,也讓小米把“體驗優先”的思路推進到新的階段。
這個一度被行業視為“后來者”的玩家,如今正憑借一套清晰而迅猛的技術進化路徑,走出一條聚焦用戶體驗、務實演進的新派道路。
回顧小米輔助駕駛的發展歷程,這是一段小米從跟隨行業主流技術路徑,到逐步形成自主技術路徑和技術思考的進化史。
2024年3月,小米輔助駕駛在第一代SU7上首次量產,當時行業正圍繞“無圖”和“開城”展開激辯,小米第一代方案也以此切入,正式進入“無圖開城”的戰場。作為新選手,小米對主流趨勢的回應是跟從。
隨著規則驅動的無圖方案逐漸觸及天花板,行業轉向探索以數據為核心的“端到端”模型。2025年2月,小米迅速跟進,推出第二代輔助駕駛系統,并于同年7月快步迭代至1000Clips版本,在數據驅動的賽道上奮起直追。
然而,數據驅動的“蜜月期”并未持續太久。端到端方案的體驗高度依賴數據,難以窮盡的長尾場景成為共同挑戰,行業進入瓶頸期。無人區的技術探索并無先跡可循,行業迸發出多條技術路線。
小米并未盲目持續投入數據軍備競賽,而是從第一性原理思考,將目光投向更本質的駕駛原理——能否讓“車”像“人”一樣學會開車?
2026年3月,小米便帶來了第三代方案:XLA認知大模型。與此前兩代不同,XLA不再僅僅依賴單純的規則或數據模式,而是試圖讓輔助駕駛系統真正“理解”環境,進行常識與因果推斷。
小米輔助駕駛此刻已不再只是行業的跟隨者,在認知驅動的新起點上,小米與領先玩家站在了同一起跑線,甚至展現出了獨特的技術思考。
從規則、數據到認知,兩年三次跨越,小米的壓力不言而喻。規則時代需補工程積累的課,數據時代要追趕閉環規模,后來者必須加倍奔跑。而恰在此時,行業方向再度調轉,向認知層面進發。小米這一次不僅果斷跟上了節奏,更是憑借對用戶體驗的堅持,給出了完成度與特色兼具的答案。
小米是如何做到的?36氪與小米汽車智能駕駛端到端技術負責人陳光、小米汽車智能駕駛基座大模型負責人陳龍進行了一場深度對話。
交談中,陳龍坦言,小米輔助駕駛的確起步較晚、發布節奏也沒有同行那么快,“但我們一定是把體驗最好、最安全的這個產品送到用戶手中”。比起博眼球,小米更愿意選擇務實的那條路。
其次,與許多單純追求技術指標的公司不同,小米在輔助駕駛領域依然延續著“和用戶交朋友”的理念。
小米最終為何選擇XLA?陳光告訴36氪,在確定采用XLA路線之前,團隊內部也曾經歷過技術路徑的爭論。在行業方向尚未明朗之時,各種方案看似都有其合理之處。最后如何統一方向?陳光表示,“團隊一致認可,XLA才能夠為用戶帶來真正‘很酷’的體驗。”
這種體驗優先的思路,背后實則需要十分堅實的技術支撐。小米在多模態認知、具身智能交互以及工程落地已探索與實踐數年,這些經驗理解,便是其在輔助駕駛行業最新的技術爭奪戰中拔得頭籌的重要原因。
輔助駕駛的“認知時代”剛剛啟幕,尚無成熟路徑可循。這場無人區的探索,比拼的不僅是技術,更是企業的戰略定力與對用戶需求的洞察深度。今天在何處聚焦資源,明天便可能在哪里贏得市場。
小米所選擇的這條融合自研基座模型、多模態認知與具身智能數據的XLA之路,能否真正實現從“并跑”到“引領”的跨越?從接下來的對話中,一起聆聽小米如何拆解其中的邏輯、挑戰與未來構想。
![]()
解析:XLA,
在認知大模型上進行創新
36氪:小米的輔助駕駛,現在在做什么?
陳龍:我們正在做的,就是在輔助駕駛領域,引入認知大模型這個范式。我們希望通過大模型,讓輔助駕駛系統有對環境的認知能力,能習得一些人類世界的常識、交通規則和一些道路實物的因果關系,從而解決端到端難以解決的長尾問題。
前段時間發布的XLA認知大模型,就是我們推出的第一版認知驅動的輔助駕駛系統。
36氪:相比端到端,認知大模型的優勢是什么?
陳龍:我舉一個場景案例,比如前方道路封閉了,現場通過路牌和圍擋引導車輛繞行,過程中可能還需要臨時借道,甚至短暫跨越雙黃線。端到端版本更多是根據當前道路形態繼續往前走,遇到這種臨時改道場景,未必能主動理解“現在應該繞行”。但XLA認知大模型可以結合現場標識和環境信息,理解這是一個“封路后按指示繞行”的場景,進一步推理出可行路徑,并發起合理繞行。
36氪:聽起來和行業現在熱議的VLA大模型沒什么區別?
陳龍:VLA其實是學術界傳過來的名詞,它的意思就是視覺語言大模型。
我們XLA認知大模型不僅僅有視覺信息,還有聲音信息、雷達信息,包括更多模態的比如導航之類的。我們XLA中X的第一層意思,就是我們采用了比視覺更多的模態作信息輸入。
另一方面就是我們在XLA的基座模型中,融入了具身智能相關的數據。
這里也有一個很重要的差別,行業里其他廠商的認知大模型是在一些開源模型上打造的,小米使用的是我們自研的Xiaomi MiMo-Embodied具身基座模型。因為是自研的,所以我們在基座模型的預訓練階段,便加入了很多具身智能的數據。所以XLA中X的第二層含義,便是我們具備更豐富的數據。
還有一個很核心的區別。
行業里的VLA,有些會輸出大段文字推理,然后再輸出動作。這樣有一個問題,就是速度太慢了,延時不可控。然后就有另一種說法,那索性去掉語言了。但這樣它就不是VLA了,因為根本就沒用上L的推理能力了。
我們XLA使用的是潛空間推理。具體做法就是,在推理的時候使用的是機器語言,這樣的話過程和推理時延都是可控的。當然,這個機器語言也可以解碼成文字,具備可解釋性。我們既保證了推理能力,又大大提升了效率。
![]()
36氪:現在業界都在探索汽車和具身智能機器人的關系,小米為什么會把具身智能的數據用到汽車上?
陳龍:我們把具身智能相關數據加進來,主要是為了訓練汽車的空間感知和空間推理能力。
空間感知里,有一個精度差距。汽車對周圍事物的感知精度,一般是在分米級別。但人形機器人,它平常的訓練任務可能是抓握杯子之類的,它的數據精度可以是厘米甚至更高級別。用人形機器人的數據來訓練汽車,那汽車的能力不就更強了嗎?
其次,現在的輔助駕駛汽車在路上開,其實沒有跟周圍事物產生交互的。我們的目的其實是要避免碰撞,但輔助駕駛系統其實并不了解碰撞到底是什么。空間推理能力,其實就是讓汽車理解,這樣子開造成什么樣的后果。而機器人,剛好就有很多這樣的交互的數據。
我們的Xiaomi MiMo-Embodied,就是全球首個打通了輔助駕駛和機器人的具身智能基座模型。當然,我們也發現,輔助駕駛和機器人的數據是互相增強的,所以未來我們希望輔助駕駛、機器人甚至其他小米智能設備都進化成一個大腦,從而帶來更加無縫的體驗。
36氪:但具身智能的數據復雜又精巧,想要跟輔助駕駛的數據融合,挑戰不小。
陳龍:是的。
具身智能數據,首先就包含很多不同形態的機器人本體,這些機器人本體上,傳感器的位置不一樣,甚至相機圖像的分辨率都不同。然后輔助駕駛的輸出大多是2D層面的,但機器人更多是3D空間的多關節輸出。
難就難在,如何設計一個精巧的模型結構,讓這些不同的數據統一起來。當然,目前的訓練目標主要是空間感知和空間推理,還不太涉及動作級別,可能未來才需要考慮兩種任務在執行空間上的差別。
36氪:XLA僅限于行車場景嗎?泊車上有什么進展嗎?
陳光:我們的泊車也更智能了。這次有推出一個新功能,比如你導航的最終目的地是一個商場的商戶,那我們泊車會在這個商圈停車場中,尋找離這個商戶電梯口最近的停車位。目前,這個功能收到了一些用戶的好評和推薦了。
![]()
![]()
工程落地:
讓“車”像“人”,并不容易
36氪:感覺這個功能實現起來不容易。
陳光:我覺得難點有很多,但本質上還是怎么能像人一樣,到一個相對陌生的環境時,能找到最適合自己的停車位。
車進入一個地庫后,你需要能讀懂地庫的環境,包括一些文字標牌、電梯口的信息之類的。如果最近的停車位都停滿了,我們就會開始漫游,找更適合的停車位。本質上就是,怎么根據已有的這些指引信息,去到導航最終的目的地。
36氪:這對車端實時處理能力要求很高。
陳光:是的,比較高。我們是經過了很大的算法優化,才把XLA部署上去的。這種算法適配,其實也是很大的挑戰。我們前前后后經歷了很多開發和工程的優化,也踩過一些坑,做的也是有一些辛苦。在這里面,我們是有一些Know-How的。
36氪:你如何評價小米輔助駕駛的工程能力?
陳光:我個人認為還是很比較領先的,現在還是很少有能把這么復雜的一個模型部署到這個實際的車端,并且推送給所有用戶的企業。
36氪:那小米接下來的方向會是什么?
陳龍:第一肯定是算力問題。大模型,它尺寸越大,能力就越強,我們當然想在車上放一個最強的一個模型,但是車端是有算力限制的。我們現在做的潛空間推理,意義就是這個。當然,以后會做更多。
陳光:是的,車端模型參數量的進一步的提升,包括它在訓練過程中如何能消費更多的數據、能理解更多的場景,這是第一個的挑戰。
第二個挑戰,就是怎么給用戶開發更多行車和泊車的功能,進一步提升產品體驗,特別是新功能能不能給用戶帶來更多驚喜。
![]()
升級:優質數據、
基座模型與仿真世界缺一不可
36氪:認知大模型的優化也依賴數據嗎?
陳龍:數據肯定是一方面,我們持續需要高質量的數據,另一方面就是模型能力本身,尤其是基座模型。
剛剛提到,有些廠商會用開源的基座模型。這里有一個問題,你并不知道這些開源模型是怎么做預訓練的,它可能沒有很細致的數據清洗和標準,甚至還會使用到網上比較抽象的、危險的信息。這些東西反映到最終的駕駛行為時,可能會引發蝴蝶效應,造成很大風險。
但從頭做基座大模型非常不容易,第一是需要一個很強的團隊,然后是數據篩選和清洗工作,再要搭建調試自己的Infra系統,還要有一套評測指標。并且,一個版本模型發布出來后,可能幾個月就已不再是領先架構了,所以這一套動作還要反復做。
所以認知大模型能優化到什么程度,不僅取決于企業在基座模型投入的人才和資源,還和企業對大模型趨勢的判斷有關。
36氪:所以小米現在All in認知大模型了?
陳光:現在行業對輔助駕駛有不同的探索路線,一類是我們現在做的XLA,直接引入認知大模型,另一類則希望用世界模型的生成和重建的能力去解決認知的問題。
當然,我們不認為認知大模型和世界模型是對立的,就算是多模態語言模型,也需要一個很好的仿真模擬環境。
我們其實是把兩條技術路線結合起來了,并不是說車端用XLA的技術,我們在云端就要完全放棄世界模型。
36氪:世界模型還是有難以替代的優勢。
陳光:至少在一些閉環仿真,就是將這種物理世界投射到這種數字空間的時候,世界模型是不可缺少的。
現在技術的焦點就是長尾場景,比如馬路上滾落一個異形石塊或者輪胎,真實世界你很難用實車去遇到,很難批量收集這樣的場景。所以無論是世界模型還是XLA,都要在仿真模擬器里探索。
36氪:這算是行業級的技術新共識嗎?
陳光:可能因為小米在一段式端到端的階段就走得比較靠前,所以我們在認知大模型出現前,就覺得閉環仿真能力很重要,包括特斯拉在內,行業領頭羊們對世界模型的重建和生產,應該都做得比較扎實了。
36氪:世界模型出現前,閉環仿真是怎么做的?
陳光:很難做,幾乎只有靜態場景,動態場景都依賴真實數據,所以以前大家總是會說“數據量很稀缺”。
36氪:但XLA已經可以“看懂”這些路面障礙物了,還需要這樣的數據反復訓練嗎?
陳光:我們希望一個功能在真實給用戶之前,都在一個模擬器里面完整去測過。
36氪:測過就能保證真實使用時的安全嗎?
陳光:數字空間和世界模型,其實是一個漏斗的作用,它可以把大部分的問題都攔截住。對于剩下的問題,多模態大模型本身就具備泛化能力,我們希望通過它本身的認知和推理能力來提出更好的解決方案。這兩者其實是一個結合的作用。
36氪:那小米會在世界模型上持續投入嗎?未來迭代的方向會是什么?
陳光:今年我們在GTC上介紹了小米在世界模型上的新進展,也在包括CVPR2026、ICLR2026、NIPS2025、ICCV2025這些頂會上發表了近10篇世界模型相關的論文,這足以說明,小米高度重視世界模型。
方向的話,我覺得三個方面。
第一是真不真,這個可能跟咱們理解的完美真實不太一樣。我舉個例子,我們希望模仿的雨天,是攝像頭上掛有水珠的那種真實的圖像,而不是說模擬出一個絕對干凈的雨天環境。我們希望模擬的情景,能和車端最后獲取的信息一致,這樣你的測試才有效果。
第二就是要很豐富。我今天可能想解決陽光直射場景的通行,過兩天可能又希望解決大雨、大霧或大雪情況下的通行。所以能不能在不改變交通信息的情況下,只改變天氣光照信息呢?
第三就是場景的編輯能力,你的數字資產要足夠豐富,我能用這些信息模擬各種各樣的場景。足夠豐富,才有足夠的作用。
36氪:聽起來很復雜,小米在這已經投入多久了?
陳光:已經兩年了。我回憶了一下,從24年上半年開始就有一些技術上的準備了。到24年末,小米的技術已經在行業和學術界得到一定認可。25年下半年就可以走到技術的收獲期了,有一些重點比賽的冠軍、論文之類的。
36氪:也就是說,小米在這方面已經具備明顯優勢了?
陳光:我們當然希望先發優勢能一直保持下去,我們做的確實比較早,希望能對行業產生一些正向影響,大家一起來把這個事做扎實一些,最終其實也是服務于整個行業的產品體驗嘛。
![]()
價值觀:既要安全、也要體驗
36氪:什么是好的輔助駕駛體驗?
陳光:我覺得好的體驗,最重要的事情一定是安全。不能給用戶帶來不安全或者不安心的產品,這個是我們當前最核心的一個事情。
36氪:為什么會把安全和安心拆開來講?
陳光:從技術角度講,你只要不碰撞就是安全。但用戶對安全的感受,并不只是“不碰撞”。比如急剎車,用戶不清楚系統為什么做出這樣“過激”的行為,可能會有體感上的不適,也會產生“不安全”的感覺。
所以我們不光要保證輔助駕駛的技術維度的安全,也要保證給用戶帶來足夠的安心感。只有既安全、又讓人敢用、愿用,這樣的產品體驗才是完整的。
36氪:小米在安心感上,有什么心得嗎?
陳光:我覺得是有一些新的進展的。
比如我們在路口盲區,會有一些預防性的減速,這就很像人類開車的思路,用戶第一反應會是你做了這個動作,你懂這個場景。
再比如,前方即將進入擁堵路段了,我們的車不會走到最后一步、到非常極限的時候才做一腳急剎,而是說會早早的、防御性地降低速度。這也代表了我們在安全和安心感上的一些思考吧。
36氪:能否總結下小米輔助駕駛研發的性格,或者說是價值觀?
陳光:怎么說呢,小米的價值觀還是深刻影響了小米輔助駕駛團隊的性格。我覺得和用戶交朋友是最重要事情,從用戶的角度去思考他們需要什么樣的產品體驗,再反過來去推進這個技術的迭代。
就比如從端到端到XLA,初期我們有些同事看好世界模型、有些同事更看好XLA,但深度討論過后,大家最終是覺得XLA一旦做成,一定能給用戶帶來很酷的產品體驗,所以就算再難,我們也沖了。
陳龍:是的,雖然我們小米的輔助駕駛的起步比較晚,可能我們這個發布的節奏也沒有那么的快,但我們一定是把體驗最好、最安全的這個產品送到用戶手中。
從我的角度,我覺得我們也一直在踐行第一性原理。因為我們堅信大模型可以幫助輔助駕駛解決一些關鍵問題,所以我們會做很多大模型的探索工作,最終希望把大模型的能力發揮出來,推動輔助駕駛朝更高階能力繼續演進。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.