![]()
![]()
更深刻了解汽車產業變革
出品: 電動星球
作者:蟹老板本人
蔚來全新的智能駕駛系統,世界模型 2.0或者說 NWM 2.0 已經開始陸續推送了。
對于蔚來而言,這是一個極為重大的更新。因為,在 AI 智能時代,智能駕駛是高端品牌必須「爭強」的核心戰場。
關于這個版本的簡單評測,我們的視頻會很快上線。
今天的這篇文章,會比較特別。因為在新年之前,電動星球受邀作為評測媒體,參與了對 NWM 2.0 的非公開評測,并在隨后參與了對蔚來智能駕駛的核心人物、智能駕駛副總裁任少卿、蔚來智能駕駛研發產品系統負責人佘曉麗的溝通會。
![]()
圖片說明:蔚來智能駕駛研發產品系統負責人佘曉麗
在這場持續近 3 個小時的溝通會上,任少卿、佘曉麗極其罕見地從技術、路徑、理論思考等各個角度,對高階智能駕駛的路徑選擇、VLA與世界模型的區別、專家數據集與量產數據的差異、乃至于強化學習到底能解決什么問題,做了極為深入的闡述。
如果把這些表達放在一起,它更像是一場關于技術路線選擇、工程代價與時間耐心的深度自述,或者說智能駕駛路線的大道(參數丨圖片)之爭!
任少卿沒有回避問題,也不急于給出答案。
![]()
圖片說明:蔚來副總裁、自動駕駛研發首席專家任少卿
因為最終,體驗會給出回答;用戶會做出投票。
以下,是電動星球根據這場溝通會,盡可能做到的「不那么技術」的記錄。
本周福利: 公眾號 后臺回復 【順遂】
可以參與現金紅包的抽獎活動。
![]()
從規則到模仿
![]()
在智能駕駛的各類評測報告中,規則味比較重,確然已經成為了「批評」的話術。
規則重,在體驗上往往代表機械、不流暢、卡頓,也意味著無法真正應對「小概率事件」。在技術人員的眼中,規則并不是AI,更像是人類用經驗編制的邏輯世界。
因此,在過去三年左右的時間內,尤其是隨著 FSD V12、V13的發布,不管是 BEV 也好,端到端也罷,中國的智能駕駛研發,不斷在技術路線上跳動、改變,希望解決這樣的非 AI、非擬人的問題。
當然,「規則是起點,沒有規則,系統都跑不起來。」在參加溝通會時候,任少卿這樣說。
舉個例子,在蔚來的早期車型中,尤其是第一代車型,規則幾乎承擔了兜底職責:明確的變道距離、固定的減速邏輯、可解釋的安全邊界。
但隨著城市場景復雜度提升,規則系統的邊界迅速顯現。「你可以為 99% 的場景寫規則,但剩下的 1%,永遠寫不完。」任少卿說。
于是,模仿學習在第二階段被引入。這個階段,智能駕駛的熱門話題,從開城數量、「全國都能開」,轉變為「端到端」、「數據驅動」。
不過,哪怕這樣的技術轉變,「取得了巨大進步」,尤其是核心環節——參數規模躍升,能海量學習人類駕駛。
但它依然有根本的局限,用佘曉麗的話來說,就是端到端模型本質是用參數去「記住」見過的數據,再在真實場景里匹配模式;可現實世界的case 復雜度遠高于模型參數能覆蓋的范圍,于是模仿學習不可避免落入「概率平均陷阱」。
「我們將它的特點提煉為一個‘懶’字,研發內部更直接地稱之為‘躺’。」
她解釋,這類模型平順、絲滑,是因為確實從人類行為中學來;但人類行為本身不均勻:有人換道、有人不換;有人緩行通過、有人穿插切入。系統「不知道哪種選擇更好或更差」,只能學到概率平均,于是出現一串典型癥狀——路口起步不果斷、換道猶豫、空曠路「異常低速」——也就是最令人頭疼的「不起速」。
她給出的結論是:過去大家在「怎么更高效地記住和模仿人類」上做結構優化,但沒有改變根本矛盾——系統缺少「目標意識」,缺少對行為優劣的顯式判斷。
![]()
Code 3.0
![]()
任少卿則在講述時,引入了特斯拉的「Code 2.0」的概念來闡述智能駕駛路線上的演變。
Code 1.0 是規則:遇到路口要跨三車道,寫一套「300米變一次、200米再變、100米再變」。300 米旁邊有車變不了,出 Bug,就「收集數據—分析原因—添加更多規則」。
問題在于,代碼會越來越長,百萬行級別的系統里,工程師「難以完全理解如此復雜的邏輯」,更難避免新增邏輯引發沖突——規則彼此打架。
Code 2.0 是數據:用模型把規則壓進參數,通過看大量真實駕駛數據去解決變道、擇道。
但數據驅動也會遇到另一個瓶頸:同一個場景里人類行為不一致,模型容易學到折中的「平均」。
左轉并線「有人在這個點換、有人在那個點換」,模型選到「中間態」就會出問題;雙向小路遇到騎行者,有人繞行有人跟隨,模型為安全傾向保守跟隨,卻不符合用戶對「高效、主動通行」的訴求。
對于 Code 2.0 遇到的問題,行業常見的方法是打補丁。大致有三類:加 SD+(地圖指引長時序)、采專家數據(減少 diversity)、再加規則。
任少卿說得很現實:「第 1、3 條需要花錢,第 2 條路需要花人。」專家數據還存在地域強依賴——北京上海采過了,重慶還要專門采重慶本地「專家數據」。
那么,有沒有 Code 3.0 呢?
任少卿說,其實是有的,譬如強化學習。蔚來當下正在發布的版本,就是「邁向完整強化學習系統的一步。」
![]()
遇到問題來打分
![]()
強化學習解決了什么問題?
首先,模型的邏輯性更好,因為訓練中加入了代碼、數學題等能夠明確判斷對錯的數據,解決問題的范式發生了根本轉變,不再是 Code 1.0 的「遇到問題添加規則」,也不是 Code 2.0 「遇到問題添加數據」,而是轉變為「遇到問題我給你打分」。
模型輸出結果后,系統根據好壞給予正負反饋,讓模型自行學習應該生成什么樣的結果。在這個過程中,首先機器會有自監督過程的。主要路徑則有兩種:一種是 reward 分數器,另一種是使用數據,比如說人類行為反饋的數據,讓 reward 反推出來。
這樣做的好處是什么?
任少卿用左轉路口舉例,說蔚來目前的解決方案是:構建一個仿真環境,并在該環境中,設定一條目標線。車輛成功越過給予獎勵,且用時越短獎勵越高。如此循環訓練。當然,過程中會有一些更細節的專家數據約束,比如「如果壓實線,我再給你扣兩分」等。除此之外,幾乎沒有其他復雜規則。
「具體在哪個點位變道,如何安全通過三條車道,這些都由模型自己在仿真中探索解決。整個訓練狀態是如此。」
任少卿還強調,在上述這類場景的解決方案中,蔚來既沒有依賴 SD+,也沒有使用專家數據。
而這樣做的好處主要有兩點:
第一,沒有增量數據,只要仿真環境中能構建出類似的路口場景,邏輯上來說就是泛化。不存在成百上千個特殊路口專門采集數據的繁瑣過程,泛化性更有保障(因為只需要見過類似的 case 環境)。
第二,它沒有復雜的規則,也就避免了規則之間的沖突。
一套規則可能在 90% 的路口有效,但會因為某個路口的條件假設不同而失效。越簡單,泛化性質量會越好。
任少卿說,他們最近半年徹底改變了整體的迭代邏輯。上一個版本可能還是新舊方法混合的狀態,而當前版本則完全轉向了新的范式。從代碼量來看,保持安全兜底邏輯,整體模型迭代是基于新體系。
需要補充的是,在問答環節,當有媒體問起,類似于強化訓練、世界模型等,在去年 4 月份,或者更早時間各家都在說這個事情,從您的角度來看國內行業里真正進入 3.0 狀態的系統多嗎?
任少卿的回答是:在國內,實現完整強化學習的系統,目前只有蔚來這一個。
![]()
新范式
![]()
如果說任少卿強調的是「范式為什么必須變」,佘曉麗更強調「變了以后,體驗為什么好」。
她總結蔚來新范式的三步:
第一步仍是模仿學習:大量學習人類行為與分布;
第二步在新的世界模型中做長時序推理;
第三步高頻次閉環強化學習:把反饋持續注入模型。
這三步背后對應一個很具體的工程遷移:過去 NWM1.0 時代,小路場景里模型會「吐」出離旁車、甚至人很近的軌跡,蔚來會在推理端「外套一層規則」去篩選,譬如不要離人太近;任少卿也承認上一版他們會「模型輸出N條候選軌跡,再用規則(reward 雛形)打分挑最優」,且橫向多由模型、縱向速度由模型+規則共同控制。
但在新版本里,「車端不再輸出多條候選軌跡,而是直接生成一條軌跡;橫縱向控制都由模型自己控制」,不再是「模型一部分、規則一部分」。
任少卿補充:現在的方式是在訓練端去「篩」,推理端只輸出一條好的軌跡——把過去「跑在車上」的糾偏,盡量前移到訓練與分布對齊階段。
在具體場景上,任少卿點名「獲益最多」的部分是:「偏航和過路口,包括加塞。」
佘曉麗則解釋了偏航為什么更適合用長時序閉環推理:系統要提前預判——「如果一公里前不換道,一公里后就會偏航」,于是它會在早期接收到「此時不換道將受懲罰」的信號,從而主動決策。
她把這種能力當作新架構「最容易實現長周期數據閉環迭代」的證據:不是靠臨近路口的臨場反應,而是靠更長距離、更長時間的推演與獎勵對齊。
![]()
數據吞吐
![]()
數據吞吐則是另一個需要展開來說的點。
在過去兩年多的智能駕駛路線之爭中,如何規避掉模仿學習的弊端,一直是核心話題。
從兩段式端到端、再到 SD+、規則補齊,甚至小模型+大模型、專家數據集,從邏輯上看,起到的作用,跟「強化學習」是一樣的。
如果說其他分支,譬如兩段式、規則補齊等等,已經逐漸被行業拋棄,那么,在專家數據集的使用上,則一直有爭議。
專家數據集,到底好不好?怎么用?要不要用?
任少卿的比喻是,「專家數據集」是「精致但昂貴的食材」。這些來自專業司機、測試車隊,經過人工篩選、標注一致、質量極高的數據,能幫助模型快速建立基礎能力。
但是,「專家數據很干凈,但世界不是。」
在任少卿看來,專家數據有三個核心問題。
首先,成本極高,規模有限;其次,場景覆蓋不可避免地受限;
這兩點怎么理解?
任少卿說,專家數據的采集本身成本高昂,并且針對不同的 corner case,往往需要專門進行采集。
例如,在北京和上海采集了專家數據,但重慶有很多獨特路況,北京或上海的司機可能并不知道該如何駕駛。因此,必須專門采集重慶的本地「專家數據」,才能進行有效訓練。所以,依賴這條路徑,意味著對特定場景的數據采集需要專門進行。
以及最重要的第三條,很難反映真實用戶的行為分布。
在任少卿看來,專家駕駛數據,只保留了符合人類駕駛規范或我們期望值的數據,類似于大語言模型中提到的「對齊人類偏好」,但它并不能應對所有的行為分布。
而這三點,決定了「專家數據」不可能長期作為智能駕駛研發的「主糧」。
那主糧是什么?
從任少卿的講述來看,毫無疑問他傾向于「量產數據」。
量產數據的優勢在于其規模大,對于車輛而言幾乎是無窮無盡的。但問題在于如何有效地使用這些數據。
任少卿說,量產數據最大的挑戰在于「數據太臟」,不只是變道位置各不相同的案例,還包括壓實線變道、司機玩手機分心導致軌跡異常等不規范駕駛行為。
因此,量產數據雖然體量龐大,但關鍵在于如何利用這些「臟數據」——也就是構建系統,構架強大的「消化能力」——進而能夠「承受更多的臟數據」。
任少卿舉例說,在模仿學習階段,一個路口的「臟數據」,如拐彎變道的場景,所有的結果在模型里面是數據分布的。如 Top1 分布是 200m 變線,Top2 是 100m 變線,其次為 300m 變線,最后是不變線。
優先級的排序純看數據的分布是什么。所以大家在做模仿學習的時候,很多工程師是選擇調數據分布,通過調數據分布的方式來選擇優先級,例如希望 200m 變線,那就把 200m 調成Top1;如果針對某個場景結果不行,那就調整數據分布;
而現在,蔚來是通過寫 reward 來調整優先級,更能確定數據里面的「臟數據」含量,通過強化學習的方式來改變模型偏好分布,改變模型的行為傾向,把原本排在后面的選項提到了前面。
佘曉麗把這套機制用更直觀的比喻講出來:強化學習「像教練,對每一個行為給出‘好’或‘不好’的反饋」,系統開始能區分「60 分」和「100 分」的細微差異。
她用「加塞」舉例:一種是猶豫、魯莽地切入;另一種是稍提前加速、敏捷地插入空隙。行為差異很小,但人的感受截然不同——前者讓人想接管,后者讓人覺得「很聰明」。
當然,只是單一的強化學習,目前來看,也并不能塞下所有的量產數據。
究其原因,是因為 AI 對話式的語言模型,幾乎已經利用了互聯網世界的所有數據,但目前還沒有任何一個智駕或矩陣模型用到了同樣體量的數據,因為處理真實世界的數據會更為復雜。
所以,「還需要其他技術來解決數據規模和臟數據的難題。這一塊我們也在持續研究,后續有進展跟大家匯報。」
任少卿說,目前蔚來的整體狀態是通過強化學習,使預訓練階段能夠使用更多量產數據、承受更多「臟數據」。
另外,就技術而言,還有很多可以提升的點蔚來還沒有實施。譬如加大數據規模、使用 SD+ 等等,都會帶來肉眼可見的提升。「后續我們會在某些版本中逐步加入這些優化。」
![]()
大道之爭
![]()
在外界討論中,智能駕駛的技術路線常被簡化為幾種標簽:VLA(Vision-Language-Action)、世界模型、端到端強化學習等等。而在當下的中國,一個主流的路線競爭,就是 VLA與世界模型到底誰會成為正確的道路?
任少卿說,VLA 路線的優勢在于:短期效果明顯、與大語言模型生態協同度高、在復雜語義理解上表現突出。
但是,這是一條借鑒語言模型已經驗證的路徑。它的本質是在現有的語言模型基礎再加上一個 vision 到 language 的插件,或者說一個轉碼器。
「但是這個轉碼器的訓練其實用的數據量并不多,對于這個真實世界的應用并不多。」
任少卿說,這樣的方式借鑒了或者說產生了一個「小路」,雖然借助了所謂「VLM」來獲取更多互聯網數據,但距離理想中將絕大多數真實世界數據都轉化為模型能力還差得很遠。
因而,在實踐中就會出現一個問題:語言模型及其各種變體對于真實世界的理解存在缺陷,或者說能力上限不夠高。
例如,如果用當前的通用語言模型或 VLM 去詢問關于速度、距離、安全的問題,它們可能給出定性的回答,但定量回答往往不準,包括對物理規律的理解也是如此。
這種對真實三/四維時空認知的缺失,根源在于當前大語言模型的訓練數據以文本為主,圖像為輔,視頻數據極少。未來語言模型可能會融入更多視頻和數據,但現狀就是如此。
任少卿說,他認為僅靠圖像是學不到這些物理量的,必須基于視頻等,人類需要知道視頻中的物體是如何運動的,才能學到這些東西。
因而,要做好智能駕駛,需要一種更新的能力,也是為什么還需要「世界模型」的根本原因。
目前,蔚來正在直接利用海量視頻數據來訓練自動駕駛或機器人的技術模型。這是汽車行業正在探索的另一條路徑。
「近期已有一些突破。例如在機器人領域,近期有 Generalist 使用了 27 萬小時的數據進行訓練。其實可以看到,真實世界的數據作為機器人訓練基礎,而不依賴語言模型,用百萬小時量級的數據來訓練模型,這條路基本快要走通了。」
任少卿表示,就世界模型而言,他們正在努力把它做得更好。而世界模型希望實現的是,在真實世界的應用中能表現得更好。
![]()
結語:重回領先
![]()
在問答開始之前,任少卿還特別談及了過去大半年,也就是 NWM 1.0 推出后,他們到底在干什么的問題?這是對此前輿論質疑的一個回應吧。
比較特別的是,任少卿并不是從「功能升級」角度來敘事的,更多是從研發范式的變革以及工程上的拉通來展開的。
任少卿說,2025 年行業變化很大,海外如 FSD 進展迅速,而蔚來從年中的NWM 1.0 版本到現在的 2.0 版本也花了半年時間。
這半年多,他們在干什么呢?
首先,是研發范式的變革。目前蔚來解決問題的思路和路徑,跟年中的 1.0 版本相比有很大不同。這也讓內部研發團隊經歷了幾個月的「痛苦期」。而這樣的變化,會帶來產品能力上的提升。
其次,則是自研智駕芯片(神璣NX9031 )的真正上車。
任少卿說,從去年年中到年底,蔚來二代平臺主銷車型已基本完成 EOP,全面搭載了蔚來的自研芯片。而從前年下半年開始,蔚來也開始基于自研芯片進行迭代。由于是自研芯片,迭代周期通常需要3到6個月才能推上線。
「去年下半年,我投入了比較多的精力來做這件事兒。到現在,我們自研芯片與主線4 Orin平臺的迭代周期基本壓縮到了兩周。」
不僅如此,任少卿還透露,自研芯片平臺與 4 Orin 平臺的代碼和模型,共線率已達到95%以上。
「一個功能或版本基本可以兩邊直接用….這次發布的 NWM 2.0 版本,蔚來將把自研芯片和主線 4 Orin的更新同步推送給用戶。」
而在NWM 2.0 正式發布之前,李斌也在多個用戶面對面場合,談及了今年蔚來智駕系統的迭代計劃與目標,包括包含這一次推送在內的三個大的版本更新,也包括一定會回到第一梯隊的目標。
在 1 月 15 日流出的內部講話記錄中,李斌坦承,蔚來的智能輔助駕駛確實選了一條比較難的路——自研智駕芯片、自研操作系統、世界模型,「捏合在一起其實是很不容易的,我們地基挖得非常深。」
而在 2026年,蔚來還會在算力和研發效率上加大投入。李斌說,在公司資源那么緊的情況下,他專門給智駕部門特批了一筆算力預算。
至于這次發布的 NWM 2.0,李斌的表態則是:「我們新版本輔助駕駛的測試反饋也非常不錯。今年我們會在智駕算力方面專門加大投入,爭取今年通過三個大的版本發布,回到行業領先的位置。」
拭目以待!
(完)
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.