![]()
特斯拉前深度學習負責人談自動駕駛純視覺與融合感知路線之爭。
文丨趙宇
編輯丨龔方毅
在自動駕駛領域,純視覺與融合感知方案的路線之爭由來已久。前者把攝像頭作為核心傳感器,就像人類主要用眼睛感知道路情況;后者主張綜合采用激光雷達、攝像頭、毫米波雷達等多種傳感器,構建比人類感官更強大的感知系統。
為理解爭論背后的技術原理,我們訪談了智能駕駛研發商 Nullmax 紐勱科技創始人兼 CEO 徐雷。創辦 Nullmax 前,徐雷先后任職于高通、特斯拉,曾作為 Autopilot 研發團隊的核心成員,從零開始領導搭建 Tesla Vision 深度學習網絡,并取代特斯拉第一代自動駕駛產品中使用的 Mobileye 視覺系統。這些經歷讓他對于這場技術爭論有著自己的獨到見解。
徐雷說,攝像頭獲取道路場景信息的頻率和豐富程度都明顯高于激光雷達,因此視覺方案有著更高的能力上限。而在現階段的一些融合感知方案中,當不同傳感器提供的信息發生沖突時,智駕系統傾向于更相信激光雷達——這從側面印證了廠商視覺處理能力的不足。
“激光雷達能讓智駕系統快速實現量產上車,但最終要達到一定高度,還是要把視覺 AI 能力做好。” 徐雷告訴我們,他并非完全排斥激光雷達,而是對不同傳感器的使用都持開放態度。但無論采用哪種方案,都必須將視覺感知作為最核心、最優先發展的能力。在他看來,過度依賴激光雷達雖然是能讓產品快速上車的 “捷徑”,但最終會限制智駕系統的長遠發展和性能天花板。
以下是我們與徐雷對話的主要內容,經編輯:
晚點:今年 7 月,懂車帝的一場智駕系統測試顯示:特斯拉雖未搭載激光雷達,實際表現卻超過許多配備激光雷達的國產品牌。你預料到這個結果嗎?如何看待激光雷達的必要性?
徐雷:視覺傳感器和激光雷達各有優勢。攝像頭屬于被動感知,能提供分辨率更高的圖像、顏色和紋理特征等豐富信息,幀率可達每秒 30 幀。激光雷達雖能主動發射激光、通過 ToF(Time of Flight,一種基于信號飛行時間的測距技術)測距,但點云密度和分辨率比攝像頭低,信息沒有視覺傳感器豐富,幀率通常只有每秒 10 幀。
在理想狀態下,如果車輛能同時搭載兩種類型的傳感器,且控制器算力足夠強、算法足夠好,那性能天花板肯定最高。不過汽車作為消費品,需要考慮成本和價位差異。單獨使用激光雷達會因幀率低、點云稀疏而限制智駕系統性能上限。純視覺方案在算法和算力足夠的情況下也能開得挺不錯,但仍會受到算力水平等因素制約。
因此,智駕系統的傳感器選擇需要綜合考慮性能、成本等多方面因素,并不是單純的理論問題。
晚點:現在車端算力還在提升,這是否為搭載激光雷達提供了便利條件?
徐雷:激光雷達對算力的消耗實際上比視覺傳感器更小,因為激光雷達的點云信息量相比 800 萬像素攝像頭的視頻流要稀疏很多,幀率也更低。攝像頭捕捉到的信息量更大,關鍵在于如何充分利用這些海量信息。
如果重度使用激光雷達,而視覺處理能力不足,智駕方案會受限于激光雷達的性能天花板。然而,對于需要快速博弈和迅速反應的場景,僅靠激光雷達難以有效處理,視覺能力必須跟上。
晚點:充分利用攝像頭的技術難點是在于算法嗎?
徐雷:主要是兩個方面。一是算法本身的技術先進性;二是如何讓算法在車端計算資源有限的嵌入式平臺上高效運行,智駕方案最終還是要跑在車端。
晚點:從行業平均角度看,一顆 800 萬像素攝像頭大概占用多少算力?
徐雷:很難給出絕對數值,因為這取決于具體功能需求——是單車道的高速 NOA、帶換道的高速 NOA,還是城市 NOA?要處理的場景數量不同,決定同樣傳感器配置下系統對算力的消耗不一樣。而且 TOPS(Tera Operations Per Second,每秒計算一萬億次) 只是衡量指標之一,還要考慮內存帶寬、NPU(Neural Processing Unit,神經處理單元)對算子的支持力度等因素。
晚點:業內有說法認為,激光雷達是現階段的一根 “拐棍”,你認可嗎?
徐雷:激光雷達方案可能是個捷徑,能快速讓系統跑起來,但上限相對較低。
晚點:為什么純視覺方案的上限更高?
徐雷:從信息輸入看,激光雷達每 100 毫秒才獲得一次點云,而攝像頭每 33 毫秒就能提供 800 萬像素的圖像——視覺傳感器的信息更豐富,獲取頻率更高。開車需要在電光石火間作出決策,如果輸入幀率和信息量跟不上,雖然車也能行駛,但在需要快速反應的場景下,智駕方案的能力確實會差一些。
激光雷達雖然通過直接測距降低了處理難度,但它的信息量少、觀測間隔長,構建周圍環境可能不夠及時、精確。對一些需要準確及時理解的場景,表現相對較弱。
晚點:純視覺方案以攝像頭為主傳感器,那融合感知方案呢?
徐雷:以特斯拉為例,它沒有在量產車上搭載激光雷達,系統必須靠純視覺理解三維世界。而我了解的一些以激光雷達為主的方案,對激光雷達的依賴度非常高。
一些以激光雷達為主傳感器的車,它的視覺處理能力可能跟不上。攝像頭雖然每秒輸入 30 張圖像,但系統可能只處理 10 次結果。這種對激光雷達的強依賴可能導致系統在極限測試場景下表現不佳。
晚點:純視覺方案上限可能更高,但你剛才也說,在理想狀態下,兩種傳感器都用才最好。
徐雷:如果不考慮成本,我當然希望有冗余配置,比如在車里放兩臺發動機,一臺壞了就換另一臺。但冗余不僅涉及傳感器,算法融合本身的技術挑戰也很高。所以像特斯拉,選擇在發展過程中先做好視覺,同時它考慮到要賣車,加那么多激光雷達對成本也是挑戰。
晚點:所以你從內心角度是支持純視覺方案?
徐雷:不是,我比較開放。我的想法是:第一,肯定要以視覺為主,一定要把視覺能力做好。如果車上有視覺和激光雷達,卻只把激光雷達做好,視覺只處理到 10 幀,那我不能接受。第二,對于車上的傳感器,無論是激光雷達、4D 毫米波雷達還是將來的新東西,我都持開放態度,我不認為車上只能有攝像頭。
晚點:你反對的是,有些廠商用了激光雷達,但沒有把視覺能力做好。
徐雷:對。你會看到,那些車的攝像頭也不少。理論上,裝了這么多攝像頭,還有激光雷達,智駕系統的能力不應該比特斯拉差才對。
晚點:有些廠商說,用激光雷達是為了在夜間、雨霧等場景下更快識別前方不規則障礙物,這樣更安全。你怎么看?
徐雷:我個人認為,在漆黑的惡劣天氣下,建議不要行駛。這不適合自動駕駛甚至人工駕駛。攝像頭有局限性,不過傳感器也在進步,車上還可能有 4D 毫米波雷達等其它傳感器。激光雷達能看到的東西,其他傳感器也能看到,但能否準確識別是個問題,因為會有誤報的挑戰。激光雷達在雨雪天氣也會受影響。
有這些傳感器當然更好,但這涉及產品定義:我們的產品邊界在哪?到底要識別多大的障礙物?根據國家智能駕駛標準,視覺加 4D 毫米波的方案能夠解決這些問題,并不一定要上激光雷達。
晚點:可以把 4D 毫米波雷達理解為小一號的激光雷達嗎?
徐雷:它們的原理還不太一樣,像是蘋果和橘子。
晚點:4D 毫米波雷達能提供一些攝像頭感知不到的環境要素。
徐雷:惡劣環境對它的影響非常小,甚至沒有影響。
晚點:特斯拉現在連 4D 毫米波雷達都不用,這是出于什么考量?
徐雷:馬斯克的想法很樸素:人開車時,惡劣天氣下看到東西也會剎車,也不可能把每種場景都處理好。如果有這些傳感器當然更好,但從馬斯克的角度,攝像頭就能達到要求:晚上有燈光,現在的 CMOS 傳感器進光量大,也能看到很多東西。
晚點:相比國內廠商,特斯拉的視覺能力大概高出多少?
徐雷:現在國內頭部廠商基本在 10FPS(Frames Per Second,每秒幀數) 左右,特斯拉至少達到 20 多 FPS。
晚點:還有人覺得,有些廠商不用激光雷達是由于成本因素,但現在激光雷達的價格也不是很高。
徐雷:不一定是純價格原因。包括海外一些車企,他們可能覺得激光雷達難以布置,會影響車輛造型。
晚點:馬斯克還說過,當攝像頭和激光雷達的識別結果不一致時,聽誰的也是個問題。
徐雷:這就是融合時的難點。兩個不同源的信息,到底信誰,或者怎么綜合?
晚點:國內用激光雷達的廠商解決這個問題了嗎?
徐雷:大部分廠商還是更相信激光雷達,這可能是因為他們還沒有把視覺處理到比較好的狀態。有激光雷達至少能讓車先開起來,只是遇到挑戰性場景時處理不好。在國內,大家更關心如何讓智駕方案快點兒上車。
晚點:激光雷達廠商還在提高線數,比如從 128 線到 800 線,這對激光雷達的性能提升有多大幫助?
徐雷:增加線數是為了讓點云更密。在以前,地上的較小物體激光雷達可能探測不到;現在能被多個點覆蓋,識別效果肯定會更好,但相應地,成本也會上升。
晚點:現在很多廠商都在做 “端到端”、VLA,這些新技術對數據的使用更重。他們使用的數據,主要就是攝像頭采集來的吧?
徐雷:這要看每一家廠商怎么定義。從數據角度,無論是傳統 CNN 還是 Transformer、BEV,最開始肯定是用實際采集來的數據。但越往后,如何通過 AIGC 生成數據更重要,因為對于一些極限場景,實際采集來的數據畢竟有限。
晚點:Nullmax 是怎么使用數據的?
徐雷:我們研發了一套數據驅動的成長系統。舉個例子,2021 年做海外項目時,不同國家交通標識的差別很大,不可能開車采集很長里程。我們就想用 AI 生成方案,比如自動把速度標識貼到真實場景的正確位置,后來擴展到生成不同顏色、距離的車輛,甚至生成視頻。在閉環仿真中調整規控策略,攝像頭視角的視頻也會相應變化。
我們希望靠技術而非狂采數據,因為后者成本很高。通過算法,用真實數據生成千變萬化的場景,同時覆蓋危險場景。產生有效數據的能力本質上是算法能力。算力也不是蠻干,用什么網絡架構能大幅降低算力需求,這是有技術含量的,并不是完全拼誰有錢買卡。
晚點:你在特斯拉自動駕駛部門工作過。至今人們仍認為,特斯拉的智駕能力處于行業前列。特斯拉主要做對了哪些事情?
徐雷:第一性原理比較重要,就是即使有挑戰,也堅持走正確的路。我們認為,用激光雷達像拐棍或捷徑,能讓智駕系統快速實現量產上車,但最終要達到一定高度,還是要把視覺 AI 能力做好,這沒那么急功近利。無論是視覺加激光雷達,還是視覺加毫米波雷達,首先要把視覺能力提到足夠高,這會決定系統上限。
題圖來源:視覺中國
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.