重要的話先說:
李想在AI Talk中表示將用三年時(shí)間實(shí)現(xiàn)智能駕駛L4。條件是理想團(tuán)隊(duì)內(nèi)部人才、資金、技術(shù)到位,外部政策環(huán)境到位,消費(fèi)者對于人工智能的信任到位。
信任是最難解決的一環(huán)。無法充分信任他人是人的本性,更別說信任機(jī)器了。拉升智能駕駛普及率的前提是解決信任危機(jī)。這是行業(yè)共識,因此初級智能駕駛功能普及后就有相應(yīng)增強(qiáng)信任的功能出現(xiàn)。
![]()
1.0時(shí)代車企推出ADS可視化。它通常在儀表屏上顯示本車與外界車輛、環(huán)境的相對信息。該功能在規(guī)則算法時(shí)代是有用的。前車停,我即停;前車慢,我即變道……算法鎖死了車輛識別到的信息即對應(yīng)做出的動(dòng)作。用戶知道,只要車能看見外邊的世界,它的行為可能不是最高效的,但一定不會犯規(guī)。
現(xiàn)在的情況是智駕正在拋棄規(guī)則算法,智駕進(jìn)入城市面臨復(fù)雜的交通狀況,與眾多道路參與者博弈。累死工程師也不可能窮盡所有預(yù)設(shè)場景,corner case(難例數(shù)據(jù))必然存在。實(shí)現(xiàn)城市NOA(根據(jù)導(dǎo)航路線的領(lǐng)航輔助駕駛),車要像人一樣思考。對智駕更高維度的考驗(yàn)是不只要平安到達(dá)目的地,還要高效。系統(tǒng)要像老司機(jī)一樣選擇最優(yōu)車道,而不是鎖死在規(guī)則定義中的快車道。
于是端到端成為2024年最熱的關(guān)鍵詞,它代表著規(guī)則算法向AI人工智能算法的進(jìn)化。特斯拉FSD V12系統(tǒng)改用端到端模型后,算法從此前的三十萬行驟降到三千行。理想AD Max V13.0是端到端+VLM智能駕駛的最新版本號,具備「全球首家」車位到車位智駕、「全國任意」高速收費(fèi)站ETC自主通行等重磅功能。它的水平相當(dāng)于特斯拉北美FSD最新版本V13.2水平。
![]()
端到端的出現(xiàn)讓1.0時(shí)代的人機(jī)信任崩盤。因?yàn)檐嚥辉僦挥醒劬Γ鼈儞碛辛舜竽X開始思維,用戶需要看到車的思維才能給予信任。理想AD Max V13.0同時(shí)也具備AI推理可視化功能,其在1月16日隨OTA7.0版本正式推出,由此開啟人機(jī)信任的2.0時(shí)代。
AI推理可視化界面分為三個(gè)板塊:
![]()
端到端模型。在多車博弈過程中,它提供10條規(guī)劃路線并自行給出合理性判斷。
注意力系統(tǒng)。實(shí)時(shí)視頻流當(dāng)中,對智駕決策影響大的道路參與者以暖色(偏紅)標(biāo)注,對決策影響較小的則用冷色(偏藍(lán))標(biāo)注。
VLM視覺語言模型。當(dāng)識別到有對智能駕駛決策有影響的環(huán)境路況和交通規(guī)則變化時(shí),VLM 能夠及時(shí)感知信息,并用對話框信息的形式告訴駕駛者車輛的推理決策。
在這些功能點(diǎn)背后理想團(tuán)隊(duì)是怎么思考的?
| 直給信息,不炫技
理想團(tuán)隊(duì)在定義注意力系統(tǒng)和視覺語言模型的交互界面時(shí),博弈的點(diǎn)在于直給用戶臨場的視頻流信息,還是將視頻流做高大上的渲染再呈現(xiàn)給用戶。
為什么選前者?
![]()
2023年底,理想曾向用戶短暫地開放了智駕系統(tǒng)的工程界面。這個(gè)界面展現(xiàn)的不是精致渲染后的ADS可視化界面,而是攝像頭、激光雷達(dá)等傳感器識別到的信息在系統(tǒng)中拼合完是什么樣。系統(tǒng)看到的世界相當(dāng)簡單,用一些線和框就能描述復(fù)雜的外部世界。
界面下線后,大量用戶呼吁工程師再把它更新回來。這種熱情不難理解。系統(tǒng)視角代表著真實(shí),渲染出來的界面反而代表虛假。真實(shí)的信息給人更強(qiáng)的安全感。
另外,中國有一波偏專業(yè)的用戶群體,塑造這群人的是十年前的小米和蘋果。小米刷機(jī)、蘋果越獄,這兩件事培養(yǎng)了大量動(dòng)手能力強(qiáng)的人自己上手做系統(tǒng)。彼時(shí)百度貼吧里有大量刷機(jī)教程。一夜間,過街天橋上小商販們?nèi)及选笆謾C(jī)貼膜”的招牌換成了“刷機(jī)、越獄”。中國智能汽車的興起承接了這波用戶的興趣。他們喜歡研究系統(tǒng),探索系統(tǒng)看世界的獵奇視角。
用戶洞察之外,理想團(tuán)隊(duì)希望用戶的關(guān)注點(diǎn)更在技術(shù)本身,所以要直給、直給、直給……
| 克制信息量,不打擾
AI推理可視化功能本身是一種交互設(shè)計(jì),設(shè)計(jì)透傳理想的審美。通常高級的審美都需要克制。
什么是克制?
小孩喜歡吃糖,它能直接刺激大腦分泌多巴胺。成年人會克制自己吃糖的欲望,因?yàn)樗麄儠吹教怯泻Φ囊幻娑艞墶8呒壪M(fèi)者更知道什么東西真正適合自己,替代品可能是茶、咖啡、紅酒……
人們在裝修房子時(shí)開始放棄看似華麗的吊燈。它會大幅侵占屋子的縱向空間,使觀感壓抑,而且照明效果并不好。越來越多人選擇無主燈設(shè)計(jì),把燈藏起來,通過漫反射照明全屋。比起花里胡哨,明亮、通透是真正讓人生活舒適的風(fēng)格。
![]()
理想、蔚來的內(nèi)飾氛圍與無主燈的起居室異曲同工。內(nèi)飾設(shè)計(jì)給用戶提供的價(jià)值是舒適。對立面是當(dāng)代奔馳S級(參數(shù)丨圖片)、寶馬7系,它們內(nèi)飾氛圍更像KTV,提供完全相反的用戶價(jià)值。
AI推理可視化向用戶傳遞信息以建立信任。過度的信息會打擾用戶,與理想創(chuàng)造家和舒適感的品牌理念背道而馳。
![]()
視覺語言模型交互窗口容易信息飽和,它傳遞圖片+文字兩種信息。讀圖是容易的,讀文字需要較長時(shí)間且分散注意力。所以視覺語言模型的不是全時(shí)段提供信息,否則會打擾用戶。它的作用是當(dāng)用戶處在緊張環(huán)境中時(shí),給予反饋,安撫情緒。
Corner case是無法被窮盡的,但讓人產(chǎn)生不安感的環(huán)境可以。比如夜晚無燈小路、丁字路口、公交車道(無限行時(shí)間)、公交車道(有限行時(shí)間)、學(xué)校路段減速、上下高架時(shí)導(dǎo)航糾偏、主輔路切換時(shí)導(dǎo)航糾偏、隧道內(nèi)外、坑洼路面/土路、施工場景、變道、轉(zhuǎn)彎、急減速、紅綠燈剎停/起步、路面靜態(tài)障礙物、駛?cè)朐训馈⑴赃叴嬖诖筌嚒R曈X語言模型的交互只會出現(xiàn)在這類場景中。
最后
蔚來十周年之際,李斌的內(nèi)部信如同戰(zhàn)斗檄文。這是汽車行業(yè)從排位賽進(jìn)入淘汰賽的轉(zhuǎn)折點(diǎn)。上汽總裁的內(nèi)部講話、吉利的《臺州宣言》,這些預(yù)示著未來行業(yè)競爭會加倍激烈。車企想應(yīng)對更高維度的競爭唯有加碼技術(shù)。理想轉(zhuǎn)型AI公司是一種方式,在汽車的框架外為汽車產(chǎn)品賦能。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.