01理想VLA最近更新了點(diǎn)啥
就在 12 月初,理想發(fā)了一款AI 眼鏡 Livis,VLA 也推送了8.1 版本的OTA更新。
都有點(diǎn)啥新東西呢?現(xiàn)在我們可以用 AI 眼鏡來遠(yuǎn)程控制汽車空調(diào)后備廂,方便了不少。
坐在車上的時(shí)候,也可以直接告訴理想同學(xué)我想讓它往哪走、速度快點(diǎn)還是慢點(diǎn)。
未來,理想同學(xué)還能分析并且記住我們的喜好,記住剛剛走過的路。
以后出行的時(shí)候就能根據(jù)我的偏好設(shè)計(jì)路線和駕駛風(fēng)格。
甚至能幫我們買瘋狂星期四,不用下車就能拿的那種。

理想同學(xué)幫你點(diǎn)瘋狂星期四
理想的 VLA 是啥呢?
VLA,也就是視覺(Vision)-語言(Language)-行動(dòng)(Action)三合一的大模型。
相當(dāng)于是把理想過去的端到端 + VLM 技術(shù)進(jìn)一步集成起來。
現(xiàn)在的車載大模型既能充分理解,又能高效執(zhí)行。
用上新版本的 VLA 之后,理想的輔助駕駛有啥變化呢?
![]()
一方面,VLA 模型空間感知能力更廣,還能基于擴(kuò)散模型來實(shí)現(xiàn)軌跡生成,推理能保證 10 Hz 以上的幀率,效率非常高。
VLA 還有個(gè)能力就是跟你對話,在 OTA 8.1 版本推送之后,VLA指令的響應(yīng)速度能達(dá)到200毫秒,這也就意味著可以更快、更精準(zhǔn)地響應(yīng)你的行車指令。
要是我們問一些比較復(fù)雜的問題,理想同學(xué)的深度思考時(shí)間能進(jìn)一步壓縮,可以說越來越接近真人對話的效果了。
有些車主也提到,在面對施工改道、加塞之類場景的時(shí)候,VLA 控制下處理更加絲滑,不會(huì)猛然加減速,那種機(jī)械感很強(qiáng)的點(diǎn)剎和變道不及時(shí)的問題也減少了。

提前預(yù)判匯入主路
軌跡生成這塊,擴(kuò)散模型的好處就在于,可以直接生成一條很平滑,很“老司機(jī)”的路線來執(zhí)行,軌跡輸出不再猶豫。
這也就讓車的行駛軌跡更果斷、更絲滑,也就是更像個(gè)老司機(jī)的感覺。
這樣,輔助駕駛更像真人司機(jī)操控的感覺,不安心的感覺進(jìn)一步減弱了,舒適度自然也提升了不少。
理想自動(dòng)駕駛的負(fù)責(zé)人郎咸朋也說到,理想 VLA 就是在用 GPT 的方式做自動(dòng)駕駛。長此以往,VLA 會(huì)越來越多的生成接近真人的行為。
02VLA的方向是具身智能
理想為啥要做 VLA?為啥要讓輔助駕駛更像人?其實(shí)得從李想對公司定位的思考說起。
![]()
他認(rèn)為,現(xiàn)在我們所說的具身智能其實(shí)有兩個(gè)大的品類,一種是人形的具身智能機(jī)器人,另一種是常見工具智能化之后的具身智能機(jī)器人。
這就有點(diǎn)像擎天柱或者大黃蜂的汽車形態(tài),雖然工具屬性更強(qiáng),但同樣具備擬人的思考能力,行為方式。
![]()
從這個(gè)角度來看,汽車機(jī)器人它也可以是具身智能機(jī)器人。
理想第三季度財(cái)報(bào)業(yè)績會(huì)上,李想深入分析了未來十年新產(chǎn)品要走的路線:
產(chǎn)品停留在“電動(dòng)車”階段時(shí),車企們的競爭就會(huì)演變成參數(shù)大戰(zhàn)。更高的結(jié)構(gòu)強(qiáng)度、更大的車內(nèi)空間、更久的電池續(xù)航、更低的首發(fā)價(jià)格……永不休止的內(nèi)卷之下,所有額外的研發(fā)投入都會(huì)變成成本浪費(fèi)。
當(dāng)產(chǎn)品演變成“智能終端”,車企們的目光又會(huì)全部聚集到屏幕上,像手機(jī)研發(fā)那樣重復(fù)進(jìn)行類似的系統(tǒng)建設(shè)。
所有的工作都是如何把手機(jī) App 搬進(jìn)車機(jī)里,卷到最后,就會(huì)變成用車機(jī)寫代碼,用車機(jī)做深度研究。
這些投入,就徹底偏離了用戶需求。
因此,理想未來路線就十分明確了:
不只是要做電動(dòng)汽車,不只是要做有輪子的智能手機(jī),而是要做具身智能,要做大黃蜂這樣的汽車機(jī)器人。
放眼更廣的領(lǐng)域,L4 級自動(dòng)駕駛的車,是跑在路上的汽車機(jī)器人,升級后的智能座艙,是會(huì)思考的空間智能體,AI 眼鏡,是戴在頭上的穿戴機(jī)器人,甚至如今的座椅,都可以進(jìn)一步改造,感受你的體溫、體重,不需要任何多余的空間,就能變成一個(gè)默默關(guān)心你的健康機(jī)器人……
那就要賦予汽車眼睛和耳朵一樣的感知能力,大腦和神經(jīng)一樣的模型能力。
讓汽車具備私人司機(jī)一樣的專業(yè)能力和服務(wù),既可以開車上路、開門接你,又可以幫你停車、充電。在車?yán)锝o你提供飛機(jī)頭等艙級別的服務(wù),像助理一樣幫你處理手上的事務(wù)。
畢竟,誰不想要一臺平時(shí)提供便捷和關(guān)懷,有事的時(shí)候真出力的大黃蜂呢?
03上一代的上限 是下一代的起點(diǎn)
從這個(gè)思路回頭去看,理想 VLA 在做的事就不難理解了。
之前的端到端 + VLM 是有短板的。
一方面,輔助駕駛?cè)鄙偎伎寄芰Γ荒芎唵文7氯祟愸{駛行為,而人類駕駛場景是無窮無盡的,無法通過模仿學(xué)習(xí)全部學(xué)會(huì)。
另一方面,VLM 雖然擁有視覺能力,但是也僅能實(shí)現(xiàn)認(rèn)識常規(guī)的紅綠燈或者標(biāo)識,而不能對復(fù)雜的指示牌進(jìn)行思考。
這就有點(diǎn)像車?yán)镉袀€(gè)教練在副駕駛教學(xué)員操作,我們坐在車上,體驗(yàn)多少有點(diǎn)僵硬了。
![]()
上一代技術(shù)的上限,是下一代技術(shù)的起點(diǎn)。
想要解決就得將二者進(jìn)一步整合起來,這才有了 VLA 模型。
理想 VLA 的進(jìn)化,不是給工具戴上“外置大腦”,而是讓工具的本體具身智能化。
從最顯眼的數(shù)據(jù)上來看,我們?nèi)祟愰_車上路,剎車、轉(zhuǎn)向的最快響應(yīng)速度差不多 450 毫秒。
原先的輔助駕駛差不多 550 毫秒,在司機(jī)眼里就是反應(yīng)慢。
而線控體系可以讓整個(gè)鏈路響應(yīng)速度縮減到 350 毫秒,低于人類一般水平,在一些場景下甚至能讓司機(jī)感受到“比人開得好”。
從感知上,目前大量采用的 3D BEV、OCC 占用網(wǎng)絡(luò)、2D ViT,有效的感知距離不如人眼。3D ViT 的工作原理和人眼類似,有效距離可以比以往擴(kuò)大兩到三倍。
我們可以期待一下,將來用上 3D ViT 之后,理想 VLA 大模型可以用更接近人類視覺的方式觀察環(huán)境,能更好地理解物理世界,也能更高效地使用人類數(shù)據(jù)做訓(xùn)練。
應(yīng)用場景也可以不再局限于輔助駕駛,能在車內(nèi)外給用戶提供交互。或許還會(huì)誕生更多不同形態(tài)的機(jī)器人和應(yīng)用。
![]()
如今的理想 VLA 完成了軟硬件的全面整合,這也意味著很難有第三方能加入這一賽道,供應(yīng)同級別的整個(gè) AI 系統(tǒng)。
理想要在 AI 技術(shù)上持續(xù)保持優(yōu)勢,就必定會(huì)堅(jiān)持走全面自研這條路子,維持研發(fā)投入。
對此,理想的決定是,公司架構(gòu)重新轉(zhuǎn)型成創(chuàng)業(yè)公司,進(jìn)一步聚焦具身智能這個(gè)新賽道,重新出發(fā)。
在自研芯片與自主泊車、遠(yuǎn)程呼叫之類各種創(chuàng)新功能落地之后,我們一定會(huì)看到一個(gè)擁有深度智能的、自主服務(wù)用戶的,更加“理想”的智能出行生態(tài)。
未來十年,我們說不定也會(huì)看到許許多多“汽車人”,它們不但是頂級司機(jī),更是家庭管家、生活助理。以汽車的形態(tài),提供更多便捷與陪伴。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.