![]()
這兩天差評君受 vivo 邀請來到了位于海南的博鰲亞洲論壇年會。
說起來我們還是第一次來參加這種大型的國際對話活動,差友們把排面打在公屏上。
![]()
關(guān)于博鰲亞洲論壇,給沒聽過的差友介紹一下,這其實是一個國際組織來的,他們每年都會在博鰲這個小鎮(zhèn)舉辦一次年會——亞洲各國的政商大佬們和專家們聚在這里,坐著一起聊經(jīng)濟(jì)、談合作,商量怎么把亞洲發(fā)展得更好。
所以每年面對不同的全球性挑戰(zhàn),以及科技發(fā)展趨勢,博鰲亞洲論壇都會有一些新的議題。
那對于我們科技媒體來說,當(dāng)然還是更加關(guān)心年會上的科技議題了。
在這方面,vivo 每年都會在博鰲論壇上給大家?guī)韯?chuàng)新產(chǎn)品,分享科技戰(zhàn)略,比如去年他們就展示了 MR 頭顯、6G 等領(lǐng)域的新技術(shù),并宣布進(jìn)軍機(jī)器人賽道。
![]()
而今年 vivo 又展示了新的戰(zhàn)略規(guī)劃,其中讓我印象最深刻的還是 vivo 總裁胡柏山在會上的講話:
AI 想要真正從虛擬世界走進(jìn)現(xiàn)實,就必須要能夠做到主動感知和理解我們所在的這個世界,而想要建立起這種能看懂物理世界的感知能力,影像是一切的基石。
差評君翻譯下來,就是別管是能打醉拳、翻跟斗的機(jī)器人,還是 OpenClaw 引發(fā)的養(yǎng)蝦熱潮,AI 跟世界交互才剛剛開始。
“不兒,這真的是因為藍(lán)廠在影像上已經(jīng)建立起優(yōu)勢,才這么說的嗎?”
帶著這個疑問,差評君在會后的媒體群訪環(huán)節(jié)跟胡柏山聊了聊,總算是把這話題給聊透了,那咱們今天就順著他的話,嘮嘮 vivo 的“影像 + AI ”大棋。
現(xiàn)場大家問了胡柏山很多問題,但總結(jié)下來,最核心的就兩點:
![]()
第一,在咱們消費者這里,率先實現(xiàn) AI 落地的肯定是手機(jī),而手機(jī)的未來,是從現(xiàn)在的 Smart Phone(智能手機(jī))變成 Agent Phone(智能體手機(jī))。
雖然現(xiàn)在各種 AI 硬件層出不窮,什么AI眼鏡、AI錄音筆等等,但沒有哪個設(shè)備能比手機(jī)更加普及,并且離人更近——你想想,手機(jī) 24 小時不離身,還能聯(lián)動周邊的一系列生態(tài),天生就是做 AI 落地的載體。
當(dāng)然,目前手機(jī)的處理器算力和內(nèi)存帶寬來說,想要跑大參數(shù)的模型還是有瓶頸的,所以 vivo 選擇聚焦端側(cè) AI,先讓 AI 在手機(jī)上流暢地跑起來,用端側(cè) Agent 解決用戶的場景痛點,把體驗值拉升起來。
![]()
說到這點,差評君也在現(xiàn)場問了胡柏山對于之前 AI 手機(jī)的隱私權(quán)限風(fēng)險怎么看,他的回答也蠻直接了當(dāng)?shù)模褪怯脩舻碾[私權(quán)限和數(shù)據(jù)應(yīng)該歸用戶自己來管理,所以手機(jī)必須得做好端側(cè) AI,關(guān)鍵數(shù)據(jù)都跑在本地,大程度降低在云端泄露的風(fēng)險。
還有對于手機(jī) AI 如何調(diào)用第三方應(yīng)用能力的問題,他表示還是需要通過像 MCP 這種統(tǒng)一的協(xié)議來做,在標(biāo)準(zhǔn)的接口范圍內(nèi),把事情做的有邊界。
第二,即便現(xiàn)在 Al 是行業(yè)的“流量密碼”,但是對于 vivo 來說,影像依舊是不變主角。Al 和影像不是誰替代誰,而是要融合起來,一起驅(qū)動智能生態(tài)的。
![]()
有點迷?那先來聽聽胡柏山透出的猛料,比如:
MR 頭顯的下一代要開始商業(yè)化;他們要把感知這條賽道做起來,把視覺和聽覺這些感知能力整合到一起;以及 vivo 已經(jīng)明確做聚焦室內(nèi)場景的家用機(jī)器人了……等等等等,每一句話都透露了 vivo 接下來的大動作是圍繞“影像 + AI ”的布局來的。
不管是演講還是群訪,藍(lán)廠都在反復(fù)強(qiáng)調(diào)一個邏輯就是:沒有影像,AI 在物理世界里就是“睜眼瞎”。
怎么理解這句話呢?我給大家拆解一下。
首先,大家應(yīng)該都知道,AI 其實是沒有感知能力的,它懂語言,但它看不懂我們的世界。
![]()
對于大多數(shù) AI 來說,你扔給它的照片本質(zhì)上只是符號和統(tǒng)計規(guī)律,而告訴它這些信息都代表了什么的,在過去是成千上萬的人工標(biāo)注員,他們通過手工框選貼標(biāo)簽,告訴 AI 圖片中的水杯、桌子、車輛、寵物貓狗長什么樣。
不過這兩年不一樣了,AI 自動化標(biāo)注起來了,那些低端、機(jī)械化的標(biāo)注活兒,AI 自己就能搞定,只剩一些復(fù)雜的高端標(biāo)注還需要人來做。行業(yè)趨勢也從“靠人力堆數(shù)據(jù)”變成了“ AI + 精細(xì)化人工”。
![]()
于是,現(xiàn)在你扔給 AI 一張圖片,它基本可以給你描述清楚當(dāng)中都有哪些東西,但是這并不代表它看見的東西,就是你所看見的。
![]()
因為它看到的其實是一張貼滿了標(biāo)簽的二維平面,而不是你所認(rèn)知的物理空間。
打個比方,你看到一瓶放在桌面上的水,你腦子里會知道它有重量,它要放在桌子上,它是否會滾動,它掉下來會是什么個運動狀態(tài)——你之所以會這么想,并不是因為你識別出了這瓶水和桌子,而是因為你是知道這個物理世界是怎么運行的。
但是 AI 不會這樣,它只會知道水瓶和桌子,以及水瓶應(yīng)該是在桌子的上面而不是下面。
![]()
因為如此,去年“ AI 教母”李飛飛提出了空間智能這個概念,用“世界模型”讓 AI 看懂物理世界,理解物體之間的空間關(guān)系、物理約束以及運動規(guī)律等等。
從目標(biāo)來說,vivo 跟李飛飛所追求的是一樣的,都是最終實現(xiàn) AI 對于物理世界的感知——只不過 vivo 打算走一條更符合自身情況的路子,用影像來當(dāng) AI 在物理世界的感知器官。
為啥是影像呢?
咱們從數(shù)據(jù)采集方式來看,錄音只有聲音;傳感器只有距離、亮度等信息,沒有語義。只有影像能夠把前面這兩項給囊括進(jìn)來,把三維的現(xiàn)實世界,給你變成 AI 能讀懂的結(jié)構(gòu)化信息。
![]()
而且過去這么多年手機(jī)廠商影像的飛速進(jìn)步,帶來了海量的技術(shù)和場景數(shù)據(jù)積淀,比如對于光線的計算、前后景分割、人像分割、拍攝視角識別、場景識別等等積累,對于 AI 感知物理世界都有所幫助——
因為之前有研究表明,拍攝角度不同、光線差異、或者是有人從鏡頭前方走過等情況,都會降低 AI 的識別準(zhǔn)確度。
就像 vivo X300 Ultra 和 X300s 這回的影像 Agent,之所以能自動推薦拍攝參數(shù),核心就是手機(jī)影像能精準(zhǔn)識別拍攝對象、光線條件,再結(jié)合 AI 算法,幫我們省去手動調(diào)節(jié)的麻煩。
![]()
另外,我還刷到過有文章說,AI 之所以無法很好地理解物理世界,有一個很大的原因是真實數(shù)據(jù)不足所造成的訓(xùn)練缺口。
因為過去傳統(tǒng)的方式是,用實驗室捕捉到的數(shù)據(jù)來訓(xùn)練 AI,這些地方的燈光固定、實驗者會穿特定著裝,跟現(xiàn)實場景相去甚遠(yuǎn)。
而商業(yè)級和通用的影像訓(xùn)練資料很多是非標(biāo)數(shù)據(jù),也就是沒有打上力學(xué)標(biāo)簽,會導(dǎo)致 AI 無法準(zhǔn)確識別某個動作的力度。
從這點來說,手機(jī)影像的優(yōu)勢在于它更貼近普通人的日常生活,數(shù)據(jù)基本就是我們每天隨手拍的場景。
比如清晨的陽光、路邊的小吃、家里的寵物等等,你拍越多真實的日常場景喂給 AI ,AI 對于我們普通人的生活就理解得越精細(xì),甚至可以在手機(jī)上復(fù)制一個你的數(shù)字生命。
而且由于 AI 是跑在端側(cè)的,你也不用擔(dān)心云端的隱私泄露問題。
![]()
而對于未來影像和 AI 的結(jié)合,胡柏山認(rèn)為影像應(yīng)該是具備多模態(tài)感知能力的智能感官,他原話是這么說的:
“它不僅要識別“這是一只貓”,更要理解:貓在沙發(fā)上跳躍的可能軌跡、下一秒可能打翻水杯的關(guān)聯(lián)、以及它此刻慵懶的情緒。”
在 vivo 看來,AI 的感知能力應(yīng)該是主動的,可以幫你觀察環(huán)境亮度、空間的縱深、甚至人際的距離,如果未來的 AI 想要能和人進(jìn)行很好的互動,那么前面這些就是必須要具備的。
舉個很實在的例子:未來手機(jī)看到你在逛超市,就能推送優(yōu)惠信息;看到你在開會,就能自動開啟會議 Agent,幫你做會議紀(jì)要。這些場景,沒有影像主動的實時感知,AI 根本無從下手。
![]()
聊到這里,咱們總算是把影像和 AI 感知能力之間的聯(lián)系給嘮明白了,而在聽完博鰲的分享后,我也是回過味來了——
你們還記得不,2023 年胡柏山就透露過 vivo 會切入機(jī)器人賽道,并且還說:“最適合做機(jī)器人的就是手機(jī)行業(yè),甚至沒有之一。”
現(xiàn)在來看,這些行業(yè)巨頭看到的東西,跟我們普通人還是不太一樣,當(dāng)年胡柏山敢說這話,是因為影像積累的視覺感知能力,正是機(jī)器人“看懂世界”的關(guān)鍵,
而 vivo 要做的,就是把這種能力,延伸到手機(jī)之外的生態(tài)產(chǎn)品上。
![]()
他們的戰(zhàn)略很清晰,就是以影像 + AI 為核心,構(gòu)建感知系統(tǒng),一邊重塑手機(jī),讓手機(jī)變成更智能的“隨身助理;一邊布局 MR 頭顯、家庭機(jī)器人等生態(tài)設(shè)備,讓感知能力覆蓋更多場景。
胡柏山在群訪現(xiàn)場劇透,機(jī)器人 LAB 現(xiàn)在還在梳理路徑,會聚焦年輕人的生活場景,比如照顧寵物、收納衣物,先從簡單的場景入手,逐步迭代,不追求一步到位。
![]()
而且他們很清醒地認(rèn)為,大模型未來會越來越同質(zhì)化,真正的差異化在于場景數(shù)據(jù)——因為不同品牌聚焦的場景不同,積累的數(shù)據(jù)就不同,而影像正是獲取這些差異化數(shù)據(jù)的核心。
![]()
就像特斯拉的 FSD 雖然開源部分技術(shù)了,但是最核心的代碼和數(shù)據(jù)并沒有公開,所以其他家也做不到跟特斯拉一樣的體驗,而 vivo 更聚焦場景數(shù)據(jù),這也會成為自己的核心競爭力。
在這波AI的大浪潮里,每一家頭部廠商都在為未來布局,但 vivo 沒有盲目地跟風(fēng)追 AI 熱點,而是選擇了在自己原有的影像長板基礎(chǔ)上,去為 AI 打造感知能力,讓 AI 在未來可以真正走進(jìn)我們現(xiàn)實的生活中。
我們總說人類是“視覺動物”,其實我們創(chuàng)造的智能體,未來也會是“視覺動物”——vivo 接下來想做的,就是好好打磨 AI 的這雙“眼睛”,用影像來給 AI 落地鋪路架橋。
雖然目前我們還沒看到最終的成果,但藍(lán)廠是打算先從手機(jī)- MR頭顯-機(jī)器人的發(fā)展路徑入手,用“沿途下蛋”的方式,不斷產(chǎn)出階段性的成果,這也讓我們看到了未來更多的可能性。
撰文:粿條
編輯:米羅
美編:素描
圖片、資料來源:
vivo
為什么AI能看到世界,卻不懂世界?——一凡
它知道你在搬重物,但不知道你會受傷:想讓 AI 讀懂物理世界究竟多困難?——Min
部分圖片為AI生成
![]()
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.