耳機上為何長出了攝像頭？｜AI 器物志

2025-12-25 14:45:15　來源: 愛范兒

廣東舉報

分享至

編者按：

當(dāng) AI 開始尋找自己的形狀，有些選擇出人意料。

AI 在智能手機上生出了一顆獨立按鍵，似乎讓智能手機找回了久違的進化動力。眼鏡憑借著視覺和聽覺的天然入口，隱隱有了下一代個人終端的影子。一些小而專注的設(shè)備，在某些瞬間似乎比 All in one 的設(shè)備更為可靠。與此同時，那些寄望一次性替代手機的激進嘗試，卻遭遇了現(xiàn)實的冷遇。

技術(shù)的落地，從來不只是功能的堆疊，更關(guān)乎人的習(xí)慣、場景的契合，以及對「好用」的重新定義。

愛范兒推出「AI 器物志」欄目，想和你一起觀察：AI 如何改變硬件設(shè)計，如何重塑人機交互，以及更重要的——AI 將以怎樣的形態(tài)進入我們的日常生活？

臨近年底，此前名不見經(jīng)傳的創(chuàng)業(yè)公司光帆科技，發(fā)布了一款看起來有些「反直覺」的產(chǎn)品：Lightwear AI 全感智能套裝（以下簡稱 Lightwear）

籠統(tǒng)地講，這玩意是智能耳機+手表的套裝。但具體細(xì)節(jié)更加有趣：

首先，每只耳機上，各裝了一枚有 200 萬像素的攝像頭，單耳重量 11g，因為要確保視覺功能的續(xù)航夠用；智能手表是顯示終端，也是額外的交互輸入工具；但這個套裝的智能中樞不一定是手機，而是內(nèi)置了 eSIM 能力和 GPS 芯片的耳機盒，智能手表都可以直接與之相連接——

這意味著，Lightwear 能夠徹底脫離手機，獨立存在、工作。

這種獨特的設(shè)計理念實踐，在行業(yè)前所未有。裸露的攝像頭掛在耳機上，放在耳邊，比帶攝像頭的智能眼鏡還要挑戰(zhàn)普遍審美，更是撞上了隱私的敏感神經(jīng)。

但如果我們將視野放到整個科技和消費電子行業(yè)在未來 5-10 年即將去往的方向，你會發(fā)現(xiàn) OpenAI、Meta、阿里夸克、理想、蘋果，在類似的產(chǎn)品定義上是有共識的——而光帆科技搶在這些巨頭和大公司之前，把這個共識給首先產(chǎn)品化了。

即是：AI 需要真的理解世界，光靠麥克風(fēng)已經(jīng)不夠了。

而這個共識的另一面是：模型的多模態(tài)能力，正在倒逼產(chǎn)品設(shè)計去滿足模型的需求。

也即，無論是光帆這種帶攝像頭的耳機，還是接受度相對更高但仍然爭議不斷的智能眼鏡——這些產(chǎn)品形態(tài)都是模型能力倒逼出來的結(jié)果，與審美無關(guān)。

一家脫胎于小米的 AI 硬件公司

光帆科技成立于 2024 年 10 月，創(chuàng)始人董紅光是小米集團初創(chuàng)團隊成員、89 號員工。在小米任職的 14 年間，他先后以核心身份參與 MIUI、快應(yīng)用、自研手機、汽車 OS 等高級別項目的研發(fā)工作。

按照該公司的官方介紹，創(chuàng)始團隊屬于典型的「高P團隊」，除了小米之外還匯集來自華為、字節(jié)、阿里、騰訊等企業(yè)的資深專家，具有深厚的軟硬件、AI 開發(fā)能力。

更值得注意的是資本累積的速度。光帆科技在三個月內(nèi)迅速完成兩輪累計 1.3 億元人民幣融資，投后估值超 5 億元。投資方包括柏睿資本（寧德時代副董事長李平創(chuàng)辦）、韶音、同歌創(chuàng)投（歌爾升學(xué)旗下）、清輝投資、鼎暉投資、阿爾法公社、英諾天使等知名基金與機構(gòu)。

這其中的產(chǎn)業(yè)資本頗為矚目，多為音頻和高新制造巨頭：韶音在骨傳導(dǎo)及開放式耳機市場占據(jù) 50% 以上份額，歌爾則是可穿戴設(shè)備的 ODM 龍頭，清輝投資背后是兆易創(chuàng)新這一存儲頭部企業(yè)，寧德時代更無需多提。

這些產(chǎn)業(yè)資本的加入，既為這家公司和這個尚未成熟的形態(tài)提供試錯空間，更是彰顯了產(chǎn)業(yè)巨頭們提前布局的動作。

攝像頭的存在，是讓 AI 能看見你看見的

過去 20 年的時間里，人機交互的主線其實清晰無比：打字、觸屏、拍照、上傳，然后等待設(shè)備反饋。雖然設(shè)備本身所內(nèi)置的軟件與服務(wù)在今天能做的非常多，能力很強，但交互的邏輯是沒有變的：你控制設(shè)備，設(shè)備給你反饋。

而最近 3-5 年里基于大語言模型的 AI 新浪潮，徹底改變了這個邏輯。由于模型具備處理多模態(tài)信息的能力，能夠理解圖像、聲音、文字之間的關(guān)系，且具備了更加接近「人類直覺」的能力。因此，由大模型驅(qū)動的 AI 產(chǎn)品，能夠更加積極主動地對用戶以及用戶所處的數(shù)字世界——甚至真實世界——發(fā)起交互。

從硅谷的 OpenAI、蘋果、Meta，到國內(nèi)的各家大廠，搭載攝像頭的 AI 設(shè)備已經(jīng)成為一個共識方向。這背后的原因并不復(fù)雜：語音能捕捉到的是「你所描述的世界」，而加上攝像頭，AI 才能真正理解「你身處何處」「面前何物」「世界正在發(fā)生什么」

第三方設(shè)計的 OpenAI 耳機遐想圖

問題來了：難道每次 AI 需要理解的時候，我都要掏出手機來嗎？攝像頭沒有更好的安身之處嗎？

只剩下兩個現(xiàn)實選擇：帶在頭上，或者貼在身體上。

在 2025 的年底，這兩者我們早已見過了無數(shù)嘗試者、失敗者、領(lǐng)先者與落后者。

在貼身設(shè)備上，Humane AI Pin 和 Rabbit R1 一度被硅谷奉為「the next iPhone」，然而卻因為到得太早，且效果太糟而早早收場，但在這個領(lǐng)域仍然不斷有人推陳出新，比如近期出口轉(zhuǎn)內(nèi)銷的 Looki。

人們又想起了十多年前曾經(jīng)流行的 Google Glass 和 VR 頭顯，將兩者合在一起，造出了新一代的智能眼鏡。目前，這個品類被硅谷奉為圭臬，且由于能夠和日常佩戴的眼鏡有機結(jié)合，接受度相對更高。但仍然有人覺得，智能眼鏡并不理想，不會成為手機的真正替代品。

緊接著，耳機來了。在手機、穿戴設(shè)備、智能眼鏡中間，耳機卡在了一個微妙的位置：它已經(jīng)被社會默許可以長期佩戴，同時又天然接近「視」與「聽」這兩個核心感官的位置。這讓它成為了 AI 感知計算能力的合理載體，下一個 AI 硬件的試錯空間。

耳機離眼睛和耳朵更近，且消費者心智教育完成，佩戴接受度廣泛。更重要的是，相比眼鏡的顯眼和沉重（最少也要 40 多克），Lightwear 耳機不僅輕（Lightwear 單耳 11g），雖然加了攝像頭讓它看起來有些「異物感」，但至少在社交場合的存在感比眼鏡更低。

從用戶優(yōu)先，到模型優(yōu)先的產(chǎn)品邏輯

單純依靠語音識別的 AI 耳機，市場相對飽和，已經(jīng)明顯進入瓶頸階段了。根據(jù)愛范兒的觀察，當(dāng)前市場上大部分所謂的 AI 耳機，定價都在千元左右或以下，主要圍繞 AI 翻譯場景展開，功能趨于同質(zhì)化。

而光帆想的、在 Lightwear 上做的，跟那些普通耳機都非常不一樣。普通耳機像是被鎖死在「聽覺」的范疇內(nèi)，但光帆多想了一步，它想的是一個更深層的問題：AI 需要更多的上下文，我用耳機能不能獲得？

這個問題的答案，其實藏在 AI 時代交互方式的根本轉(zhuǎn)變中。

從電腦到手機，目前為止都是 GUI（圖形用戶界面）的時代，屏幕、按鈕、圖標(biāo)缺一不可，因為我們精準(zhǔn)控制每一個操作對象。

但生成式 AI 改變了這個邏輯：交互可以完全依靠自然語言，你給系統(tǒng)的是模糊描述的指令，系統(tǒng)反饋的是并不精確但可用的結(jié)果，高頻溝通和反饋變得更重要，精準(zhǔn)度反而沒那么關(guān)鍵——也就是 NUI（自然用戶界面）。說和聽，反而成了更自然的方式。圖形界面變得非必要了。

這樣的新交互范式，落在耳機上是很合理的：耳機可以做到 10g 甚至更低，佩戴無負(fù)擔(dān)，續(xù)航長，可以全天候在線。相當(dāng)于人體有了一個智能外掛，一直在線，隨時待命。

但這個智能外掛還缺一樣?xùn)|西：和人類一樣，接收足夠多的信息。而在所有感知維度中，視覺是信息最豐富、最重要的一種。

于是結(jié)論很清晰——要給耳機加上一個攝像頭。

在發(fā)布會現(xiàn)場，光帆展示了 Lightwear 感知能力結(jié)合的實際應(yīng)用。這些場景覆蓋了日常生活與工作中的高頻需求：

O2O 場景：用戶喚醒設(shè)備，問「幫我看下這家怎么樣」，耳機通過攝像頭識別面前的餐館店面招牌，結(jié)合 GPS 定位確認(rèn)位置，結(jié)合 AI 產(chǎn)品積累的記憶，進行個性化口味比對、附近更優(yōu)餐廳推薦，進行主動取號、智能提醒到號等。
差旅：收到出差短信/郵件，Lightwear 可以主動為你安排日程，發(fā)現(xiàn)日程沖突并解決沖突、智能回復(fù)短信/郵件，搜索并下單機酒，完成最后一公里打車環(huán)節(jié)
購物：用戶看到感興趣的商品，只需提問，耳機即可直接視覺識別，在線比價，加購甚至直接下單。
日常提醒：根據(jù)日程安排，主動喚醒并提醒用戶（比如重要紀(jì)念日）

整個過程中，用戶不需要打開手機，不需要進入 App 操作，甚至不需要明確說出自己想要的什么—— AI 將視覺、地理信息結(jié)合，自己就補全了需要的上下文。

這類設(shè)備天生適合以下幾種場景：你說不清楚的東西（「就這個」「不是，是旁邊內(nèi)個」）；不值得專門掏出手機拍一張，或者掏出手機很打斷「心流」的場景（走路、逛展、炒菜等等）等等。

200萬像素夠用嗎？夠了，因為照片是給模型看的

如果以傳統(tǒng)消電產(chǎn)品的眼光去審視 Lightwear，槽點確實很多：攝像頭外露，隱私壓力大；比一般耳機重，全天候佩戴未必屬實；社交壓力；很容易聯(lián)想到 Google Glass、AI Pin 等失敗案例，等等……

然而這純粹是 missing the point. 給耳機加上攝像頭，其實服務(wù)的是 AI 的理解效率。攝像頭，根本不是給人用的。這個設(shè)計的出發(fā)點是服務(wù)模型的。模型需要更連續(xù)、更及時的視覺流，更真實的 FPV。

這里有個關(guān)鍵設(shè)計值得注意：Lightwear 的攝像頭采用了「閱后即焚」的影像處理機制。

在 Lightwear 系統(tǒng)設(shè)計中，你無法以「拍照」為目的去命令耳機拍照片。這是因為攝像完全服務(wù) AI，用于即時性的視覺上下文理解。照片文件不會在本地或云端保存，可以理解為「用后即焚」。這個設(shè)計背后有幾層考慮：

顯然，這個設(shè)計的首要考慮是保護隱私。不保存影像文件，就能從根本上杜絕隱私泄露，用戶無需擔(dān)心自己的生活細(xì)節(jié)被拍下，甚至在意外情況中被「偷拍」保存。

以及，不保存照片也能夠顯著優(yōu)化成本：既然是給美胸看的，畫質(zhì)就完全不需要達(dá)到人眼標(biāo)準(zhǔn)。200 萬像素對于物體識別、場景理解早已足夠，而且像素越低，處理速度越快、功耗越低，存儲和流量成本越小。目前設(shè)備做到 9 - 15 小時續(xù)航，足以實現(xiàn)全天候伴隨。

當(dāng)然，關(guān)于這個產(chǎn)品「模型優(yōu)先、用戶靠后」的論斷，只是我的主觀認(rèn)為。其他人包括光帆可能和我都有不一樣的看法。在發(fā)布會上董紅光強調(diào)，AI 硬件應(yīng)該「讓技術(shù)退后一步，讓人站在中心」，但實際產(chǎn)品所呈現(xiàn)出來的，至少在我的邏輯里，恰恰是技術(shù)先行。

但這年頭，又有哪個 AI 硬件能免除這樣的矛盾感呢？

在這里我們可以大膽地拋出一個論斷：當(dāng)下和未來一段時間內(nèi)所有的 AI 硬件，都應(yīng)該是以模型優(yōu)先，以滿足模型需求為第一出發(fā)點的產(chǎn)品定義。

因為我們遠(yuǎn)未探到 AI 模型與電子硬件產(chǎn)品結(jié)合的的能力邊界在哪里。所以毫無疑問，我們未來還會看到更多像 Lightwear 這樣，你甚至可以說有點像「縫合怪」一樣的東西。

只有做更多的嘗試，盡管其中大部分是試錯，這些產(chǎn)品公司才能真正摸到邊界在哪里，才能帶來更加優(yōu)秀的體驗。

說在最后

當(dāng)然，Lightwear 還是一個正經(jīng)要發(fā)售的產(chǎn)品。這個套裝的價格并不便宜，在這里我無意給 Lightwear 過高的評價，免得大家形成錯覺。

在發(fā)布會現(xiàn)場我們上手的是「工程樣機」，包括日程管理、消息提醒轉(zhuǎn)述、差旅預(yù)定、叫車、餐廳點評信息和排號、視覺搜索/商品加購物車等高頻剛需場景，體驗起來均流暢運行。

但由于耳機直連耳機盒 (eSIM 4G 網(wǎng)絡(luò)）加之現(xiàn)場網(wǎng)絡(luò)一般，對話的時延還是比較明顯，距離《Her》電影里那種理想化的對話節(jié)奏還是有距離的。現(xiàn)場工程師透露，工程樣機的體驗距離明年 Q1 發(fā)售的市售版，大約實現(xiàn)了 7-8 成水平。

但實話來說，體驗過 Lightwear 后，我覺得它已經(jīng)足夠令我滿意。我覺得，OpenAI 和蘋果籌劃中的，可能會在 26 或 27 年正式發(fā)售的「帶攝像頭的 AI 耳機」產(chǎn)品，體驗不會比光帆的方案好出太多——

這和產(chǎn)品力、工程能力無關(guān)，純粹在于這個產(chǎn)品形態(tài)目前的想象空間也就這樣了。這些功能誰都能做，像光帆這樣的，脫胎于小米的中國團隊，應(yīng)該只會做的更好。

如果問我怎么看這種形態(tài)的 AI 硬件，我的回答是：高度合理、不夠優(yōu)雅、大概率不是最終形態(tài)。

高度合理：因為它準(zhǔn)確的解決了多模態(tài) Agent 與硬件結(jié)合時的上下文痛點。AI 如果需要理解真實世界，不能沒有視覺感知；
不夠優(yōu)雅：產(chǎn)品機身大于 AirPods，會帶來一定的社會壓力。對于普通用戶來說，甚至可能成為購買后吃灰的理由；
不是最終形態(tài)：接上一條，目前的 Lightwear 更像是初步和過渡性的產(chǎn)物。我們可以想象成熟產(chǎn)品應(yīng)有的樣子：攝像頭進一步縮小到難以察覺，從而讓整個產(chǎn)品更像 AirPods——被社會廣泛接受的產(chǎn)品形態(tài)。這方面我們無需擔(dān)心，參考智能眼鏡和錄音卡片的經(jīng)驗，一開始都相當(dāng)笨重，后面隨著市場火熱、供應(yīng)鏈進步，方案也會日趨成熟。

以及目前 Lightwear 搭載的是一個自研的 AI 操作系統(tǒng) Lightware OS，它背后能接多類大語言模型/多模態(tài)模型、MCP、API，具備 Phone/Browser Use 能力等等——所以，就算未來攝像頭耳機這個形態(tài)被證明不可行，光帆的 OS 也可以快速遷移到眼鏡或其它的載體上。

從 AI AirPods，到 Meta 據(jù)傳幾年前就有立項的 Camerabuds 耳機，再到 OpenAI 招來前蘋果設(shè)計傳奇 Jony Ive 做的神秘新硬件——這些產(chǎn)品的傳聞都不謀而合地提及了搭載攝像頭的耳機方案。這絕對不是簡單的巧合，更像是「英雄所見略同」。

而在這樣一個非常早期但已強敵環(huán)伺的市場，光帆率先發(fā)布了一個高度可用的產(chǎn)品，這本身就是一件值得興奮的事情。

從技術(shù)演進的必經(jīng)之路來看，在一個劃時代的革命性產(chǎn)品書寫全新定義之前，各種新東西、「怪東西」此起彼伏是必然的。當(dāng) AI 開始主動理解世界時，設(shè)備形態(tài)一定會變得有些奇怪——任何事物在早期階段都是這樣，別忘了小汽車在最一開始也被當(dāng)成馬戲一樣看。

當(dāng)然，從用戶接受的角度，社會規(guī)范、隱私邊界、審美偏好等等軟性因素的轉(zhuǎn)變，往往比技術(shù)進步要慢得多。真正的臨界點在哪里，現(xiàn)在還不太看得清。

但可以確定的是，我們已經(jīng)經(jīng)過了一個朦朧的新起點。未來會有越來越多被 AI 徹底改變設(shè)計、重塑人機交互的新形態(tài)產(chǎn)品。透過《AI 器物志》這個專題，愛范兒將持續(xù)觀察它們?nèi)绾芜M入、改變我們的生活。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.