![]()
編輯|吳昕
新年剛開局,AI 行業就直接拉滿強度。
在 CES 這個全球科技風向標上,機器人 × AI 成了真正的主角。在拉斯維加斯的霓虹燈下,中國機器人軍團走到舞臺中央——不靠堆概念,而是帶著訂單和規模化落地速度。
![]()
CES創新獎評委Chris Pereira 指出,中國廠商正在把新興技術,快速轉化為能量產、能交付、能在全球市場銷售的成熟產品。
與此同時,AI 正退到幕后,成為產品底層能力,真正的競爭,落在實用性、設計與可靠執行力上。
在展會現場,最吸睛的依舊是「人形」。

波士頓動力(現在已經屬于韓國現代集團)的新版Atlas亮相。
但在同一空間內,另一條路線也在同步展開。
在影智 XBOT 的透明櫥窗前,人群一層層圍攏過來。這是全球首個支持冷熱雙杯同出的具身機器人,也是目前一眾具身智能中最落地的一種呈現。
有人舉著手機錄像,有人已經在討論要把什么圖案印在咖啡上。
![]()
影智 XBOT Lite 系列印花咖啡機器人——全球首個支持冷熱雙杯同出的具身機器人。
玻璃之后,兩只機械臂分工協作,打奶、印花、出杯,動作連貫得像一段被反復打磨過的編舞。110 秒后,一杯冰美式和一杯熱拿鐵同時完成,杯面上浮現出由 AI 生成的專屬印花——每一杯都不重樣。
![]()
「這玩意兒太酷了。」隊伍里有人忍不住感嘆,「能在咖啡上打印照片,絕對是游戲規則改變者。」有人已經等不及拍照發社交平臺。
![]()
機器人繼續出杯,節奏穩定。「你能把公司 logo 印在咖啡上,這杯咖啡一下子就成專屬的了,誰會不喜歡?」 有顧客說。「而且不用付小費——對顧客對老板都是好事。」 有人從更現實的角度補了一句。
![]()
喝完咖啡,又嘗了旁邊影智 XBOT 冰淇淋機器人做的冰淇淋,人群里笑聲不斷。「這哪是咖啡機?」有人指著櫥窗笑道,「這是個能把人吸過來的娛樂中心。」
![]()
與多數人形機器人仍在努力「看起來很未來」不同,影智XBOT并不追求形似人類,而是成為一臺可以全天候運轉的生產工具——不跳舞、不表演,直接把一杯口感穩定、好喝的咖啡,端到你面前。
而這套邏輯,已經在真實世界里跑了很久。
從天安門廣場、國家圖書館到成都錦里,影智XBOT經歷的不是短暫的 show time,而是數百萬次的反復出杯。
目前,影智XBOT已在15 個以上國家、100多個城市落地,部署量超過600 臺,累計制作咖啡400 萬杯以上,在部分核心點位甚至實現了數月回本
在具身智能普遍面臨商業化難題的當下,影智XBOT用一組明確的數據證明:它是目前行業內商用落地速度最快的具身智能機器人之一
![]()
2025年8月影智科技發布年度新品之一:影智XBOT Lite系列印花咖啡機器人。
回歸商業常識:具身智能不等于「人形」
在當下關于具身智能的討論中,「人形」幾乎成了一種默認答案。但在「操刀」影智XBOT的影智科技看來,這條路徑更多源于技術想象,而非商業理性。
這一判斷,來自公司創始人唐沐長期積累的產品與商業經驗。
作為 2022 年福布斯中國十佳設計師,唐沐曾掌舵騰訊用戶體驗設計中心(CDC),并擔任小米生態鏈副總裁。他既是 QQ 頭像、微信表情包等現象級符號的締造者,也是小米路由器、小愛智能音箱等億級爆款產品的重要推動者。
![]()
公司創始人唐沐和影智XBOT咖啡機器人。
長期站在技術、產品與規模化商業的交匯點,也塑造了他極其務實的產品觀:一切產品必須從真實場景出發、目標要指向大眾市場,并且要經得起規模化、可靠性與成本結構的嚴格檢驗。
這也構成了影智科技切入具身智能領域的基本原則——回歸商業常識。先解決人的需求,解決人的問題,在一個足夠垂直的場景中把事情做到極致,再去討論所謂的「終極形態」。
在唐沐看來,機器人的進化路徑不該從「像人」出發,而應回到「是否真正有用」。具身智能的價值,并不取決于外形是否擬人,而在于是否能夠圍繞具體問題展開,在真實環境中靈活適應、精準執行。
在大量現實的消費與服務場景中,工程復雜度高、成本更高并伴有不可控風險的人形設計,反而會成為商業化落地的負擔。
至于「為什么是精品咖啡」,也是多條現實線索疊加后的選擇。
挑市場,首先要足夠大,其次必須是一個成長型市場,咖啡符合這兩個前提。它本身是一個高度全球化、已被充分驗證的成熟消費市場,而中國市場還在快速增長。
數據顯示,2023 年我國人均年咖啡消費量約為 16.74 杯,幾乎是 2016 年的兩倍;到 2024 年,這一數字已提升至 22.24 杯以上。即便在瑞幸、庫迪等品牌快速擴張的背景下,中國咖啡門店的整體密度,依然明顯低于日本和韓國等成熟市場,增長空間可觀。
需求持續走高的同時,供給側卻長期受制于人力瓶頸。
咖啡師培養周期長、流動性高,崗位留存率普遍偏低;在高度內卷的競爭環境中,咖啡店拼的是出單量與運營效率,對人力的擠壓不斷加劇,也放大了系統性的運營矛盾。
咖啡消費還呈現出明顯的波峰與波谷。高峰期排隊幾乎成為常態,品質波動難以避免。尤其是在拉花這類對毫米級精度和連續軌跡高度敏感的操作中,人類不可避免的生理性抖動,會直接放大為線條斷裂或形變。
而對大多數用戶而言,他們關心的不是「誰在做咖啡」,而是出杯是否足夠快、品質是否始終穩定。以出杯量為例,每天三百杯以上的穩定輸出,對人類咖啡師而言幾乎不可持續;而對機器人來說,這只是一個連續、可復制的標準工作負載。
在這樣的背景下,大模型的出現,讓產品「升維」——從底層重新定義一套面向消費服務場景的具身智能系統——成為可能。
市面上多數咖啡機,本質上仍是工業自動化設備,考慮的是「怎么把咖啡做完」。具身智能除了關心效率,還關心「這杯咖啡是給誰喝的、在什么情境下喝、怎樣才算一次好的體驗」。咖啡這一日常消費場景,第一次有機會邁入以用戶體驗為核心的重構階段。
歷經兩年多研發,影智XBOT問世并成功出圈,唐沐也因此多了一個被媒體反復引用的標簽:「具身智能消費機器人第一人」。
具身智能的「三位一體」:
為什么能做到萬杯如一?
從原料開始,影智XBOT就在為「穩定性」服務。
目前,影智XBOT全部采用阿拉比卡咖啡豆,設備內設置兩個豆倉:一個拼配豆,一個單品豆(瑰夏),以覆蓋不同用戶的口味偏好;牛奶則與蒙牛合作統一供應。無論是在北京、上海,還是成都,下單后端到手里的那杯咖啡,都能保持高度一致的風味。

這種「萬杯如一」的表現,并不是靠單一環節實現,而是依賴一套完整的具身智能技術體系:負責理解與決策的「大腦」、統籌執行的操作系統(OS),以及完成精細物理動作的「小腦」。
影智XBOT的「大腦」,并不是傳統點單系統,而是一套面向真實世界運行的具身智能餐飲大模型,核心目標是更好地理解用戶需求。
![]()
當你說出一句模糊需求——比如「我想來一杯熱帶風情的咖啡」——系統會在毫秒級調取完整的飲品知識體系,覆蓋公開菜單、配方邏輯與標準化制作 SOP,并理解「熱帶風情」意味著椰子、熱帶水果、冰感與較高甜度。
接下來,大模型會調用口味拼配算法,在現有原料約束下尋找最優解:比例如何控制?先加什么、后加什么,才能在不破壞咖啡骨架的前提下,呈現「熱帶」風味?
這些原本高度依賴咖啡師經驗與手感的判斷,被轉化為一組可計算、可推演的決策過程。算法甚至「知道」一些已經被反復驗證的美味公式,如生椰與拿鐵是絕配。
最終,你的抽象需求會被翻譯成一連串精確到秒的動作調用:咖啡液多少秒、椰乳多少秒,冰、糖與水如何配合。每一個動作,都是機器人已經掌握的能力模塊,可以被反復調用、穩定復現。
在「攬客」上,AI 數字人承擔「意圖入口」的角色。它具備長記憶能力,能識別老顧客與偏好——「Hi,Thomas,還是要上次的橙 C 冰美式嗎?」甚至能在連續對話中保持上下文一致。

數字人還能根據狀態做出情境化推薦,如夜深時建議一杯 double 濃縮。結合 AIGC,用戶「隨口一說」的創意,也能被實時「打印」成咖啡印花。

將自拍變成獨一無二的咖啡印花。
如果說「大腦」解決的是「邏輯上該怎么做」,那么影智XBOT操作系統(LU BAN OS)要解決的是在真實世界中能不能這么做——這是雙臂機器人實現落地的關鍵一環。
它更像一套神經中樞。當「大腦」給出高層指令后,OS并非簡單轉發,而是介入執行層,在復雜的真實環境中進行全局編排:統一調度機械臂、咖啡機、奶泡器、糖漿泵、制冰機、印花機等設備,確保每一個步驟、每一個動作,都發生在安全、合理且可控的物理條件之內。
做出一杯咖啡,看似線性的流程,背后其實是一套高并發的任務調度系統。通過底層運動算法,OS實現了雙機械臂的空間解耦與時間同步。即便在狹窄的操作空間內,兩只手臂也能在毫秒級反饋下實時避障,像人類雙手一樣默契配合。
OS真正強大的地方,在于賦予了雙臂「柔性作業」的能力。在不同調度策略下,雙臂可以進行高度非對稱的協同,互不干擾地同時制作兩款完全不同的飲品。
![]()
在寫字樓早高峰,OS可以同時處理一杯熱美式和一杯冰拿鐵,將單杯等待時間大幅壓縮。
與此同時,OS還會持續監控設備狀態,記錄運行數據,提前識別潛在異常,并為下一單完成預準備,等等。正是這套全局感知與調度能力,使影智XBOT即便在無人值守的情況下,也能長期穩定地支撐高并發出杯。
當這套通用底座逐漸成熟,咖啡也就不再是它的唯一應用場景。冰淇淋、奶茶、雞尾酒、面食,乃至教育、陪伴等更廣泛的消費與服務領域,本質上都只是同一套具身智能系統之上的「技能插件」。
在此之下,「小腦」承擔的是具身智能中最貼近物理世界的一層任務:在液體流動、奶泡阻力與原料狀態不斷變化的真實環境中,依然把口味與視覺表現鎖定在同一標準,實現真正意義上的「萬杯如一」。
在硬件層面,團隊自研雙六軸定制工業機械臂,重復定位精度達到±0.03 毫米;配合高精度運控算法,整體操作精度達到0.1毫米,遠超人類生理極限。
在萃取階段,粉量誤差被壓縮至極小范圍。糖漿添加與拉花動作被控制在毫米級精度。拉花時,機械臂的移動速度與噴頭擠出節奏始終保持同步,一旦感知到液體阻力或流速偏移,系統便即時修正電機輸出,確保線條連續、不抖動。

為了教會機器人各種餐飲手藝,比如「審美級」拉花能力,團隊搭建了一套頂級紅外光學動捕系統。

75秒內復刻大師級的拉花咖啡技藝。機器人6個小時就能掌握一款新的拉花方式,而人類咖啡師需要6個月。
通過 11 組高精度攝像頭,將頂級咖啡師最細微的手部擺動與力度變化,以毫米級精度完整記錄下來,再借助自研算法,將這些大師級技巧翻譯為機械臂可執行的控制指令,還實現了跨型號的自動校準。
最終,原本只存在于老師傅經驗中的「手感」,被沉淀為可規模復制、穩定復現的工業級能力。
設計美學 × 商業策略:
讓具身智能真正成為一門生意
如果說,技術解決的是「能不能把事做對」,那么工業設計解決的,其實是「這東西能不能被真正用起來」。而后一個問題,才是 2B 商家是否掏出真金白銀的分水嶺。
商家的目標很簡單,用盡可能確定、低摩擦的方式賺錢。因此,影智XBOT是否能夠被設計成一臺全年無休、穩定運轉的生產設備,是否能持續替代人力,把那些瑣碎、重復、長期消耗精力的管理問題一并吞掉,遠比「看起來有多先進」更重要。
也正因如此,作為少數同時拿下 iF、紅點 Best of the Best、IDEA、CMF 等國際設計大獎的團隊,影智科技并沒有把工業設計當作外觀層面的加分項,而是將其視為一套用于降低商業摩擦成本的方法論。
這種思路,最先落到一個極其「現實」的指標上:空間效率。
通過高度緊湊的內部架構,影智XBOT將機械臂、咖啡機、制冰機、印花機等完整模塊,壓縮進約 1.35㎡–2.5㎡ 的占地范圍內。在寸土寸金的商業環境中,這是直接影響坪效、租金模型,甚至點位是否成立的關鍵變量。
![]()
設計并未止步于「塞得下」,而是與商業運維深度綁定。
通過全模塊化架構,將復雜硬件拆解為標準化服務組件,故障模塊可在60 分鐘內快拆更換;配合遠程 OTA,實現系統、動作路徑與配方的一鍵升級。同時,預留擴展接口,支持未來擴容料倉或接入其他服務設備,讓單體機器不被功能鎖死,具備持續演進的商業彈性。
![]()
在商業模式上,影智科技并未停留在「賣一臺機器」,而是搭建了一套更貼近真實商業世界的三層結構:設備銷售、聯營模式,以及持續性的增值服務。
其中,「7S」服務體系是一個首創。通過將大量原本由運營者承擔的風險前移至平臺側,釋放出一個明確信號:咖啡機器人并不是在「與人搶工作」,而是在用技術降低創業門檻,讓小生意重新變得可控。它瞄準的,正是那些有創業意愿、卻缺乏技術、管理與抗風險能力的中小創業者——過去,這類人往往在高啟動成本與不確定風險中迅速出局。
在傳統「4S」基礎上,「7S」補齊了三項關鍵能力:用數據運營替代經驗判斷;通過金融服務,將近 20 萬元的初始投入拆解為更輕量的運營方案;通過回購與升級機制,賦予設備流動性與持續迭代空間,明確機器人是一種可持續優化的資產,而非一次性消耗品。
![]()
把具身智能先安放在當下
如果說人形機器人代表的是遠方,那么影智科技更像是把具身智能先安放在當下。
它代表了另一類具身智能公司:不沉迷概念敘事,也不等待終極形態,而是用當下可行的技術,在復雜、開放、不可控的真實世界中,反復驗證可復制的商業模式。
從底層運控算法、工業設計,到產品形態與商業模式,影智科技在一條全鏈路上不斷打磨同一個問題——當具身智能真正進入現實生活,它如何成為一門成立的生意。至少在咖啡這門生意里,這個問題已經有了被市場驗證的答案。
也許正是這些并不「人形」、卻能持續運轉的「中間態」產品,正在把具身智能從想象中的未來,一步步帶進現實世界。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.