從"看得見"到"能干活"，機器人的下一步是擁有觸覺

2026-03-01 17:20:50　來源: DeepTech深科技

北京舉報

分享至

在強光環(huán)境下拿起一個玻璃杯，這個動作對人類來說幾近本能，但對機器人而言，“看到玻璃杯”和“拿起玻璃杯”的過程卻充滿挑戰(zhàn)。

因為玻璃過于干凈透明，即便是人類或者動物，不仔細辨認有時也會一頭撞上去。對依賴視覺感知的機器人來說，這類物體更是難以辨別。透明材質帶來的透射與折射、強光環(huán)境下的反射與局部過曝，都會干擾視覺系統(tǒng)對物體邊界、位置和姿態(tài)的識別與定位。

更大的考驗還在觸碰的瞬間。抓取過程中，機器人必須實現(xiàn)精確的力控：既要施加足夠的握持力防止滑落，又要避免用力過大而壓碎脆弱的玻璃。也就是說，強光下抓起玻璃杯的簡單動作，不僅是視覺問題，更是感知與物理交互能力的綜合挑戰(zhàn)。

這暴露了當下具身智能技術落地的一大瓶頸：機器人或許已經(jīng)能“看得見”，但卻“摸不準”。

類似的例子還有在插拔精密接頭、抓取易碎物品等操作場景中，僅依靠視覺的機器人仍然表現(xiàn)不佳。一方面，當機器人手指與物體接觸后，物體被遮擋，無法觀測接觸面的狀態(tài)變化；另一方面，視覺系統(tǒng)難以獲取物體的材質、軟硬度、滑移趨勢等關鍵物理信息，而這些信息對于實現(xiàn)穩(wěn)定、精準的操作至關重要。

因此，業(yè)內已有共識：要讓機器人真正“能干活”，必須在視覺之外補齊另一項關鍵能力——觸覺感知。通過為機器人配備高分辨率的觸覺傳感器，使其在接觸物體時實時獲取力度、紋理、形變等多模態(tài)信息，才能讓具身智能構建起“看見－觸摸－調整”的完整操作閉環(huán)。

走在這條路上的其中一員，就是“戴盟機器人”。

這家初創(chuàng)公司孵化于香港科技大學的研究團隊，由港科大機器人研究院創(chuàng)始院長王煜教授與其學生段江嘩博士聯(lián)合創(chuàng)辦；以視觸覺為技術核心，致力于以觸覺與靈巧操作智能推動機器人走向通用。創(chuàng)立不到兩年，戴盟機器人已連續(xù)完成多輪融資，累計金額達數(shù)億元人民幣，刷新了觸覺傳感領域天使輪融資的最高紀錄。

“觸覺感知正從可選能力走向智能標配，直接決定機器人能不能干活、能不能干好活。”段江嘩告訴 DeepTech，“今年，具身智能將正式告別炫技，進入以工程能力和商業(yè)落地為唯一檢驗標準的實戰(zhàn)階段。誰能先完成從物理世界數(shù)據(jù)感知、采集、學習到商業(yè)落地的閉環(huán)，誰就有機會定義下一階段的行業(yè)格局。”

那么，在即將到來的實戰(zhàn)階段，視觸覺傳感器作為“具身智能上游的上游”前景如何？在純視覺技術不斷進步的背景下，觸覺感知的價值又是否會被削弱？

帶著這些問題，我們與戴盟機器人 CEO 段江嘩進行了一次深入對話。

以下是對話內容，有所增刪，但未更改原意。

DeepTech：為什么當初戴盟機器人決定切入觸覺感知這一方向？

段江嘩：我和聯(lián)合創(chuàng)始人王煜教授此前長期從事機器人操作（robotics manipulation）研究。在實際操作中，我們發(fā)現(xiàn)許多對人類而言非常簡單的任務：比如打一個蝴蝶結、用勺子舀出容器中的物體等動作，對機器人卻極具挑戰(zhàn)。

這背后根本原因在于，僅靠視覺無法解決接觸后的狀態(tài)感知問題。一旦夾爪與物體接觸，視覺常被遮擋，而傳統(tǒng)機器人又缺乏有效的觸覺反饋，導致操作失敗率很高。因此我們意識到，要真正提升機器人的精細操作能力，除了視覺提供的位置和姿態(tài)信息外，還必須引入高信息密度的觸覺感知，尤其是在接觸發(fā)生后的實時反饋。

DeepTech：與傳統(tǒng)的壓阻式或電容式觸覺傳感器相比，你們所采用的技術路線核心優(yōu)勢體現(xiàn)在哪里？

段江嘩：研究顯示，人類單個手指表面分布著約 1,800 至 2,500 個機械感受器，構成了極高密度的感知網(wǎng)絡。更重要的是，人手在操作中能同時獲取多達 12 種模態(tài)的觸覺信息，包括紋理、輪廓、硬度、接觸力大小等。這兩個關鍵指標——高分辨率（每指數(shù)千感知點）和多模態(tài)感知能力，成為我們評估技術路線的核心標準。

而在我們剛開始研究的時候，市面上幾乎所有商用觸覺傳感器都無法同時滿足這兩點。傳統(tǒng)陣列式傳感器受限于物理布線：要在幾平方厘米的手指面積內集成上千個傳感點，不僅布線極其復雜，而且連線越多，越容易在反復接觸中斷裂，導致可靠性差、成本高、難以量產(chǎn)。

于是我們決定回歸第一性原理：什么樣的物理機制能同時實現(xiàn)高分辨率、多模態(tài)、高耐用性和低成本？

最終，我們選擇了視觸覺（vision-based tactile sensing）路線。這種方案不依賴密集布線的電極陣列，而是通過光學成像捕捉接觸面硅膠層的形變圖像，再結合算法解算出多種觸覺模態(tài)。理論上，其分辨率僅受限于相機像素，可輕松超越人類指尖的感知密度；由于沒有易損電路，壽命可達數(shù)百萬次操作循環(huán)，遠高于傳統(tǒng)方案。

DeepTech：目前這套觸覺系統(tǒng)所實現(xiàn)的感知能力具體能支持機器人完成哪些高精度任務？能否舉一些實際的應用場景或例子？

段江嘩：首先需要澄清一個常見誤解：機器人的任務精度，并不完全由某一個傳感器的精度所決定。用一個簡單的例子來理解，把一瓶水遞到手里，你未必能準確說出它具體重多少克，誤差可能很大；但這并不妨礙你輕松擰開瓶蓋、用鑰匙開門，甚至完成更精細的動作。人類之所以能做到，是因為我們的動作并不是依賴“絕對測量值”，而是依賴不斷的感知反饋與協(xié)調配合。

機器人也是一樣。真正決定任務效果的，是整個系統(tǒng)的協(xié)同能力：機械結構的穩(wěn)定性、運動控制的精度、視覺識別與定位的準確性、整機標定的一致性，以及算法的實時調整能力，缺一不可。

在這個體系中，觸覺并不是單獨“決定最終精度”的那個因素，但它承擔著關鍵角色，為系統(tǒng)提供實時、靈敏的接觸反饋。當機器人真正“碰到”物體時，觸覺能及時告訴它力是否過大、是否發(fā)生滑動、是否需要微調，從而讓整個閉環(huán)控制更加穩(wěn)定、更加細膩。

具體到我們的傳感器，它有兩項尤為突出的核心性能：力感知靈敏度和空間分辨率。它可以感知最小 0.01 牛的力，僅 1 克力的微小接觸就能被識別。空間分辨能力則達到 0.01 毫米（10 微米），兩個微小凸起之間哪怕相距只有 10 微米，傳感器也能將它們區(qū)分開。這比人類手指尖的分辨率高出了約 300 倍。成年人指尖的空間分辨率通常為 2-4 毫米，比如紙幣上盲文標記的間距通常設計在 3 毫米以上，正是出于對人手指尖分辨率的考慮。

傳感器的高靈敏度與高分辨率，不僅帶來了更精細的觸覺成像能力，也為微結構識別、精密裝配和復雜接觸分析提供了更大的技術空間。

DeepTech：這種超細粒度的感知能力，在實際應用中能帶來哪些具體價值？

段江嘩：首先是精密裝配。比如在插針、對準孔位或擰微型螺絲時，哪怕出現(xiàn)極其微弱的“卡頓”或阻力變化（可能只有幾毫牛的差異），系統(tǒng)也能立即捕捉。這使得機器人可以在不依賴視覺的情況下，自主調整姿態(tài)或力度，避免損壞零件或裝配失敗。

其次是表面質量檢測。比如經(jīng)驗豐富的老師傅常通過手摸判斷零件表面是否平整、有無細微毛刺或加工瑕疵。我們的觸覺系統(tǒng)同樣能實現(xiàn)這一點，不僅能識別宏觀缺陷，還能感知亞毫米級的紋理變化、粗糙度差異，甚至材料軟硬程度。這對高端制造、質檢自動化非常有價值。

還有材質的辨識與分類。比如在柔性物體操作中，機器人可通過觸覺區(qū)分皮革、織物、硅膠等不同材質。這在服裝分揀、奢侈品鑒定或人機協(xié)作場景中尤為重要。用戶常說“手感不一樣”，背后其實是觸覺多模態(tài)信息（如彈性、摩擦系數(shù)、紋理）的綜合判斷。

總的來說，我們的觸覺系統(tǒng)并非追求“絕對測量精度”，而是提供足夠細膩、穩(wěn)定且多維的感知輸入，讓機器人具備類似人類“手感”的直覺式操作能力。這才是實現(xiàn)真正靈巧操作的關鍵。

DeepTech：既然已經(jīng)有了視觸覺技術基礎，為什么戴盟機器人沒有選擇直接做靈巧手？

段江嘩：在人類的進化體系中，手之所以成為最具代表性的操作器官，并不僅僅因為其結構形態(tài)，更在于觸覺所構建的精細反饋能力。無論是五指靈巧手還是二指夾爪，本質上都只是執(zhí)行終端；真正決定操作質量的，是感知系統(tǒng)，尤其是觸覺。

在機器人領域亦然。結構設計可以不斷優(yōu)化，但如果缺乏高質量觸覺反饋，精細操作就難以穩(wěn)定實現(xiàn)。正因如此，在具身智能的發(fā)展過程中，觸覺長期被視為關鍵短板之一。當前觸覺技術被列入國家 35 項“卡脖子”核心技術清單，與算力芯片并列產(chǎn)業(yè)兩大硬件瓶頸。戴盟選擇專注觸覺賽道，既是對自身技術長板的聚焦，更是對行業(yè)短板的戰(zhàn)略性補位。

這種路徑本質上是一種技術杠桿策略。如果只做一款機械手，所能覆蓋的應用場景是有限的；但若為數(shù)十甚至上百家企業(yè)提供觸覺解決方案，觸覺能力就可以嵌入到成千上萬臺設備中，進入更廣泛的工業(yè)、服務和特種等場景。相比單一產(chǎn)品，這種“底層能力賦能”模式所釋放的產(chǎn)業(yè)影響力與商業(yè)價值更具乘數(shù)效應。

從更宏觀的角度看，具身智能不會由單一企業(yè)垂直整合完成，而更可能沿著專業(yè)化分工的方向演進。算力、傳感、執(zhí)行機構、整機系統(tǒng)與應用場景將形成清晰的生態(tài)。我們希望在這一體系中，牢牢占據(jù)“觸覺底座”的關鍵生態(tài)位，成為不可替代的基礎能力提供者。

基于這一判斷，今年我們將以觸覺數(shù)據(jù)為核心切入口，構建從數(shù)據(jù)采集、模型訓練到應用部署的完整閉環(huán)體系。通過持續(xù)沉淀觸覺數(shù)據(jù)資產(chǎn)與算法能力，為具身智能提供穩(wěn)定、可擴展的觸覺基礎設施，讓機器人在真實世界中的操作能力向通用化邁進。

DeepTech：相比目前主流的三色光方案，戴盟堅持采用單色光路線，其底層邏輯是什么？

段江嘩：在我們創(chuàng)業(yè)之前，國際上最知名的方案來自 MIT 孵化的 GelSight 公司。他們用紅、綠、藍三色光照射硅膠表面，配合彩色相機捕捉接觸時微米級的光場變化，從而還原接觸區(qū)域的形貌和力學信息。這套方法在學術研究和紋理檢測中表現(xiàn)不錯，但十多年來始終沒能大規(guī)模落地工業(yè)場景。

而我們的系統(tǒng)用單色光源提供均勻照明，真正承載信息的是硅膠下方預設的一套高對比度編碼圖案。當物體接觸導致硅膠形變時，圖案隨之扭曲，黑白相機高速捕捉這一變化，再通過算法解算出力、紋理、滑動等多維感知信號。

這個看似簡單的改變，實際上繞開了三色光方案的多個硬傷。比如，RGB 系統(tǒng)出廠時需要精密標定三種光源的一致性，但 LED 在長期使用中光強會漂移，導致光場失配，時間一長，力估計或紋理重建就會不準，往往得重新校準。而單色光沒有顏色通道差異，光場極其穩(wěn)定，幾乎不需要維護標定。

同時，彩色相機數(shù)據(jù)量大、算力需求高，典型幀率只有 20–30 Hz，還容易發(fā)熱。我們用黑白相機，不僅數(shù)據(jù)量大幅降低，處理速度也能提升到 120 Hz 以上，滿足機器人實時控制的需求，整機功耗和溫升也顯著下降。

更重要的是工程可靠性。我們在硅膠材料和結構上做了大量迭代，把傳感器壽命從傳統(tǒng)方案的約 1,000 次循環(huán)提升到 500 萬次以上。加上單色光源和黑白相機都是成熟、低成本的工業(yè)元器件，整套系統(tǒng)更容易量產(chǎn)、更耐惡劣環(huán)境。

在性能上，我們的有效分辨率達到 384×288，無論正壓力還是切向力的感知精度，都明顯優(yōu)于現(xiàn)有三色光方案。

DeepTech：剛才提到硅膠材料，很多人第一反應可能是：它會不會容易磨損或老化？你們有沒有做過完整的生命周期測試？維護成本是否過高？

段江嘩：對觸覺傳感器而言，無論采用何種技術路線，使用壽命始終是行業(yè)共性難題。設備一旦故障，實驗即刻中斷，直接延誤研發(fā)進度。所以耐用性不是可選項，而是底線。

因此，我們在產(chǎn)品定義階段就建立了非常嚴苛的壽命測試體系。目前戴盟的視觸覺傳感器是全球首個通過 500 萬次按壓循環(huán)測試并獲得認證的產(chǎn)品。

我們也曾有過“讓軟體永遠不壞”的想法，但很快意識到，這在物理世界幾乎不可能實現(xiàn)。材料總會老化，形變累積到一定程度，性能就會隨之衰減。于是我們調整了思路，確保在預期壽命內穩(wěn)定可靠，超出壽命后的更換足夠簡單、足夠便宜。

實際上產(chǎn)品最易磨損的就是外層的硅膠接觸面。我們把它設計成標準化、可快速拆卸的模塊，成本很低——就像汽車的雨刮器，不用換整個電機，只換前面的膠條；也像醫(yī)用注射器，針頭用完就換，主體重復使用。

這個接觸層由硅膠和內部編碼圖案構成，制造工藝成熟，單件成本可控。更換時只需擰下幾顆螺絲，裝上新模塊即可，無需重新標定或復雜調試，因為圖案是一致的，系統(tǒng)能自動識別。

在實際部署中，客戶通常根據(jù)使用頻率制定維護計劃。很多工廠本來就有定期停機檢修的節(jié)奏，把觸覺模塊更換納入其中，幾乎不增加額外負擔。

DeepTech：對話開始我們提到純視覺方案，現(xiàn)在也有不少團隊在提升它的頻率和精度。如果未來純視覺在這些方面取得突破，觸覺傳感器是否還有存在的必要？你們怎么看？

段江嘩：在人類的感知系統(tǒng)里，視覺和觸覺從來不是互相替代的關系，而是互補的。舉個最簡單的例子：你從褲兜里掏手機或鑰匙，根本不需要低頭看——手一伸進去，靠觸覺就能準確找到并拿出來。這是因為口袋是封閉空間，視覺完全失效，只能依賴觸覺完成操作。

機器人也一樣。有些任務沒有觸覺就根本做不了，比如插拔精密接頭、對齊卡扣、擰緊微小螺絲——這些動作中，接觸力的細微變化決定了成敗，而視覺無法提供這種反饋。

還有一些任務，沒有觸覺也能做，但效率很低。比如折衣服：現(xiàn)在有些機器人能折，但動作慢、容易掉。因為它們只能等衣服真的滑落了，用攝像頭看到后才反應。而有了觸覺，系統(tǒng)能在衣服“即將滑落”的瞬間就感知到并調整夾力，效率和成功率都會大幅提升。所以，觸覺不是“有可無的補充”，而是在視覺受限、需要精細力控、或追求高效可靠操作的場景中，不可或缺的能力。

DeepTech：您是否認為未來還可能出現(xiàn)更好的技術？

段江嘩：技術演進肯定沒有終局，只能說商業(yè)落地存在“最優(yōu)解”。

從當前的工程實踐來看，視觸覺傳感器（Vision-based Tactile Sensor）無疑是綜合優(yōu)勢最明顯的路徑。它處于高信息密度、耐用性與量產(chǎn)成本之間的最佳平衡點，是目前構建觸覺智能、推動機器人從“演示”走向“實干”的首選方案。當然，我們也要始終對前沿技術保持敏銳的探索，但在可預見的周期內，視觸覺技術的工程優(yōu)勢我相信難以被撼動。

更重要的是，今年具身智能行業(yè)競爭邏輯正在發(fā)生質變。不再是單純比拼誰的技術點更“新”，而是比拼誰能構建完整、可復制的體系能力。觸覺感知正從過去的“錦上添花”變?yōu)椤爸悄軜伺洹保苯記Q定了機器人“能不能干活”以及“能不能干好活”。

因此，真正的勝負已不在于單一產(chǎn)品的參數(shù)之爭，而在于誰能率先跑通“物理世界數(shù)據(jù)感知—采集—學習—商業(yè)落地”的完整閉環(huán)。誰先完成這一閉環(huán)，誰就有機會定義下一階段的行業(yè)格局。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.