<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      機器人開可樂發(fā)撲克有多難?聊聊靈巧手的硬件與算法

      0
      分享至

      (點擊收聽本期音頻)


      采訪|泓君

      圖文|朱婕

      2026年,人形機器人將迎來規(guī)?;慨a(chǎn)的元年。最清晰的信號來自特斯拉,“金色擎天柱”O(jiān)ptimus Gen 3預(yù)計在2026年第一季度亮相,并計劃在年底前建成產(chǎn)能高達(dá)100萬臺的生產(chǎn)線。馬斯克曾多次表示,特斯拉未來約80%的價值來自這里,而非汽車。而“擎天柱”的攻關(guān)關(guān)鍵,正在于它的“手與前臂”。

      靈巧手,從驅(qū)動方案上可分為三大路徑,每一派都有各自的代表:

      【連桿方案】充分展現(xiàn)了機械設(shè)計的美感,但通常意味著低自由度,但也有以韓國ILDA為代表的高自由度靈巧手。

      【繩驅(qū)方案】優(yōu)勢是輕量化、自由度高、力量輸出穩(wěn)定。特斯拉的Optimus和在硅谷101 Alignment科技大會上表演開可樂罐的TetherIA靈巧手,都是繩驅(qū)方案中“單向拉繩”的代表選手;“雙向拉繩”的代表則有被譽為“靈巧手皇冠明珠”的Shadow Robot和ORCA Hand。但這類方案也臨著走線延伸、材料蠕變、裝配難度高等問題。

      【直驅(qū)方案】優(yōu)點在于方便精細(xì)控制。在行業(yè)展會上,Sharpa機器人憑著一雙電機直驅(qū)靈巧手驚艷了眾人,它一張一張地發(fā)撲克牌,拿著相機按下快門。劣勢則是抗沖擊力差,重量較大等。

      本期《硅谷101》,泓君邀請了靈巧手模型算法方面和硬件方面的兩位專家——來自的亞馬遜&前Meta機器人研究科學(xué)家齊浩之,TetherIA聯(lián)合創(chuàng)始人陶一偉,一起聊聊靈巧手的現(xiàn)狀,不同技術(shù)路線的特點,以及它在數(shù)據(jù)和算法上面臨的挑戰(zhàn)。

      嘉賓們認(rèn)為,對靈巧手頭部公司來說,短期內(nèi)針對單項任務(wù)打造成功一個的Demo并不難,真正的突破在于通用性與可擴展性。當(dāng)算法能讓機器人在短時間內(nèi)學(xué)會開可樂、開門、擰螺絲等多樣化的靈巧操作,才意味著靈巧手到達(dá)了類似ChatGPT的泛化突破階段。


      歡迎關(guān)注《硅谷101視頻號》的音頻欄接收聽本期播客。如 果 你喜歡我們的 節(jié)目,更推 薦大家使用 音頻客戶端來收聽,《硅谷101 》已覆蓋各大 主流音頻 平臺(渠道見文末),歡迎訂閱!

      以下是這次對話內(nèi)容的精選:

      01

      機器人靈巧手的能力與挑戰(zhàn)

      泓君:可能聽眾最迷惑,在很多Demo里,大家看到機器人可以去拿吸塵器、倒垃圾、燒水,甚至把盤子放在洗碗機里。我記得特斯拉有一年的發(fā)布會,擎天柱現(xiàn)場給大家倒酒,看起來這個手已經(jīng)是很智能了。所以可不可以概括一下,現(xiàn)在機器人的手它能做哪些場景?它到了一個什么樣的發(fā)展程度?

      齊浩之:好的,我會認(rèn)為,在遙操作的情況下,如果這個手的手指不需要很精細(xì)的動作,那它是一個比較簡單的問題,比如說擎天柱倒酒它就是把手放到出酒的那個把手上,往下壓,這個在控制上是比較簡單的。

      與此相對的是,比如說今天我們想讓一個機器人使用我們家庭里面的各種工具,比如說像螺絲刀、像剪刀這樣的東西,在這個過程中我們的手指需要更加精細(xì)靈巧的操作,在這種情況下它的操作就會變得很難。以及我們需要它適應(yīng)于千家萬戶不同的工具,這個難度就會呈指數(shù)級的上升。


      “擎天柱”(Optimus)展示倒酒 圖片來源:X

      泓君:你剛剛提到了一個詞是“精細(xì)運動”,還有一個我理解就是講它的“泛化能力”,就是把它放在不同的場景中,在這兩塊是還需要加強的。

      陶一偉:我稍微補充一點,剛才齊老師可能是從系統(tǒng)端的角度來講這個問題,我可能更多地是從硬件這方面去切入。一是把現(xiàn)有的硬件方案做得更可靠,就是說讓機器人能夠在真實的環(huán)境中不停地長時間穩(wěn)定的運行,并且和自然物體的交互,在長時間使用中不會損壞,這個事情實際上也沒有完全地去做到。

      并且這個硬件還是需要繼續(xù)地去迭代,比如增加它的自由度,增加它的觸覺傳感。在這個過程中,由于系統(tǒng)復(fù)雜性的增加,它的可靠性又變成了更大的挑戰(zhàn)。這也是從硬件端還需要我們?nèi)プ龅暮芏喙ぷ鳌?/p>

      泓君:我給聽眾一個更加形象的例子,今年我們的年會上,Evan是在現(xiàn)場用機器人表演了開可樂的。其實在彩排的時候,它是一個不穩(wěn)定的狀態(tài)。比如說當(dāng)時我也想去試讓這個機器人打開可樂,但是我隨意放了一個角度,這個時候可能需要機器人旋轉(zhuǎn)一下才能把這個可樂打開。旋轉(zhuǎn)一下這個動作,對機器人很難嗎?

      陶一偉:沒錯,這個是一個非常好的問題。首先開可樂本身,看似只要一雙手,再加上一個指甲就可以實現(xiàn),但是真正把它放到一個雙臂機器人系統(tǒng)上,還是非常有挑戰(zhàn)的工作,而我們也只是淺淺Demo了一下,未來還有非常多的工作,怎樣能讓整個事情變得完全自動地實現(xiàn)起來,并且成功率非常高地去實現(xiàn),還是一個很長的路要走。

      可樂怎么去對準(zhǔn)這個事,精度是一個方面的問題,還要感知到現(xiàn)在可樂的狀態(tài),以及,人可以實現(xiàn)用任意姿態(tài)去抓起這一罐可樂,然后在單手調(diào)整可樂的角度,去達(dá)到最完美的狀態(tài),再讓另一只手過來,又以一個最完美的狀態(tài)把它拉開。這個機器人還是需要一個過程,包括手的硬件設(shè)計、控制這些方面的能力。

      泓君:現(xiàn)在世界上有其他的公司,比如說它在自由度上做得更多的,他們能做到很好地去旋轉(zhuǎn)可樂,然后再把它打開嗎?

      陶一偉:我覺得一些比較頭部的公司去調(diào)整優(yōu)化一下他們的硬件,包括去更多地在這方面下一些工夫,也是可以實現(xiàn)這么一個Demo的。但是目前說讓它完全自主去做,我覺得可能還是沒有看到哪一家可以去做到。這個可能更多的我要看看齊老師的觀點。

      泓君:對對,齊老師還有論文是講用視覺跟觸覺做手內(nèi)旋轉(zhuǎn)的,應(yīng)該是這方面的專家了。

      齊浩之:我的看法是,現(xiàn)在大家有不同的宣傳策略,或者說他們的一些發(fā)展或者研究的側(cè)重點。比如說,對于像陶總這樣的硬件廠商,他們可能目標(biāo)是為了證明他們的硬件非常地好用,無論是從機械結(jié)構(gòu)上,或者說用它做的一些控制系統(tǒng)上,所以去展示一些很炫酷的Demo是非常好的。

      與此相對的,還有一些做靈巧手的算法,但是不做靈巧手硬件的公司,他們可能就會比較少的展示這樣方面的能力,而更多的是一種展示它的泛化性的能力。

      就正如陶總所說,如果我們只優(yōu)化這一個視頻,那有一些頭部的硬件廠商或者算法的研究院,他們可以做出來。但是從長遠(yuǎn)的角度來看,我們更應(yīng)該專注的是什么樣靈巧手的構(gòu)型是能夠適用于最多種類的任務(wù),以及對于算法的接口最好。


      圖片來源:Figure

      泓君:所以現(xiàn)在,浩之,根據(jù)你的研究,你覺得已經(jīng)有公司它能做到我隨意擺上去——我們不說任何環(huán)境、任何場景——我們就說這個可樂罐,它的瓶跟它的開口,不一定是正對著這個機器人的手的,它能把它打開的這樣的一些公司嗎?

      齊浩之:我覺得現(xiàn)在是沒有這樣的公司的。如果一個公司他們今天想要完成這個任務(wù),他們可能會從技術(shù)上花幾個月去做到這件事情,但是他們可能需要花費非常多的資源和非常多的時間,可能就是出于對他們本身公司路線的考量,他們不會去做這件事情本身,而更傾向做一些算法上的改進(jìn),讓他能夠縮短以后想要做這件事情的時間。

      泓君:就是他們不會針對單個的任務(wù)去做這種優(yōu)化,而是他是希望現(xiàn)在在優(yōu)化的方向是讓他適應(yīng)盡可能多的任務(wù),就是還是更加看重它的泛化性。

      齊浩之:是的。

      泓君:了解。如果照這個來說的話,我印象中之前Figure AI他們放了一些視頻出來,大概就是有機器人它能把盤子放進(jìn)洗碗機里。所以這個視頻它可能是拍很多次失敗挑出來的一些成功的案例?還是像你說的,它其實是通過遙操,它只是一個展示類的視頻,它并不代表機器人擁有這樣的一些能力?

      齊浩之:我覺得這里面沒有一個確定的信息源吧。但是我覺得就是現(xiàn)有的算法是可以做到在一個固定的場景下能比較容易地拍出這種視頻,比如說它整個任務(wù)的成功率可能有80%-90%,在這種情況下拍一個視頻,也是自主完成的,它的難度也沒有特別高。但是距離讓這種人形機器人走入千家萬戶,它可能差的是如何在每一個場景下都可以以100%的成功率去完成這些任務(wù)。比如說把盤子放到洗碗機里,很可能90%也是不夠的,因為有10個盤子,如果碎了一個,大家就不想用這個機器人了。所以可能需要改進(jìn)的就是成功率,以及老生常談的泛化性的問題。

      泓君:所以現(xiàn)在在靈巧手的問題上,大家關(guān)注的也還是泛化性。

      陶一偉:對,我這里也補充一下,實際上我們在每一個任務(wù)中還是要去細(xì)分地看它整體的難度。因為剛才泓君您提到裝洗碗碟和從洗碗機里往外拿,這個任務(wù)拆解下來,它主要是機器人拿起碗碟,打開洗碗機的門,然后放進(jìn)洗碗機的架,這幾個就像齊老師說的,做簡單的抓取物體,并且拉動一些拉桿,屬于相對比較簡單的任務(wù)。這個難度實際上跟剛才我們談到的開可樂還不是一個數(shù)量級。

      因為開可樂仔細(xì)去分析這個事情,它實際上是一個用左手或者右手把可樂從桌面上拿起來,調(diào)整好罐口方向,再用另外一只手從空氣中對準(zhǔn)之后,以一個合適的角度卡入拉環(huán),并且以一個合適的角度和力去打開這個可樂。并且在這個過程中,因為它是雙手對一個物體進(jìn)行同時操作,你的另外一只手要對抗這個拉可樂的力,對抗的過程中你又要怎么保證你的手指不會產(chǎn)生過大的力把這個易拉罐給捏爆?從整體機器人控制系統(tǒng)上來說,這是比收納碗碟難得非常多的一件事情。


      圖片來源:TetherIA

      泓君:所以大家覺得,現(xiàn)在如果我們綜合來說整個靈巧手它的瓶頸是在哪?它是整個機器人行業(yè)的問題,就比如說我們還是說這個模型的問題、泛化性的問題,還是說靈巧手它除了這個之外,它還是有很多它自己這個行業(yè)獨有的難題?

      陶一偉:靈巧手我們不能光看它是硬件的一個模塊,它能產(chǎn)生它的價值肯定是要配上至少一個雙臂的這么一個系統(tǒng)。這個雙臂的系統(tǒng)會形成一個最小可以用來工作的機器人。但是當(dāng)我們想要真正讓它泛化地去在一個環(huán)境里執(zhí)行任務(wù),你就會需要一個移動的底盤、移動的平臺。有了這樣移動的平臺,大家就會說輪式的是不是可以針對一些可能更復(fù)雜的路面情況,包括機器人的上下的運動?大家又會說,那可能還真的是一個全人形的更合適。所以說真正能讓靈巧手有價值,肯定不是簡簡單單一個硬件模塊可以去解決的事情。

      齊浩之:它的難點肯定是整個機器人到處都是難點。經(jīng)常也會有人問我做靈巧手最難的地方是什么?我認(rèn)為現(xiàn)在來看,硬件和軟件還會有一個很大的提升空間。

      從軟件層面來說,我的理解是一些比較成熟的在機械臂或者一些輪式機器人上面的算法,就是一些機器學(xué)習(xí)的算法,當(dāng)把它們直接應(yīng)用在靈巧手或者人形機器人這種更復(fù)雜系統(tǒng)的時候,它會出現(xiàn)一些之前沒有預(yù)料到的問題。比如說現(xiàn)在的靈巧手可能有四五個手指,然后每一個手指有各種各樣的關(guān)節(jié),每一個關(guān)節(jié)都可能與這個環(huán)境發(fā)生交互、與這個物體發(fā)生交互。那么怎么能在保證這些交互所產(chǎn)生的一些影響是對我們有利的?比如說我們今天想要抓一個物體,如果我們用一個夾爪去抓,我們只需要考慮兩個接觸點該怎么去觸碰這個物體?但是如果我們現(xiàn)在給了10個接觸點,那么這10個接觸點該怎么去分別地接觸這個物體?有的接觸點之間可能是互相對抗的作用,這種情況下在計算復(fù)雜度上就會顯著地變難。

      從硬件層面來說,我開始研究靈巧手可能是2021年、2022年,在那個時候是只有非常少的選擇,我們可以買到并且還可以用的靈巧手。在最近的一兩年,我們的靈巧手硬件,尤其是國內(nèi)廠商,還有美國這邊一些造硬件的公司都有了長足的進(jìn)步,所以我覺得這方面的瓶頸在逐漸地減少。但是我的預(yù)測是還需要幾輪的迭代,才能做到一個比如說大家現(xiàn)在能看到的宇樹機器人那樣,一個逐漸收斂的構(gòu)型。

      泓君:現(xiàn)在的靈巧手,市面上能買到的,大家的形狀、硬件都各不一樣,那你就要去根據(jù)這個硬件調(diào)配自己的軟件。

      齊浩之:嗯,就是以像人的靈巧手居多。但是每一家公司他們的技術(shù)路線都會有所不同,像陶總的公司應(yīng)該是繩驅(qū)的技術(shù)方案,也有一些公司是把電機放在靈巧手的手指上這種驅(qū)動方案。

      02

      盤點靈巧手硬件

      三大技術(shù)路徑

      泓君:其實說到技術(shù)路徑,就我知道現(xiàn)在業(yè)界比較流行的有幾種,一種是連桿驅(qū)動的,一種是繩驅(qū)的,繩驅(qū)還分單向繩驅(qū)跟雙向繩驅(qū),還有電機驅(qū)動的。要不要跟大家簡單地介紹一下,這些技術(shù)路線各自的優(yōu)劣勢是什么?現(xiàn)在業(yè)界的主流方向在向哪個方向發(fā)展?它有沒有收斂的趨勢?

      陶一偉:我先從硬件本身這個角度來談一下,之后可能麻煩齊老師再補充,從使用者的角度來看,到底哪一種是它更傾向的。

      首先我們先看三個主要的方式,一個就是連桿,另外一個繩驅(qū),最后一個就是直驅(qū)。

      連桿最早應(yīng)該是大家比較傳統(tǒng)意義上的那種假肢手,是采取這樣的一個結(jié)構(gòu)驅(qū)動方式,它通過底下驅(qū)動器,無論是直線的推桿、電缸,或者是用蝸輪蝸桿的方式產(chǎn)生一個旋轉(zhuǎn)運動,最后實現(xiàn)手指彎曲。

      這是屬于傳統(tǒng)意義上六自由度的低自由度靈巧手,它更多的是像手的一個形狀,但是它的手指的運動軌跡其實是相對還是比較低自由度的,它的指尖是跟隨一個固定的路線,是個一維的這么一個軌跡。大拇指它的設(shè)計也是它側(cè)擺之后直接正對應(yīng)食指或者中指之間,它也是通過這么一個固定軌跡的方式去合攏,所以說從使用的角度來說,它和夾爪相比,特點并沒有那么的明顯。這是低自由度連桿手的一個特點。

      泓君:低自由度靈巧手,六個自由度,差不多就是五個手指這樣合攏,然后還有一個自由度在哪?

      陶一偉:是大拇指的側(cè)面擺動。

      泓君:就是大拇指有兩個自由度,然后其他的手指各一個自由度。


      由韓國阿猶大學(xué)的智能機器人研究實驗室(IRLAB)設(shè)計并開源的ILDA靈巧手

      圖片來源:Iir LAB AJOU

      陶一偉:沒錯。連桿手實際上還有另外一條路線,也是高自由度的路線,就是之前韓國一篇論文叫ILDA,這篇論文的手基本上思路也是通過一個相對更復(fù)雜的連桿方式,把每個手指根部設(shè)計出三個主動的直線驅(qū)動器,然后通過也是比較復(fù)雜的連桿系統(tǒng),實現(xiàn)每個手指三個自由度的方式。這樣的手的確還是比較先進(jìn),但是它可能存在的問題是它的體積還是比較大,并且它的所有的零部件進(jìn)行剛性的連接,使用中缺少一些柔性。這個柔性不僅在抓握物體的過程中感覺并不是非常的柔順,并且它也會在碰撞的過程中相對來說更容易損壞一些。

      泓君:這是第一個,連桿驅(qū)動優(yōu)劣勢。

      陶一偉:然后我談一下第二個,直接驅(qū)動的這些方式。直驅(qū)的靈巧手其實是這一兩年才逐漸出現(xiàn)的這么一個方案。實際上現(xiàn)在電機驅(qū)動器也有很多的發(fā)展,把電機驅(qū)動器做得足夠小,使得這樣的直驅(qū)方案變得可行了。

      優(yōu)點是它的自由度可以做得非常高,它可以在每個關(guān)節(jié)排布一個驅(qū)動器,并且它從控制角度來說,因為關(guān)節(jié)和電機直接對應(yīng)的,是相對來說比較容易去做的。它的缺點可能更多的是一個貴。我覺得最終可能應(yīng)該成本也能往下走,但是它更多的一個點在于它把電機做得微小之后,它的減速比還是相對來說比較高,它大的減速比會使得整個的傳動透明性比較差一些。也是說它里面的齒輪、零部件都比較精密,也是在實際的應(yīng)用中可能壽命或者是抗沖擊能力會是它的一個問題。并且因為把他的電機所有的這些零件做得非常小型化,使得它的所有結(jié)構(gòu)都非常需要有高強度的金屬結(jié)構(gòu),這就使得整個手的系統(tǒng)的重量沒有辦法做得非常的小而輕。所以普遍直驅(qū)的靈巧手都是在將近一公斤或者一公斤以上,這個在機器人末端來說還是挺大的一個負(fù)載。

      泓君:一公斤的手那好重啊,這設(shè)計平衡都是一個問題。

      陶一偉:的確,對,這些是它的一些問題,還有一些就是包括剛才提到的可靠性、易維護(hù)性,這可能我們還是看一看這個方面的發(fā)展。


      圖片來源:Sharpa

      泓君:所以它現(xiàn)在算是業(yè)界里面從靈活度來說是做得比較高的這樣的一種靈巧手,就是也可以理解成它是能完成更多的精細(xì)運動跟復(fù)雜動作的類型。因為之前是有人跟我推薦過,說我們應(yīng)該去聊一聊Sharpa這家公司,就覺得它做得還挺好的,他們好像就用的這種電機直驅(qū)的方式。

      陶一偉:沒錯沒錯,他們做得真的是非常的驚艷。它的產(chǎn)品的完成度非常高,感覺它集成的很好,整個工業(yè)設(shè)計還非常不錯,它每個關(guān)節(jié)有獨立的電機,使得它的整個真的是非常靈活。

      泓君:它能做到哪些其他靈巧手做不到的工作?

      齊浩之:我覺得從展示這個視頻的角度來說,他們可能做了一些,比如說用相機拍照,比如說有一個雙臂靈巧手的系統(tǒng)給大家發(fā)撲克牌,這個會比較難,因為比如說我們想象一疊撲克牌的時候,兩張牌之間它的間隔很小,當(dāng)我們自己人手發(fā)牌的時候,我們需要控制一個比較精確的力,才能把這個牌從這個牌堆上面拿出來,然后再給大家。如果說碰牌的點不是很準(zhǔn),或者是力太大,很容易一下發(fā)很多張牌,或者把牌堆給打散,所以他們做的這個視頻還是相當(dāng)驚艷。

      泓君:嗯,就是如果要一張牌一張牌地發(fā),對手部精細(xì)度的要求還是比較高的。對,這個是直驅(qū)的方案。然后還有一種應(yīng)該是Evan你這邊比較熟悉的,就是拉繩跟繩驅(qū)的這種方案。

      陶一偉:對的,繩驅(qū)的方案其實現(xiàn)在市面上幾家主流的公司方案的話也主要分兩種,一個是雙向拉繩的方案,一個是單向拉繩的方案。雙向拉繩的主要以最早的我們可能都聽說過,靈巧手的皇冠的明珠吧,Shadow Hand他們的一個產(chǎn)品,是一個15萬美金的天價產(chǎn)品,超高26個自由度的靈巧手。他們的方案就是在每個關(guān)節(jié)用兩根繩同時連到旋轉(zhuǎn)電機的兩個方向上,使得旋轉(zhuǎn)電機向順時針轉(zhuǎn)就是彎曲,逆時針轉(zhuǎn)就是伸直,是這樣的一個思路。


      圖片來源:Shadow Robot

      還有比較類似的另外一款目前開源的手叫ORCA Hand,是蘇黎世理工做出來的,他們這個也是非常不錯的一款雙向拉繩開源的靈巧手方案。這樣的靈巧手比較大的難度在于一個雙向拉繩、一個張緊問題。因為當(dāng)你一個旋轉(zhuǎn)軸去控制末端的另外一個旋轉(zhuǎn)軸的時候,它需要兩側(cè)繩的長度長時間保持不變,因為繩在使用的過程中材料會產(chǎn)生蠕變,這個蠕變一旦發(fā)生就會有一個松動的現(xiàn)象發(fā)生,這個松動的現(xiàn)象使得系統(tǒng)的精度降低,并且比較難以控制。

      從解決的角度來說,ORCA Hand有一個比較聰明的方式,一個精妙的設(shè)計,就是在它驅(qū)動器上用了一系列的棘輪機構(gòu),使得你可以輕松地去張緊這個繩。但是這個問題也是在于你還是要在使用過程中時不時要去調(diào)整一下這個東西,這是這個方案比較大的一個難度。


      ORCA Hand中的棘輪機構(gòu) 圖片來源:ORCA

      還有一點就是,這種高自由度靈巧手,其實繩子本身雖然不占太多的體積,但是繩驅(qū)設(shè)計的走線,在機械設(shè)計中它對空間的利用率實際上非常低它不像是你設(shè)計齒輪或者設(shè)計其他類似的方案,你可以說很緊密地把電機排布在一起。你要去考慮到整個繩的走線,然后整個關(guān)節(jié)運動中繩的一個范圍變化,一個非常動態(tài)的事情。所以使得高自由度靈巧手,尤其是繩驅(qū)方案,很少有能夠全部做在手掌內(nèi)的,這就使得它的驅(qū)動器都要往手腕以下去延伸。像Shadow Hand和ORCA Hand,以及特斯拉。實際上我們國內(nèi)有一家公司源升智能,他們做的繩驅(qū)方案是把驅(qū)動器全部整合在手掌內(nèi),但是這樣也的確使得他們手掌的體積稍微還是比較大的。

      泓君:特斯拉是哪種方案?

      陶一偉:特斯拉是單向拉繩的方案。然后就說到單向拉繩,這也是一個主流的方案。單向拉繩好處就是說,對于腱繩材料的蠕變它不是那么的敏感,它可以通過算法的方式相對容易地去克服這個事情。但它的缺點就是說它的伸直運動是沒有主動的力,相當(dāng)于是靠彈簧去實現(xiàn)伸直。這個彈簧伸直的過程中,一是這個力相對來說還是比較小的,如果你想要盡量去優(yōu)化你的抓握力的話,因為你在抓握過程中實際上是跟你的彈簧力一個對抗,你有更強的伸展力,你就浪費掉你的抓握力。但是有的時候人在一些精細(xì)的操作,人用手的過程中,反向地推這樣的力,的確也會有它的作用,但是現(xiàn)在這個階段我們還是在解決抓握的事情。

      泓君:就沒有想到張開的事情,是吧?

      陶一偉:對,張開的的確還用得并不是那么多。反向推,你可以想象你如果去閉著眼睛在你的書包里掏一些東西,你可能需要把其他東西撥開。這個的確是需要一個推的動作,但是更多的還是要整手的觸覺,這個確實是非常難的一個問題了,現(xiàn)在大家都沒有去考慮這個事情。

      泓君:對,那業(yè)界現(xiàn)在大家在向哪幾個方向收斂呢?

      陶一偉:從我看來,硬件上業(yè)界現(xiàn)在主要是朝著直驅(qū)和單向拉繩這個方向去收斂,包括特斯拉還有我們都是這樣的一個方式。直驅(qū)的話也是非常驚艷的,連桿的手可能相對高自由度的做的公司會少一些。

      泓君:Figure AI他們用的是什么方案?還有Physical Intelligence。

      陶一偉:Figure AI,我簡單看了一下他們的專利,它可能是一個六自由度的,或許是連桿,或者是其他的一些方案的一個手。


      圖片來源:Figure

      泓君:浩之有什么補充的?講講你作為使用者的體驗。

      齊浩之:我自己是用過連桿和直驅(qū)電機的這兩種,我確實沒有用過繩驅(qū)動的手。

      我們現(xiàn)在去做“機器人+AI”,大概有兩種比較主流的方式。第一種方式就是先用遙操作采數(shù)據(jù),然后去訓(xùn)練一個神經(jīng)網(wǎng)絡(luò)去完成某些任務(wù)。在這種情況下,比較經(jīng)典的代表可能是Aloha,還有像Physical Intelligence的這條路徑。

      另外一條比較主流的路徑是在一個物理的模擬器中,去用強化學(xué)習(xí)去訓(xùn)練這么一個網(wǎng)絡(luò),就直接把這個網(wǎng)絡(luò)從仿真器里面遷移到真實世界。比較成功的案例就是基本上所有大家看到的四足機器人、雙足機器人跳舞、走路都是走的這條技術(shù)方案。

      靈巧手的話,任何一種方案在現(xiàn)在這個時間點都有它的缺陷。但是其中的這套從仿真器中訓(xùn)練一個網(wǎng)絡(luò),再遷移到真實世界也是非常流行的。所以這個就有一個問題,就是我們在選擇靈巧手的時候會去衡量它有多容易被仿真。之前我們比如說比較連桿的手以及直驅(qū)的手,我們會覺得直驅(qū)的手相比于連桿的手,會容易仿真很多,所以在我們做一些需要高自由度,需要一些用強化學(xué)習(xí)才能學(xué)到的這種靈巧操作的時候,就會選擇用直驅(qū)的這個手。在之前這種直驅(qū)的手,就像剛才Evan說的,它最大的缺陷是當(dāng)時的電機非常大,也是在最近幾年這個電機才做得越來越小,比如說Sharpa。

      當(dāng)時我們覺得Sharpa驚艷的另外一個原因就是說,在Sharpa之前,跟人手差不多大小的這種機器人的手,它一般都是要么是連桿驅(qū)動,要么是繩驅(qū),對于我們想做的這個技術(shù)路線不太適用。所以當(dāng)時我們覺得它既有人類的大小,然后又是電機驅(qū)動的,就是很適用于我們做這方面的研究。


      圖片來源:Sharpa

      泓君:所以我覺得挺有意思的,就是如果用仿真的方式去研究靈巧手的話,其實你首先需要這個手長得跟人類的手一樣,甚至你的自由度、你的關(guān)節(jié)數(shù)有多少要跟人類的手越接近越好。剛剛大家提到Sharpa的手,我看它的價格好像是10萬美元一只。還有Evan你剛剛提到Shadow Hand的那個手,它是15萬美元。誰在買這些這么貴的靈巧手?都是科研機構(gòu)跟大公司的研發(fā)部門嗎?

      齊浩之:Sharpa應(yīng)該是5萬一只。

      泓君:5萬一只,10萬兩只,它會按對賣嗎?

      齊浩之:應(yīng)該是可以按對賣的。我的理解是,首先這些廠商他們不會靠賣這個硬件去盈利,至少在此時此刻,因為他們還遠(yuǎn)遠(yuǎn)沒有到量產(chǎn)的那個階段。他們現(xiàn)在對于這個公司最重要的可能是先確定他們現(xiàn)在這個構(gòu)型哪里還值得被優(yōu)化,接下來再去往一個正確的方向繼續(xù)迭代。這樣的迭代可能還有很多很多輪。他們的這個價錢很多時候我個人的理解可能是有一些篩選作用在的,就是他們只想給那些真正對他們的硬件有一個很強烈的需求的人,可能是大廠,或者是一些來自于政府資助的高校。舉一個例子,當(dāng)時Shadow Hand的一個主要客戶就是17、18年的OpenAI,他們當(dāng)時做靈巧手轉(zhuǎn)魔方,他沒有足夠的財力去支持他們做這樣的工作。

      泓君:挺有意思的。我理解,其實他們現(xiàn)在也不是靠賣硬件賺錢,還是希望能把這條路跑通。他們其實也是希望能夠吸引在上面的開發(fā)者,然后把整個生態(tài)搭起來,讓更多的人去用到他們?nèi)ジ倪M(jìn)這個方案。

      齊浩之:嗯,我是這么理解的。Evan可以從硬件從業(yè)者的角度來討論一下。

      陶一偉:或者從我的創(chuàng)業(yè)者的角度來討論一下這個事吧。我們公司的商業(yè)模式可能還跟他略有不同。因為就像剛才齊老師說的,這些機構(gòu)是一個走高端學(xué)術(shù)路線,包括篩選精品客戶的角度來做這個事情。

      的確,像現(xiàn)在泓君您看到很多Demo在應(yīng)用場景中似乎已經(jīng)是可以落地。而我們思路是做一款穩(wěn)定可靠、價格更低,能讓真正地做應(yīng)用端的客戶能夠很快地去部署的這么一個產(chǎn)品。可能我的自由度,包括整個的性能,包括觸覺沒有那么的高級,但是我們會去做一款這樣的產(chǎn)品。這樣使得大家可以在落地的過程中逐漸建立起這個生態(tài),然后幫我們更多地獲得和客戶的反饋。這是我們從創(chuàng)業(yè)公司的角度來說,我們的一個策略。價格比較便宜的靈巧手并不代表沒有技術(shù)含量,也并不代表它沒有商業(yè)價值。

      03

      特斯拉靈巧手研發(fā)故事

      泓君:Evan,其實你進(jìn)特斯拉的時候應(yīng)該是在兩年多以前,2023年7月份,對吧?正好是特斯拉Optimus手的研發(fā),你要不要跟大家簡單介紹一下它整個的手是怎么演進(jìn)的?

      陶一偉:沒問題。其實是最早我加入的時候,當(dāng)時做手的團隊,我們整個Optimus做機械硬件的團隊?wèi)?yīng)該大概是十幾個人這么一個團隊。我和另外一個人主要是負(fù)責(zé)這個手的項目。實際上外界現(xiàn)在也不是很清楚當(dāng)時那一代手是個什么樣的方案。它是個蝸輪蝸桿繩驅(qū)方案,六個主動自由度,十一個全關(guān)節(jié),這么一個欠驅(qū)動靈巧手。

      當(dāng)時在內(nèi)部,我們已經(jīng)是迭代到了第三代。我當(dāng)時加入的時候最主要的一個升級就是增加靈巧手的關(guān)節(jié)編碼器,就是怎么能夠捕捉到靈巧手在空間中的位姿,另外一個是增加它的觸覺。

      雖然這兩個工作似乎只是電路上的升級,但是從整個系統(tǒng)設(shè)計的角度,因為有了這些新的功能的加入,整個靈巧手當(dāng)時沿用第一代的構(gòu)型,就使得裝配過程中非常困難。

      我剛進(jìn)去的第一個星期的任務(wù),就是帶領(lǐng)生產(chǎn)團隊親手去組裝這個剛設(shè)計好的第三代靈巧手。的確是個非常痛苦的過程??赡芤粋€手我們從早裝到晚也裝不出來。從沒有搞機械的角度來說可能很難理解,就是你每一個工序可能都要花一兩個小時在那里慢慢地做,這個實際上就是一個硬件構(gòu)型設(shè)計上還不完善的地方。

      泓君:就是Tesla自己做的,他也沒有用其他的硬件的方案,就相當(dāng)于他全部是自己設(shè)計、自己研發(fā),然后你來正好就是趕上要自己組裝這個事情。

      陶一偉:沒錯。馬斯克實際上當(dāng)時看到的那個第三代的手他沒有特別滿意,因為是從外形的設(shè)計包括各方面還是更多的有點像實驗室的樣機這么一個狀態(tài)。

      泓君:他想要什么樣的?他是對外形不滿意?還是對里面的技術(shù)方案不滿意?

      陶一偉:馬斯克看到的是一個外形、一個是產(chǎn)能。外形他覺得不是很滿意,另外一個產(chǎn)能當(dāng)時可能一天只能組裝一兩臺,就這樣的產(chǎn)能太差。

      泓君:所以他其實當(dāng)時可能在質(zhì)疑整個的這個設(shè)計環(huán)節(jié),就是從外形到這個方案是不是好落地?

      陶一偉:是的,所以這就是我當(dāng)時進(jìn)去的時候第一個任務(wù)就是帶領(lǐng)整個項目把它的手重新設(shè)計一遍,和工業(yè)設(shè)計很緊密地去合作,整個把它的結(jié)構(gòu)從里外重新的架構(gòu)調(diào)整了一下,包括很多的設(shè)計細(xì)節(jié)也是我們獨創(chuàng)的。這是我們做出來的一個我們內(nèi)部叫3.1代的手,但對外就是我們所有目前看到的裝機,還是大規(guī)模裝機,一直到現(xiàn)在用的這款手。


      圖片來源:Tesla

      泓君:改進(jìn)以后,現(xiàn)在裝一只手要多久?

      陶一偉:離開的時候,我記得是一個星期要一百多臺,是我們的技術(shù)工人在現(xiàn)場裝,自己有條產(chǎn)線。從我們工程師的角度來說,我們肯定先要自己先做一遍,先要走一遍這個流程之后才能交給工人去做。

      泓君:那馬斯克對靈巧手的這個問題上,提出過哪些他的想法?

      陶一偉:馬斯克他是非常堅信第一性原理,所以說他的很多的指導(dǎo)也是從這個角度來的,包括去做仿生這樣的事情。

      泓君:仿生的問題上,就我知道特斯拉內(nèi)部你們其實是做過人體的分析,去看人體是怎么感知力的,就是人的手他是怎么工作的。

      陶一偉:沒錯,首先我們是看了很多生物解剖上面的學(xué)術(shù)論文,學(xué)習(xí)了人的肌腱的運動的發(fā)力的方式。還有甚至一個小小的故事,就是說我們其中有一個伙伴的媽媽是一個手部的外科醫(yī)生,我們也正好有這么一個機會去到現(xiàn)場觀察真的人手的結(jié)構(gòu),當(dāng)時這個經(jīng)歷還是很有趣的。

      泓君:然后你剛剛提到其實你們有看過很多生物學(xué)的論文,你從中獲得的最大的一個啟發(fā)是什么?或者說整個特斯拉他從人體的工作里面得到的啟發(fā)是什么?

      陶一偉:其實特斯拉從上一代,到未來馬上要發(fā)的這一代手,最大的一個變化就是把驅(qū)動器從手掌內(nèi)移到小臂,這個也是借鑒了一部分人的設(shè)計,因為人的手指的彎曲的驅(qū)動的肌肉是在小臂上的存在。

      泓君:不是在手掌內(nèi),是在小臂上。

      陶一偉:其實是都有,所以說這也是我們自己方案和特斯拉有一些差異的點。它的小臂控制更多的是一個大的抓握力的肌肉,你可以這樣理解,因為它的肌肉還是比較大的。手掌內(nèi)分布的肌肉更多的是控制手的一個靈巧的精細(xì)化的操作運動。

      齊浩之:我有一個比較好奇的問題,剛才二位也提到了裝配一個繩驅(qū)的靈巧手可能要花的時間非常多,而且要非常專業(yè)的人去做。我比較好奇的是,這會不會使它的產(chǎn)能相比直驅(qū)的靈巧手有一個比較大的區(qū)別?

      陶一偉:是的,我認(rèn)為是這樣的,直驅(qū)靈巧手因為作為可能更像傳統(tǒng)意義上的機械結(jié)構(gòu),包括機器人系統(tǒng),它通過傳統(tǒng)的一些比較成熟的機械的工藝的方式,可以實現(xiàn)比較容易的裝配,你可以通過擰螺絲或者是焊接的這種方式去組裝,這樣的方式都是已經(jīng)比較成熟的方式,它既能保證精度,也可以保證整個效率。

      但是繩驅(qū),因為腱繩的方案,傳統(tǒng)意義上這方面的整合的事情就做得不是那么多,所以說這方面是需要整個行業(yè)去推進(jìn)的一個事情,包括腱繩怎么兩端固定的驅(qū)動器和末端的執(zhí)行元件的連接,既能保證它生產(chǎn)速度,同時保證它的精度,這個事情大家還是在探索的過程中。但是這個事情最終還是一個工程的問題,它并不是一個基礎(chǔ)的科學(xué)問題。所以說隨著整個行業(yè)的推進(jìn),我們認(rèn)為這個事情最終是能被克服的。

      04

      揭秘靈巧手“數(shù)據(jù)金字塔”

      泓君:我們剛剛聊了很多跟靈巧手的硬件相關(guān)的問題,那接下來我們可以聊一聊算法層面的,就是浩之你這邊主要在研究的。

      齊浩之:在過去的幾個月里面,我主要研究的是如何從一些人類的視頻中學(xué)習(xí)這些靈巧操作的技能。

      現(xiàn)在大家可能比較了解的是應(yīng)用一些遙操作的方式。遙操作就是現(xiàn)在我們有一個操作員,他可以戴一些動作捕捉的手套或者一些動作捕捉的衣服,然后把這些人的動作映射到機器人的手上。但是這樣其實可能有一些缺陷,第一個缺陷就是說每一個操作員都要適配一臺機器人,那么如果我們想要把機器手操作的數(shù)據(jù)一直把它推廣到像有語言數(shù)據(jù)那么多,是非常困難的,因為沒有那么多機器人以及產(chǎn)能不夠。

      所以另外一條路就是說我們能不能根據(jù)一些現(xiàn)有的數(shù)據(jù),比如說有很多視頻是包括人去錄制自己如何做飯、如何去清理家務(wù),有一些手的動作,我們就想要研究能不能通過讓機器人觀看這些手的動作,然后讓它自己就學(xué)會了這些技能。

      泓君:現(xiàn)在表現(xiàn)怎么樣?

      齊浩之:現(xiàn)在我會把它歸類為還在研究的階段。如果我們的目標(biāo)是想要達(dá)到一個最好的效果,那么肯定是直接用遙操作的方式去采集機器人本身的數(shù)據(jù)會是最好的。但是因為現(xiàn)在我們還沒有把從人類視頻中學(xué)習(xí)數(shù)據(jù)的這個樣本數(shù)目推廣到足夠多。我相信從長遠(yuǎn)來看,這條路徑很有可能會取代遙操作。

      泓君:我覺得挺有意思的,而且我注意到之前1X它還發(fā)了一個機器人Neo,這個Neo它是可以進(jìn)家庭,可以幫你做一些基礎(chǔ)的家務(wù)的,但是很可怕的是大家是以出賣隱私的方式去讓這個機器人工作的,因為每個機器人后面有一個遙操的人在控制這個機器人。那我理解,其實這也是他們自己收集數(shù)據(jù)的一種方式。


      Neo演示廣告片 圖片來源:1X

      齊浩之:對,沒錯,就是我的理解是現(xiàn)在還沒有一家公司能夠把機器人賣到用戶的家里,完成他們想要做的任務(wù)。所以1X相當(dāng)于是一種有點像特斯拉在自動駕駛上面的策略,先把車賣給用戶,用戶去開這個車,開這個車的同時就采集到了數(shù)據(jù)。只不過是人形機器人的話,用戶自己并不能操作這個人形機器人,所以就有一個他們自己的操作員去操作這個機器人。當(dāng)然他涉及到的一些隱私問題、一些道德層面上的問題,其實都是需要更多地被討論。

      泓君:你剛剛提到,你2021年~2022年開始去做機器人的這些部分的,那個時候其實GPT3已經(jīng)出來了,但是能不能用端到端的方式去訓(xùn)練機器人跟靈巧手,我覺得在那個時候它還不是市場的一個主流方向,那時候大家研究機器人的一些主要的方向在哪里呢?

      齊浩之:我會認(rèn)為那個時候大家研究的機器人主要是想讓機器人在某一個任務(wù)上,在有限的泛化性的要求下去完成這個任務(wù)。因為那個時候硬件也不是很多,能做靈巧手科研的課題組也不是很多,靈巧手這個問題本身大家也沒有很想做。特斯拉宣布做人形機器人之后,整個人形機器人行業(yè)和這個靈巧手行業(yè)迎來了一波爆發(fā),大家才逐漸開始做這個方面。

      然后在后來最近的幾年,就有越來越多的人試圖用GPT的研究方式去做一些端到端的模型,包括在一些比較簡單的機器人本體上也做得還行,就是也有了一些初步的驗證結(jié)果,比如說Physical Intelligence,他們就用很大規(guī)模的數(shù)據(jù)加上遙操作去展示了這個機器人有很強的能力。但是對于靈巧手的話,有一個更難的地方,就是靈巧手采集數(shù)據(jù)會比其他機器人采集數(shù)據(jù)要難很多。


      圖片來源:TetherIA

      泓君:你是說手部的數(shù)據(jù)?

      齊浩之:對。所以即使我們有操作員不停地一直在采集數(shù)據(jù),距離到GPT那個等級的數(shù)據(jù),或者說Physical Intelligence那個等級的數(shù)據(jù)還不是一個非常簡單的任務(wù)。

      泓君:我上次其實有跟他們的研究員聊,他們π0.5好像是說1萬多個小時的數(shù)據(jù),對吧?就1萬多個小時已經(jīng)算整個機器人行業(yè)最大的真實數(shù)據(jù)集,當(dāng)然這個是高質(zhì)量的數(shù)據(jù)。

      齊浩之:對,肯定有很多公司在收集數(shù)據(jù)的過程中,他們所產(chǎn)生的數(shù)據(jù)遠(yuǎn)超1萬個小時。但是還有一個問題就是在于什么樣的數(shù)據(jù),對于訓(xùn)練機器人來說是有用的。

      泓君:我們聊一下你的研究,我知道你在研究用視覺跟觸覺去做比如說手內(nèi)旋轉(zhuǎn),或者是用兩只多手指去學(xué)習(xí)一些復(fù)雜操作的。整體上你的工作其實是證明觸覺帶來的提升,就你能不能簡單跟大家解釋一下,為什么機器人它要有觸覺?加進(jìn)去了以后機器人多了哪些能力?

      齊浩之:我覺得機器人有觸覺其實是有幾個方面的好處。我之前做過一個比較有趣的實驗。在美國這邊可以買到那些有一些麻醉凝膠,像牙醫(yī)做一些小手術(shù),會把那些麻醉凝膠放到牙齦上,我當(dāng)時就把一些麻醉凝膠放到我的手上,這個是完全無害的,只是有一些時間讓你感覺不到一些東西,然后我就去試圖在這種情況下去做一些操作,很多時候這個操作也可以被完成,但是就會感覺它做得很慢,因為實際上我是要用我的眼睛仔細(xì)地去看我的手到底有沒有接觸到,我想比如說拿一根鉛筆,或者說拿一個板擦這種東西。

      所以我覺得首先有觸覺,當(dāng)你的手指和物體交互的時候,它能給到更精確的信息。比如說我們現(xiàn)在想象一個人形機器人,它去進(jìn)行一些操作,它的手可能拿到了一個東西,這個時候這個視覺一定是很難看到它到底有沒有拿到東西了,因為手把這個接觸點擋住了,所以天然地來說在這種情況下觸覺會更有用。

      泓君:所以觸覺就是加傳感器,對不對?

      齊浩之:對。另外一個非常有用的點是說,它可以控制力的大小。比如說回到最初我們提到的開可樂瓶的例子,剛才Evan提到我們需要一個手用足夠多控制住這個可樂瓶的力,但是又不能把它捏爆,另一只手可能就需要去拉可樂瓶的拉環(huán),然后這個拉環(huán)當(dāng)然也是要有一定的角度,就是使力的角度要非常的精確,不然很可能把這個拉環(huán)拉斷了,但是可樂瓶還沒有開。在這種情況下去感知你操作時候它所用的力也是非常重要的,這樣感知力最好的方式就是通過一些觸覺的傳感器。

      泓君:所以觸覺的傳感器,它是不僅僅能感知到我摸到了這個物體,它還是能感知力的。感知力這個是怎么做到的?

      齊浩之:現(xiàn)在的有各種技術(shù)方案,我可能就簡單說兩三種。比如說我們可以把一些壓感傳感器放到手指尖上,然后這個壓感傳感器大概就是說當(dāng)外界給一定的壓力的時候,這個電路會產(chǎn)生不一樣的電流,然后根據(jù)這個電流的大小來判斷這個壓力有多大。

      另外的一些方案,就比如說,有一種叫視觸覺傳感器。比如說我們現(xiàn)在有一個手指,我們就在手指內(nèi)部加了一個另外的相機,這個相機會往外看,它會有一些材料能夠當(dāng)手指進(jìn)行接觸的時候產(chǎn)生一些形變,相機就會捕捉到這些形變。當(dāng)它捕捉到這些形變之后,就可以反向地推斷出外界的力是從哪個方向來的,是有多大的力,把這些信息放到一些視覺處理器或者一些神經(jīng)網(wǎng)絡(luò)中就可以得到我們想要的觸覺信號。

      陶一偉:對,我可以稍微再補充一點,關(guān)于觸覺,剛才齊老師說的主要是在手指或者手表面覆蓋的這樣的一些觸覺傳感器,實際上從我們跟客戶的交流過程中,另一部分客戶比較在意的靈巧手的力反饋信息,其實也是來自于驅(qū)動器的一個電流的大小。就是說驅(qū)動器到底用多大的力來拉動這個手指,這個也是另外一部分比較重要的力反饋信息。這個其實和人類的感知系統(tǒng)也比較類似,因為當(dāng)人類去抓握物體或者操作物體的時候,人的皮膚表面是有一層的觸覺信號,還有另外一層是來自于你的肌肉收縮的感知能力。

      泓君:我覺得挺有意思的,就是我聊了這么多,其實有一個感受是我們之所以把機器設(shè)計得這么復(fù)雜,是因為我們對人體跟我們自身一無所知。

      陶一偉:沒錯。

      齊浩之:我覺得剛才Evan補充得非常好,就是繩驅(qū)這條技術(shù)路線一個很大的優(yōu)勢就是在于它可以比較容易地實現(xiàn)力控,因為它可以通過收縮這個力的大小來達(dá)到這一點。

      泓君:你覺得像你這樣的一個研究科學(xué)家大概一天能收集多少這種遙操的力的數(shù)據(jù)呢?

      齊浩之:這個其實很取決于我想要什么樣的任務(wù)。假如說我現(xiàn)在最簡單的用這個手去抓取一個東西放到另外一個地方,這個其實可以收集很多,只要我不累,我就可以一直以很高的成功率收集這樣的數(shù)據(jù)。

      但是比如說一些更難的任務(wù),比如說我現(xiàn)在要去遙操作一個機器人去用剪子剪窗花或者折紙這種,即使是收集一條都非常難。這個也是我們在做算法的時候,想要去解決的一些任務(wù),就是這種很難去采集數(shù)據(jù)的任務(wù),能不能用一些其他的算法上的突破去解決?

      泓君:所以現(xiàn)在大家主流的方案是跟著視頻學(xué)。

      齊浩之:對,大家現(xiàn)在有不同的探索路徑,視頻是其中一條很多人在研究的路徑。還有就是用模擬器作為路徑。還有一種就有點像最近出的Sunday和Generalist,就是用一些特定的設(shè)備去采這樣的數(shù)據(jù),然后把它轉(zhuǎn)化成機器人可以用的數(shù)據(jù)。


      圖片來源:Sunday Robotics

      泓君:這個其實是從數(shù)據(jù)不同的收集方式來訓(xùn)練模型的角度去考慮的。我們說遙操它的數(shù)據(jù)量小,但是它的數(shù)據(jù)質(zhì)量非常高,視頻的數(shù)據(jù)可能缺乏了很多比如說力的這些信息,但是它的優(yōu)點是多,哪一種效果是好的?就是現(xiàn)在這個事情業(yè)內(nèi)有共識嗎?

      齊浩之:如果對于一個公司來說,他們還是用遙操作的比較多,因為他們需要追求絕對的效果。用視頻數(shù)據(jù)很多人在研究,但是我覺得它是一種研究的階段,包括特斯拉最近也發(fā)布了他們用人類視頻學(xué)到的一些操作的視頻,但是我覺得從絕對的能力來說還是不如遙操作的。之所以在這種情況下還要研究視頻,是因為大家相信可能在未來的幾個月或者一年或者更久,當(dāng)視頻的量積累到了一定程度之后,它的能力可以超過遙操作。但是應(yīng)該不是此時此刻。

      泓君:可能它追求的東西是不太一樣的,精確性就是還是需要遙操的數(shù)據(jù),泛化性可能視頻也很重要,我不知道我的總結(jié)對不對。

      齊浩之:對,我覺得可以這么理解,不同的數(shù)據(jù)它有不同的特征,有的數(shù)據(jù)就是能讓你得到一個比較快的能力上的提升,但是它比較難采集,然后有一些數(shù)據(jù)是很容易采集,但是大家如何最好地利用它也沒有一個定論。

      我們業(yè)界研究的時候會有一個金字塔這樣的模型,比如說遙操作,它就在金字塔尖,它的量比較少,但是很有用,視頻的數(shù)據(jù)可能就在金字塔的底座,就是它非常的多,但是它并不是最能夠提升機器人效果的這一個數(shù)據(jù)。

      中間部分有各種各樣,比如說有機器,比如說有仿真。

      泓君:對,我記得之前我有在一個活動上跟很多像DeepMind、OpenAI的這些科學(xué)家也討論過,問大家什么樣是他們喜歡的方式。那天正好其實是Genie3這個世界模型剛出來,我發(fā)現(xiàn)大家分成兩派截然相反的看法,一派是覺得Genie3對整個的機器人行業(yè)幫助不大,不是一個很重要的事情。但另一派就會覺得這個事情很重要,它可以幫助訓(xùn)練機器人。

      齊浩之:我覺得從做研究的角度來看,我肯定是覺得這種新的基礎(chǔ)模型肯定是有幫助的,只是我們需要找到方式最好地利用它。說它完全沒用,肯定有失偏頗,但是我覺得說它我們只需要去訓(xùn)練一個很大的視頻生成模型,它就能解決機器人,其實也是不現(xiàn)實的,因為很簡單的道理就是現(xiàn)在的視頻生成還沒有完全解決它的物理的真實性。

      雖然我們每年都看到它在物理層面上有越來越多的進(jìn)步。但是我想我之前比較愛舉的一個例子是說,假設(shè)我們能夠靠學(xué)習(xí)視頻模型把這個預(yù)測物理世界會發(fā)生什么解決,那這也就意味著我們可以訓(xùn)練這個語言模型,讓它能夠沒有Hallucination

      (幻覺)
      。因為它相當(dāng)于學(xué)到了一些真實數(shù)據(jù)的物理規(guī)則,而并不是說去簡單地過擬合這個數(shù)據(jù)。

      所以我覺得語言模型我們現(xiàn)在仍然沒有解決Hallucination,那我覺得距離視頻模型學(xué)到真正的物理世界的規(guī)律還是任重而道遠(yuǎn)。所以我們不能完全依賴于視頻模型去訓(xùn)練我們的機器人,但是它可以提供一些很好的初始化也好,或者是一些其他方面的信號,就都是可以有幫助的。

      泓君:還挺有意思的。你們覺得實現(xiàn)手部的靈巧動作,我們就說開可樂,回到開始的問題,有多難?它到了一個GPT3時刻嗎?

      陶一偉:說不定我覺得還的確是,如果機器人能夠真正做到開可樂,是很好的一個benchmark(基準(zhǔn)測試),達(dá)到了GPT時刻,我認(rèn)為因為它的確是靈巧性的綜合能力的考量。

      齊浩之:對,我可能想稍微說遠(yuǎn)一點,舉一個例子,比如說我們看20年前其實就有一些能跑步的機器人,就是本田,就是Honda的ASIMO,它已經(jīng)能在舞臺上很好地跑步、上下樓梯。就有很多質(zhì)疑的聲音說,為什么我們過了20多年,這個人形機器人也就能達(dá)到20多年前的水平?這其實涉及到一個問題,就是有多簡單能夠達(dá)到這樣的水平。現(xiàn)有的算法是可以很容易,當(dāng)它達(dá)到了跑步,然后你就稍微改一些東西,它可以很容易地達(dá)到跳舞,這個跟20年前讓一個機器人跑步可能需要很多高精尖的團隊一起負(fù)責(zé)迭代幾個月或者幾年是完全不一樣的。

      所以我覺得如果我們未來有一個算法,這個算法框架本身確定了以后,它可以用很短的時間讓機器人開可樂,它還可以讓這個機器人做開門、擰螺絲這樣各種各樣的任務(wù),那我覺得確實就是GPT時刻了。

      泓君:我們離這樣的一個時刻有多遠(yuǎn)?

      齊浩之:這個預(yù)測總感覺會被打臉,我覺得可能還有3-5年。

      泓君:那這個比我想象中快太多了。

      陶一偉:我覺得從硬件的角度、產(chǎn)品的角度,應(yīng)該是今年內(nèi)就會產(chǎn)品能夠滿足這樣的能力。

      泓君:你是說在任何場景下開一罐可樂,機器人也可以旋轉(zhuǎn)它、隨便放,就是自主操作,不是遙控。

      陶一偉:可以這么說。我認(rèn)為硬件是非常快能夠達(dá)到這個。的確,硬件是相當(dāng)于給整個機器人行業(yè)提供一個基石,更多它的上限的天花板,要靠軟件和背后的模型能力的提升來釋放出整個系統(tǒng)的能力的。

      齊浩之:據(jù)我觀察,最近這兩年靈巧手實現(xiàn)了一個井噴式的飛躍,感覺有一個非常光明的未來。

      第一方面就是市場上來說,人形機器人火起來之后,大家首先更容易有一些硬件,更容易有一些能夠做復(fù)雜硬件的廠商,然后他們?nèi)プ鲮`巧手以及人形機器人。

      其二就是有很多比較簡單的本體,像是輪式或者說平行夾爪,他們在科研問題本身做得也比較開始大同小異了,就是沒有一個新的爆點。所以大家正在探索在更復(fù)雜系統(tǒng)上如何迭代算法,也就是靈巧手和人形機器人。

      我覺得這兩點共同促進(jìn)了整個研究行業(yè)的發(fā)展。

      泓君:好的,非常期待。今天聊得非常精彩,謝謝兩位。

      【音頻收聽渠道】

      公眾號:硅谷101

      收聽渠道:蘋果|小宇宙|喜馬拉雅|蜻蜓FM|網(wǎng)易云音樂|QQ音樂|荔枝播客|嗶哩嗶哩

      海外用戶:Apple Podcast|Spotify|TuneIn|Amazon Music

      聯(lián)系我們:podcast@sv101.net

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點推薦
      國運由誰決定?從烏克蘭的悲劇,回看教員那幾次“孤獨的堅持”

      國運由誰決定?從烏克蘭的悲劇,回看教員那幾次“孤獨的堅持”

      遠(yuǎn)方風(fēng)林
      2025-12-26 00:05:55
      玥兒箖箖驚喜出鏡,馬筱梅圣誕家中待客,倆孩子已有新的社交圈

      玥兒箖箖驚喜出鏡,馬筱梅圣誕家中待客,倆孩子已有新的社交圈

      調(diào)侃國際觀點
      2025-12-26 20:11:11
      中國人壽保險(集團)公司原黨委書記、總裁楊超被開除黨籍

      中國人壽保險(集團)公司原黨委書記、總裁楊超被開除黨籍

      新京報
      2025-12-26 17:03:47
      姜昆回應(yīng),視頻為拼接,人一直在國內(nèi),蹭熱度的楊儀又被打臉了

      姜昆回應(yīng),視頻為拼接,人一直在國內(nèi),蹭熱度的楊儀又被打臉了

      李健政觀察
      2025-12-26 12:19:52
      平安夜奇跡!18億美元大獎一票獨得!中彩票巨獎后,有人站在超市門口免費發(fā)錢,見人就送

      平安夜奇跡!18億美元大獎一票獨得!中彩票巨獎后,有人站在超市門口免費發(fā)錢,見人就送

      華人生活網(wǎng)
      2025-12-26 02:53:35
      魯比奧憤怒不已,美歐杠上了

      魯比奧憤怒不已,美歐杠上了

      山河路口
      2025-12-25 17:07:18
      天塹變通途!極氪001車隊首批穿越天山勝利隧道,南北疆從此邁入“一日往返”時代

      天塹變通途!極氪001車隊首批穿越天山勝利隧道,南北疆從此邁入“一日往返”時代

      魯中晨報
      2025-12-26 19:16:51
      加時18分歷史首人!約基奇56+16+15刷7紀(jì)錄 小丑皇登全美熱搜第一

      加時18分歷史首人!約基奇56+16+15刷7紀(jì)錄 小丑皇登全美熱搜第一

      顏小白的籃球夢
      2025-12-26 14:55:39
      存儲成本暴漲,小米17 Ultra起售價6999元!盧偉冰坦言壓力巨大

      存儲成本暴漲,小米17 Ultra起售價6999元!盧偉冰坦言壓力巨大

      時代周報
      2025-12-25 23:36:09
      烏軍收復(fù)波城180平方公里,澤連斯基將赴美與川普進(jìn)行高風(fēng)險博弈

      烏軍收復(fù)波城180平方公里,澤連斯基將赴美與川普進(jìn)行高風(fēng)險博弈

      史政先鋒
      2025-12-26 19:49:56
      精準(zhǔn)斬首!泰國無人機斬首行動震驚東南亞!洪森指揮鏈遭團滅!

      精準(zhǔn)斬首!泰國無人機斬首行動震驚東南亞!洪森指揮鏈遭團滅!

      深度報
      2025-12-24 22:47:16
      多地黨委主要領(lǐng)導(dǎo)調(diào)整!其中有一人是中央委員

      多地黨委主要領(lǐng)導(dǎo)調(diào)整!其中有一人是中央委員

      上觀新聞
      2025-12-26 13:52:06
      回頭看10年前南博的龐萊臣名畫展,格外諷刺

      回頭看10年前南博的龐萊臣名畫展,格外諷刺

      亮見
      2025-12-25 15:05:31
      全國首臺!只殺癌細(xì)胞,不傷好細(xì)胞,武漢癌癥“大殺器”正式啟用

      全國首臺!只殺癌細(xì)胞,不傷好細(xì)胞,武漢癌癥“大殺器”正式啟用

      荷蘭豆愛健康
      2025-12-26 07:05:32
      從普通人到惡魔,只有一步之遙

      從普通人到惡魔,只有一步之遙

      近距離
      2025-12-24 11:07:14
      央視曝光新毒物!已流竄到全國,長期食用傷肝腎,孩子淪為重災(zāi)區(qū)

      央視曝光新毒物!已流竄到全國,長期食用傷肝腎,孩子淪為重災(zāi)區(qū)

      有范又有料
      2025-12-26 12:20:20
      21歲男子趁表姐熟睡欲與其發(fā)生關(guān)系未得逞,家屬賠償10萬獲諒解 一審被判三緩四

      21歲男子趁表姐熟睡欲與其發(fā)生關(guān)系未得逞,家屬賠償10萬獲諒解 一審被判三緩四

      紅星新聞
      2025-12-26 17:20:10
      爆砍56+16+15+2!抱歉哈登:你從歷史第一變成了歷史第二

      爆砍56+16+15+2!抱歉哈登:你從歷史第一變成了歷史第二

      籃球大視野
      2025-12-26 18:37:16
      被閨蜜和丈夫雙重背叛,女子“一夜白頭”!原配告第三者重婚案今日開庭

      被閨蜜和丈夫雙重背叛,女子“一夜白頭”!原配告第三者重婚案今日開庭

      環(huán)球網(wǎng)資訊
      2025-12-26 18:39:08
      中國為什么沒有美國的“斬殺線”?

      中國為什么沒有美國的“斬殺線”?

      農(nóng)民日報
      2025-12-25 19:43:11
      2025-12-27 01:07:00
      硅谷101 incentive-icons
      硅谷101
      從這里駛向未來
      134文章數(shù) 102關(guān)注度
      往期回顧 全部

      科技要聞

      收割3000億!拼多多"土辦法"熬死所有巨頭

      頭條要聞

      老人婚宴上被提醒孫女非親生 做鑒定后忍3年忍不了了

      頭條要聞

      老人婚宴上被提醒孫女非親生 做鑒定后忍3年忍不了了

      體育要聞

      開翻航母之后,他決定親手造一艘航母

      娛樂要聞

      王傳君生病后近照變化大,面部浮腫

      財經(jīng)要聞

      投資巨鱷羅杰斯最新持倉:只留四種資產(chǎn)

      汽車要聞

      兩大CEO試駕 華為乾崑*啟境開啟首款獵裝轎跑路測

      態(tài)度原創(chuàng)

      房產(chǎn)
      游戲
      旅游
      公開課
      軍事航空

      房產(chǎn)要聞

      炸裂,三亞360億超級清單發(fā)布,又一批重大配套要來了!

      PS6或兼容PS1-PS5全世代游戲!索尼新專利曝光

      旅游要聞

      多家博物館公告:暫停開放

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      烏最新20點俄烏和平草案遞交莫斯科 俄方拒絕

      無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 国产精品疯狂输出jk草莓视频 | 香蕉久久精品日日躁夜夜躁夏| 岛国在线无码| 偶偶福利影院| 亚洲av二区伊人久久| 日本丰满少妇裸体自慰| 亚洲色宗合| 爆乳一区二区| 少妇宾馆粉嫩10p| 99久热在线精品视频| 人妻无码中文字幕免费视频蜜桃| 精品综合在线| 国产AV一区二区三区| 亚洲成av人片在线播放无码| 色婷久久| 97se亚洲综合自在线| 亚洲色欲在线播放一区二区三区| 色偷偷噜噜噜亚洲男人| 拍真实国产伦偷精品| 亚洲色偷拍区另类无码专区| 马公市| 三级片久久| 久久久人妻| 人妻有码中文字幕在线| 无码人妻h动漫| 97人伦色伦成人免费视频 | 性xxxx欧美老妇胖老太性多毛| 久久国产成人高清精品亚洲| 国内精品大秀视频日韩精品| 久久久免费精品re6| 日韩人妻精品无码制服| 久久久久国产一级毛片高清版A| 天天躁狠狠躁狠狠躁夜夜躁| 日韩av无码久久一区二区| 色噜噜AV亚洲色一区二区| 天天日夜夜| 在线观看视频一区二区三区| 久久久久国产一区二区三区| 国产精品天天在线午夜更新| 丰满少妇人妻久久久久久| 亚洲高清无码人妻|