<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      對(duì)話八位具身智能大咖:模型之爭、數(shù)據(jù)來源與第一性原理|甲子光年

      0
      分享至




      具身智能是通往AGI的必經(jīng)之路。

      作者|劉楊楠

      編輯|王博

      “你認(rèn)為具身智能是通往AGI(通用人工智能)的必經(jīng)之路嗎?3、2、1——請(qǐng)舉牌!”

      話音剛落,臺(tái)上的八位行業(yè)頂尖專家毫不猶豫,齊刷刷舉牌——全場一致同意。

      這不僅是一次簡單的共識(shí),更是當(dāng)前AI浪潮轉(zhuǎn)向物理世界的一個(gè)縮影。隨著大模型在虛擬世界的潛力被不斷挖掘,如何讓智能擁有身體,能夠理解、決策并改變真實(shí)的物理環(huán)境,已成為全球科技競爭的下一個(gè)前沿。

      具身智能,正從機(jī)器人產(chǎn)業(yè)的專屬,演進(jìn)為構(gòu)建下一代通用AI的基石。

      在11月20日舉辦的智源具身OpenDay上,甲子光年創(chuàng)始人、CEO張一甲主持的這場BAAI具身模型會(huì)客廳,正是一次對(duì)這一前沿領(lǐng)域的集中叩問。她與八位來自產(chǎn)業(yè)界與學(xué)術(shù)界的核心踐行者展開對(duì)話,他們代表了推動(dòng)具身智能落地的關(guān)鍵力量:

      • 招商局集團(tuán)AI首席科學(xué)家 張家興

      • 清華大學(xué)助理教授、星海圖聯(lián)合創(chuàng)始人 趙行

      • 智元機(jī)器人合伙人、首席科學(xué)家,上海創(chuàng)智學(xué)院導(dǎo)師 羅劍嵐

      • 智源研究院院長 王仲遠(yuǎn)

      • 北京大學(xué)助理教授、銀河通用創(chuàng)始人及首席技術(shù)官 王鶴

      • 加速進(jìn)化創(chuàng)始人&CEO 程昊

      • 自變量創(chuàng)始人&CEO 王潛

      • 中國科學(xué)院大學(xué)教授 趙冬斌

      在這場深度討論中,共識(shí)是清晰的——具身智能是通往AGI的必經(jīng)之路。

      但非共識(shí)是存在的,挑戰(zhàn)也是現(xiàn)實(shí)的。宏偉的愿景之下,是數(shù)據(jù)、模型與機(jī)器人本體之間相互掣肘的現(xiàn)實(shí)困境。全行業(yè)都在共同摸索:如何找到一條高效、低成本的道路,打破枷鎖,讓智能真正“身”“心”合一。

      本文為“BAAI具身模型會(huì)客廳”對(duì)話實(shí)錄,經(jīng)「甲子光年」整理編輯,在不改變?cè)獾幕A(chǔ)上略有刪改。

      1.世界模型是實(shí)現(xiàn)具身智能的關(guān)鍵嗎?

      張一甲:今年世界模型概念很熱,和世界模型的結(jié)合是實(shí)現(xiàn)具身智能的關(guān)鍵嗎?

      王鶴:我目前持中立態(tài)度。因?yàn)樗鋵?shí)取決于我們?nèi)绾味x“世界模型”。在強(qiáng)化學(xué)習(xí)里,世界模型最早是指根據(jù)當(dāng)前狀態(tài)和我采取的動(dòng)作,來預(yù)測下一步狀態(tài)的變化。但這一概念經(jīng)過Sora等視頻生成模型的不斷演變,如今已經(jīng)變得越來越模糊了。

      今天我們常常希望用人類的視頻數(shù)據(jù)去訓(xùn)練模型,再教機(jī)器人像人一樣去“想象”人類的行為并照著做。但這并不完全成立。原因在于,機(jī)器人的本體,比如輪式、雙臂結(jié)構(gòu),都和人類身體存在很大差異。即便是最像人的人形機(jī)器人,在操作的靈巧度、手臂活動(dòng)范圍等方面,與真人動(dòng)作仍有明顯差距。因此,即使機(jī)器人能像人一樣“聯(lián)想”,這類數(shù)據(jù)也不一定對(duì)我們的具身智能有實(shí)質(zhì)幫助。

      不過從長遠(yuǎn)來看,具身機(jī)器人和人類一樣,都需要具備一種對(duì)未來狀態(tài)的預(yù)測和預(yù)判能力,都需要根據(jù)我想要達(dá)成的目標(biāo),反向推導(dǎo)現(xiàn)在該執(zhí)行什么動(dòng)作——既有前向推理,也有反向規(guī)劃。所以我認(rèn)為,世界模型作為一種對(duì)未來預(yù)測的機(jī)制,是不可或缺的。只不過,它的訓(xùn)練數(shù)據(jù)中必須包含更多機(jī)器人本身的數(shù)據(jù),才能真正學(xué)出一個(gè)屬于機(jī)器人自己的世界模型。

      王仲遠(yuǎn):我是認(rèn)同的。目前世界模型的定義確實(shí)還沒有形成完全的共識(shí)。如果世界模型僅僅指視頻生成,那它雖然可能對(duì)具身智能有一定作用,但未必是后者必須依賴的基座。

      而我們所理解的世界模型,更多是指“下一個(gè)狀態(tài)預(yù)測”,也就是基于先前的時(shí)空狀態(tài),去預(yù)測下一個(gè)時(shí)空狀態(tài)。

      舉個(gè)例子,剛才我要回答時(shí),需要基于一甲提出的問題、王鶴老師的回應(yīng),來決定我如何回應(yīng)、是否要拿起話筒,這本身就是一個(gè)決策過程。我們所認(rèn)知的世界模型,需要基于已有的時(shí)空狀態(tài),理解現(xiàn)場的環(huán)境與上下文,進(jìn)而給出下一步的行動(dòng)與響應(yīng)這才是核心。

      張一甲:Transformer這類統(tǒng)一架構(gòu)催生了ChatGPT這樣的爆款應(yīng)用。你們認(rèn)為具身智能未來也會(huì)收斂到某一種統(tǒng)一架構(gòu)之下嗎?換句話說,具身智能是否需要自己的“Transformer”?

      (現(xiàn)場舉牌,除了趙冬斌,其他嘉賓都認(rèn)為“會(huì)收斂到某一種統(tǒng)一架構(gòu)之下”)

      趙冬斌:我持觀望態(tài)度。目前來看,具身模型的訓(xùn)練方法比較多樣化。除了模型架構(gòu)本身的探索之外,我們也通過預(yù)訓(xùn)練、后訓(xùn)練以及思維鏈推理等方式來持續(xù)提升模型性能,在制作咖啡、擺放碟子、整理盒子、折疊衣物等中多個(gè)任務(wù)上展現(xiàn)出通用能力。隨著技術(shù)不斷發(fā)展,未來有可能會(huì)出現(xiàn)一個(gè)收斂的單一模型,但也可能繼續(xù)保持模型多樣化的路徑。兩者皆有可能。

      張一甲:最有可能成為那個(gè)“Transformer”的技術(shù)路徑會(huì)是什么?

      張家興:就像人類智能的演進(jìn)過程:我們是先有動(dòng)作能力,再發(fā)展出視覺,最后才誕生語言。而今天的VLA結(jié)構(gòu),恰恰是在視覺和動(dòng)作之間插入了一個(gè)語言模塊,這其實(shí)并不符合我們?nèi)祟愒趯?shí)際操作中的本質(zhì)邏輯。比如當(dāng)我們開車時(shí),可以一邊說話一邊駕駛,這說明視覺(Vision)和動(dòng)作(Action)之間本身就有直接通路,并不一定需要語言(Language)的全程參與。

      因此,我們應(yīng)該思考構(gòu)建一個(gè)完全面向具身智能的、獨(dú)立的系統(tǒng)架構(gòu),而不必非得從當(dāng)前以語言模型為核心的技術(shù)體系中脫胎。

      張一甲:你心目中那個(gè)理想的“具身智能Transformer”,目前出現(xiàn)了嗎?

      張家興:目前還沒有真正出現(xiàn)。實(shí)際上,我們確實(shí)仍在期待大模型領(lǐng)域能帶來一些根本性的創(chuàng)新。目前硅谷的一些頂尖團(tuán)隊(duì)正在探索新型多模態(tài)大模型架構(gòu),在這些架構(gòu)中,語言(L)將不再占據(jù)那么核心的位置。這是一個(gè)重要的方向。

      坦白說,目前確實(shí)是大模型團(tuán)隊(duì)在率先進(jìn)行這類探索,而他們的方向恰好與我們具身智能所追求的目標(biāo)不謀而合。本質(zhì)上,我們期待的是大模型領(lǐng)域能夠?qū)崿F(xiàn)一次范式轉(zhuǎn)換:從過去三年一直堅(jiān)持的“l(fā)anguage first”,轉(zhuǎn)向“vision first”或“vision-action first”。

      趙行:我非常同意這個(gè)觀點(diǎn)。我們確實(shí)需要一個(gè)與大語言模型平行的基礎(chǔ)模型,它更有可能是一個(gè)“大型行動(dòng)模型”(Large Action Model)。這個(gè)模型首先應(yīng)建立在視覺基礎(chǔ)上,因?yàn)橐曈X是世界上最通用的感知信息來源;隨后再融入語言能力。這與生物進(jìn)化的規(guī)律高度吻合——世界上先出現(xiàn)能夠運(yùn)動(dòng)的生物,隨后它們演化出視覺,最終才誕生像人類這樣的高級(jí)智能生命。

      因此,我們期待的是一種“行動(dòng)優(yōu)先、視覺隨后、語言最后”的模型構(gòu)建路徑。這個(gè)模型與大語言模型有一個(gè)關(guān)鍵區(qū)別,它必須是一個(gè)閉環(huán)系統(tǒng)。大語言模型更多是開環(huán)的——用戶提問,模型給出回答,若答案正確,流程就結(jié)束了,中間的處理過程完全在模型內(nèi)部完成。

      但具身智能不同。它不是經(jīng)過一番思考后執(zhí)行單一動(dòng)作,而是每執(zhí)行一個(gè)動(dòng)作,就立即獲得來自世界的反饋,隨即調(diào)整自身行為,并繼續(xù)執(zhí)行下一步。因此,我希望未來具身智能的“基礎(chǔ)行動(dòng)模型”是一個(gè)能夠與環(huán)境實(shí)時(shí)交互、持續(xù)調(diào)整的閉環(huán)模型。

      羅劍嵐:目前還沒有出現(xiàn)一個(gè)能夠統(tǒng)一所有智能形態(tài)的“大一統(tǒng)模型”。智能問題更可能被一個(gè)完整系統(tǒng)所解決,而非依賴單一模型。這個(gè)系統(tǒng)包括幾個(gè)核心要素。除了VLA,系統(tǒng)中還需要一個(gè)世界模型,能夠進(jìn)行反思、預(yù)測,并在隱空間中進(jìn)行推演和想象。當(dāng)然,也離不開強(qiáng)化學(xué)習(xí)。這些組件整合在一起,形成一個(gè)真正的閉環(huán)系統(tǒng),數(shù)據(jù)在其中流動(dòng),推動(dòng)系統(tǒng)不斷自我提升。

      王仲遠(yuǎn):首先,智源研究院肯定相信,從終極狀態(tài)來看,一定要有一個(gè)相對(duì)統(tǒng)一架構(gòu)的模型,來解決預(yù)訓(xùn)練、世界模型等各種問題。這也是我們?cè)诓季窒穸嗄B(tài)世界模型的一個(gè)很重要原因。

      當(dāng)然,這種模型所需要的數(shù)據(jù)量顯然是非常非常大的,甚至不一定三年、五年就一定能夠完全實(shí)現(xiàn)。它可能需要等到更多機(jī)器人真正落地,開始解決很具體的問題,累積起足夠的數(shù)據(jù)量,出現(xiàn)“具身智能的互聯(lián)網(wǎng)”之后,有了這樣的數(shù)據(jù)基礎(chǔ),才有可能出現(xiàn)更好的大一統(tǒng)模型。

      從架構(gòu)上來講,我們正在探索一系列具有潛力的大一統(tǒng)架構(gòu),當(dāng)然未來是否會(huì)出現(xiàn)別的架構(gòu),我們也樂見其成。所以從長期來看,我相信這是一個(gè)我們必須突破、必須解決的關(guān)鍵問題。

      王鶴:關(guān)于“具身Transformer”這個(gè)問題,其實(shí)它更偏向架構(gòu)層面。

      具身智能的復(fù)雜性在于,人類擁有視覺、聽覺、觸覺等多種感知方式,就像我們常說的“眼耳口鼻舌”。從注意力機(jī)制的角度,所有這些感知信號(hào)理論上都可以被token化并輸入Transformer。目前主要的瓶頸在于輸出部分還不夠理想,動(dòng)作的生成與響應(yīng)還不夠自然。

      因此,如果我們能逐步解決輸出層面的問題,從架構(gòu)上講,是有可能形成一個(gè)統(tǒng)一范式的。但相比之下,數(shù)據(jù)問題以及與之對(duì)應(yīng)的學(xué)習(xí)范式,才是更長期、更根本的挑戰(zhàn)。

      目前我們的數(shù)據(jù)還遠(yuǎn)遠(yuǎn)不夠。無論是視頻生成模型還是對(duì)話模型,本質(zhì)上都依賴海量的互聯(lián)網(wǎng)數(shù)據(jù)。而今天我們?nèi)粝胙邪l(fā)出一個(gè)“行動(dòng)優(yōu)先”的模型,面臨的核心問題是:全球可能僅有約一千臺(tái)、甚至更少的人形機(jī)器人處于前沿場景中運(yùn)行。如此少的數(shù)量,遠(yuǎn)不足以支撐我們探索出一個(gè)成熟的“行動(dòng)優(yōu)先”架構(gòu)與模型。

      因此我的看法是:短期內(nèi),我們更需要依靠仿真模擬與合成數(shù)據(jù)來推進(jìn)探索,這比受限于少量真實(shí)數(shù)據(jù)會(huì)走得更快;而從長期來看,地球上的“人形機(jī)器人口”必須實(shí)現(xiàn)持續(xù)高速增長。當(dāng)然,這也與其能力提升相輔相成。只有當(dāng)這個(gè)“人口基數(shù)”足夠大時(shí),才有可能孕育出真正強(qiáng)大的大模型。

      程昊:過去一年多來,幾乎所有人形機(jī)器人的運(yùn)動(dòng)控制都在朝著同一個(gè)方向努力:只要獲取到人體各種運(yùn)動(dòng)軌跡數(shù)據(jù),機(jī)器人就能夠復(fù)現(xiàn)執(zhí)行。相應(yīng)地,我們也希望能有一個(gè)具身模型,可以基于任務(wù)需求與環(huán)境狀態(tài),實(shí)時(shí)輸出未來數(shù)十幀內(nèi)機(jī)器人該如何動(dòng)作,就像在腦海中生成一段動(dòng)畫,機(jī)器人隨之執(zhí)行,并自主判斷是該拿起鏟子、杯子,還是去開門。一旦這樣的模型跑通,具身智能的落地就會(huì)順利很多,但目前來看,這樣的模型尚未出現(xiàn)。

      我們之所以特別關(guān)注世界模型,核心原因之一就是“預(yù)測”能力——既要預(yù)測“我打算做什么”,也要預(yù)測“外部環(huán)境會(huì)發(fā)生什么”。當(dāng)然,團(tuán)隊(duì)內(nèi)部也認(rèn)為這個(gè)目標(biāo)挑戰(zhàn)很大、路徑較長,因此我們也在考慮分階段推進(jìn):先通過分層方法構(gòu)建一些智能體(agent),在相對(duì)簡單的場景中實(shí)現(xiàn)落地,比如拿快遞、搬箱子這類任務(wù),而像做飯就是一件非常非常難的事情。

      這樣做的好處是,一旦在真實(shí)場景中部署,就能采集到大量機(jī)器人實(shí)際運(yùn)行數(shù)據(jù)。正如剛才王鶴老師所說,一旦機(jī)器人真正落地創(chuàng)造價(jià)值,大家就會(huì)有意愿、有資源去部署更多機(jī)器人,形成“機(jī)器人公民”規(guī)模的擴(kuò)大。這些數(shù)據(jù)回流后,將反哺整個(gè)具身智能大模型的研發(fā)。

      王潛:“Transformer”這個(gè)說法可能稍微有些誤導(dǎo)性,因?yàn)樗举|(zhì)上是一種架構(gòu)。事實(shí)上,如今在語言模型中也不一定全都采用Transformer。由于超長序列處理等需求,很多團(tuán)隊(duì)已經(jīng)開始轉(zhuǎn)向類似狀態(tài)空間模型(State Space Model)等其他架構(gòu)。所以,語言模型領(lǐng)域也未必都是Transformer。

      當(dāng)然,我理解這個(gè)問題的實(shí)質(zhì)是:我們是否會(huì)形成一整套完整的方法論與模型體系,就像當(dāng)年GPT那樣成為基礎(chǔ)模型范式?從這個(gè)角度看,我認(rèn)為這樣的體系是可能出現(xiàn)的。至于它具體采用哪種架構(gòu)形式——是決策型、自回歸、狀態(tài)空間還是其他注意力變體——其實(shí)并沒有那么重要。就像建造一棟大樓,Transformer可能只是其中的磚塊或鋼筋,我們可以替換為其他材料,而不影響整體功能。更重要的是設(shè)計(jì)整座建筑的結(jié)構(gòu)、外觀與功能,并通入水電、完成內(nèi)裝,最終才能成為真正可用的建筑。

      從語言模型的發(fā)展中,我們可以汲取幾點(diǎn)重要經(jīng)驗(yàn):

      第一是數(shù)據(jù)規(guī)模的重要性。這一點(diǎn)剛才多位老師都提到了。但大家對(duì)“數(shù)據(jù)規(guī)?!笨赡艽嬖谝恍┱`解,第一反應(yīng)往往是“大力出奇跡”。確實(shí),我們需要海量數(shù)據(jù),但光有數(shù)量是不夠的。就像家興老師和仲遠(yuǎn)老師在大語言模型時(shí)代的實(shí)踐所證明的:單純堆數(shù)據(jù)未必能帶來理想結(jié)果,反而是更高效、更高質(zhì)量的數(shù)據(jù)才能實(shí)現(xiàn)突破。這也是為什么我們堅(jiān)持以物理世界真實(shí)數(shù)據(jù)為主——我們相信數(shù)據(jù)質(zhì)量優(yōu)先于數(shù)據(jù)總量,這能在數(shù)據(jù)效率上帶來數(shù)量級(jí)的提升。

      第二是通用模型(通才模型)的價(jià)值。這正是我開場時(shí)提到的:我們正在構(gòu)建的是一個(gè)平行于虛擬世界的、屬于物理世界的基礎(chǔ)模型。根本原因在于虛擬世界與物理世界的基本屬性,或者說“統(tǒng)一性原理”,差異太大。

      核心差異在于,物理世界中存在大量的接觸、摩擦、碰撞等高度隨機(jī)的過程,這些過程通常難以用語言完整描述,也難以通過圖像準(zhǔn)確表達(dá)。盡管目前已有一些利用圖像進(jìn)行描述的嘗試,但在我看來,這些嘗試效果有限,因?yàn)樗鼈冸y以捕捉其中涉及的大量精細(xì)物理現(xiàn)象。

      正因如此,我們認(rèn)為在當(dāng)前階段,這方面仍存在不少障礙。最主要的原因在于,我們對(duì)這些物理過程的認(rèn)知與建模方法仍不成熟,對(duì)其內(nèi)在機(jī)制的理解尚不完善。因此,我們最終仍需要一個(gè)平行且獨(dú)立于虛擬世界的物理模型,來精確刻畫這些細(xì)致而復(fù)雜的物理過程。

      這樣一個(gè)模型究竟應(yīng)該具備哪些功能?它當(dāng)然要能控制機(jī)器人,這一點(diǎn)毋庸置疑。但與此同時(shí),它還應(yīng)具備更多元的輸出能力。在我們看來,世界模型、VLA等概念之爭意義有限,因?yàn)閺奈覀兊膶?shí)踐來看,所有這些能力都被集成在同一個(gè)模型中:它既能輸出動(dòng)作指令,也能生成視頻;既能做隱藏狀態(tài)的預(yù)測,也能完成三維重建,甚至輸出體積信息等任意形式的內(nèi)容。

      我們將其視為一個(gè)“物理世界的基礎(chǔ)模型”,背后的邏輯是什么?這源于我們從語言模型發(fā)展中獲得的啟示:為什么一定要做通用模型?關(guān)鍵在于,通用模型學(xué)習(xí)到的內(nèi)容與專用模型完全不同。它捕捉的是所有任務(wù)之間的交集,可稱為“共同結(jié)構(gòu)”、常識(shí),或是本質(zhì)規(guī)律。

      因此,從語言模型中我們能夠習(xí)得邏輯推理能力、常識(shí)認(rèn)知等關(guān)鍵要素——這些確實(shí)是語言模型帶給我們的核心價(jià)值。但回到現(xiàn)實(shí)問題:我們是否應(yīng)該直接繼承現(xiàn)有的多模態(tài)模型作為主干,將其作為基礎(chǔ)來推進(jìn)具身智能領(lǐng)域的工作?

      對(duì)此我的看法可能與主流觀點(diǎn)相左。我認(rèn)為在不久的將來,或許不用十年,甚至五年內(nèi),真正主導(dǎo)的多模態(tài)模型,反而會(huì)是由具身智能推動(dòng)發(fā)展的那類模型。當(dāng)前僅依靠從物理世界采集數(shù)據(jù)構(gòu)建的模型路徑可能難以走通,而基于具身智能發(fā)展的多模態(tài)體系,反而很可能反過來主導(dǎo)甚至取代我們今天所見的多模態(tài)范式。

      這是一個(gè)符合發(fā)展規(guī)律的大趨勢(shì),也呼應(yīng)了人類認(rèn)知世界的基本方式。人類在學(xué)習(xí)理解物理世界這類“不靠堆數(shù)據(jù)”的領(lǐng)域時(shí),其實(shí)并不需要海量樣本。從進(jìn)化歷程來看,我們實(shí)際經(jīng)歷過的交互場景遠(yuǎn)不如今天AI模型訓(xùn)練的數(shù)據(jù)規(guī)模,卻依然能構(gòu)建出強(qiáng)大的認(rèn)知系統(tǒng)。

      這其中最關(guān)鍵的一點(diǎn)在于“動(dòng)作”帶來的改變。行動(dòng)本身是一個(gè)關(guān)鍵信號(hào),它能幫助我們篩選出哪些信息是真正重要的。此外,正如剛才其他嘉賓提到的“交互感知”或“主動(dòng)感知”,我們通過與環(huán)境的實(shí)時(shí)互動(dòng),能夠從時(shí)間和因果維度更深入地把握物理世界的運(yùn)行規(guī)律。

      這也就引回到我們今天討論的核心:什么才是真正的基礎(chǔ)模型?或者說,具身智能領(lǐng)域的“Transformer”應(yīng)該是什么?當(dāng)然,我仍堅(jiān)持之前的看法,Transformer這個(gè)比喻并不十分貼切,它終究只是一種架構(gòu)組件,就像磚塊或鋼筋,完全可以被更合適的結(jié)構(gòu)所替代。

      趙冬斌:確實(shí),當(dāng)前我們對(duì)于模型規(guī)模的定義可能不是一成不變的。未來的大模型也不一定非要依賴海量數(shù)據(jù),就像人類學(xué)習(xí)一樣,也許只需少量樣本就能掌握,而不是單純依靠海量數(shù)據(jù)和算法堆砌。所以對(duì)于未來的發(fā)展方向,我個(gè)人還持觀望態(tài)度。

      從模型架構(gòu)的角度來看,我們討論的重點(diǎn)往往在于輸入和輸出。在具身智能領(lǐng)域,輸入模態(tài)遠(yuǎn)比互聯(lián)網(wǎng)大模型豐富,不僅有文字和視覺,還包括力矩、觸覺等物理交互信號(hào),這些都需要被處理,也必然會(huì)影響模型的架構(gòu)設(shè)計(jì)。

      至于輸出方面,剛才多位嘉賓也提到了多種實(shí)現(xiàn)路徑,例如混合專家模型(MoE)、多模態(tài)生成等。有些場景可能并不需要復(fù)雜輸出。目前整個(gè)業(yè)界發(fā)展非常迅速,從學(xué)界角度來看,依然處于百花齊放的狀態(tài)。具體到機(jī)器人控制,如果場景相對(duì)簡單,或許一個(gè)狀態(tài)空間模型就足夠應(yīng)對(duì)了。

      2.數(shù)據(jù)的解法

      張一甲:面對(duì)數(shù)據(jù)這種“既重要又難搞”的情況,你們各自采取了什么樣的應(yīng)對(duì)策略?目前實(shí)際在做的有哪些工作?

      張家興:第一,我們堅(jiān)信要從真實(shí)物理世界中采集數(shù)據(jù),這最為關(guān)鍵。第二,在整個(gè)數(shù)字金字塔的構(gòu)建中,我們希望通過最低成本的方式,直接以人自身作為本體來采集數(shù)據(jù),這樣成本最低,也最容易實(shí)現(xiàn)規(guī)模效應(yīng)。這些數(shù)據(jù)主要用于人工智能領(lǐng)域。我們的目標(biāo),是構(gòu)建一個(gè)質(zhì)量最高、成本最低的數(shù)據(jù)金字塔。

      趙行:我們同樣以真實(shí)數(shù)據(jù)為基礎(chǔ),主要從三個(gè)層面入手。首先,是保證數(shù)據(jù)的真實(shí)性,因此我們用真實(shí)機(jī)器人素材作為起點(diǎn)。其次,我們注重多樣性,這意味著數(shù)據(jù)采集不局限于自有工廠,而是深入各類真實(shí)場景。最后,我們?cè)僮非髷?shù)量,通過優(yōu)化方法(如從依賴機(jī)器人轉(zhuǎn)變?yōu)闊o機(jī)器人方案)來降低采集成本、擴(kuò)大規(guī)模。

      羅劍嵐:我們也是堅(jiān)持真實(shí)數(shù)據(jù),并且非常重視數(shù)據(jù)質(zhì)量。有兩點(diǎn)我們想突出一下:第一,我們會(huì)去真實(shí)場景里采集,而不只是在數(shù)據(jù)工廠。第二,未來整個(gè)數(shù)據(jù)生態(tài)的構(gòu)建和運(yùn)轉(zhuǎn),將主要依靠機(jī)器人自主產(chǎn)生數(shù)據(jù)。具體來說,就是把大量機(jī)器人部署到真實(shí)場景中,讓它們與環(huán)境交互,從而產(chǎn)生范圍極廣、非常多樣化的數(shù)據(jù)。然后利用這些數(shù)據(jù),我們可以去獲取更多的機(jī)器人,這樣就形成了一個(gè)完整的正向反饋。

      王仲遠(yuǎn):我們還是堅(jiān)持從海量的視頻數(shù)據(jù)中去進(jìn)行基座模型的學(xué)習(xí)。因?yàn)橐曨l數(shù)據(jù)既能夠海量獲得,又能模擬真實(shí)世界。然后,我們通過真機(jī)采集的數(shù)據(jù)做半自動(dòng)處理,再通過強(qiáng)化學(xué)習(xí)做反饋,來不斷提升它的能力。這套邏輯其實(shí)跟現(xiàn)在很多小朋友刷手機(jī)認(rèn)識(shí)世界是一個(gè)原理:他們通過視頻學(xué)習(xí)這個(gè)世界,再通過真實(shí)的交互體驗(yàn)來提升技能。

      王鶴:在座各位中,我可能是很強(qiáng)調(diào)仿真的。這并不是說我們故意要用仿真去替代真實(shí)世界的數(shù)據(jù),而是我們發(fā)現(xiàn),很多底層的控制都是通過大量的強(qiáng)化學(xué)習(xí)獲得的,而這在真實(shí)世界里進(jìn)行非常困難。比如,我們今天看到的所有人形機(jī)器人的足式行走、跳舞,包括各種復(fù)雜的身體控制,全都是通過仿真器習(xí)得的。真實(shí)數(shù)據(jù)在其中的作用,一是提取人類的行為形態(tài)(比如舞蹈),二是在真實(shí)世界進(jìn)行少量的微調(diào)。

      我們最近與清華大學(xué)合作的靈巧手工作也印證了這點(diǎn)。至今為止,所有真正的手內(nèi)操作都是通過模仿學(xué)習(xí)實(shí)現(xiàn)的,而不是遙控。因?yàn)楫?dāng)你不清楚靈巧手的手指是否碰到物體、受力如何時(shí),連遙操作都無法進(jìn)行。

      所以,仿真的意義并非否定真實(shí)世界,而是這些豐富的物理交互可以從仿真開始。它能提供一個(gè)很好的基礎(chǔ)控制器,使我們?cè)谡鎸?shí)世界里能把“數(shù)據(jù)飛輪”轉(zhuǎn)起來。這就是合成數(shù)據(jù)的使命。

      程昊:我們現(xiàn)在實(shí)際上用仿真數(shù)據(jù)確實(shí)比較多,因?yàn)樗容^快。但我們用仿真數(shù)據(jù)訓(xùn)練的一個(gè)目標(biāo),是讓機(jī)器人接下來能獲得更多真實(shí)數(shù)據(jù),有了真實(shí)數(shù)據(jù),整體能力才能再提升。

      這很可能是一個(gè)螺旋上升的過程:落地后獲得真實(shí)數(shù)據(jù),會(huì)發(fā)現(xiàn)很多“corner case”搞不定,而真實(shí)世界又采不到那么多,那就可能又得回頭大量用仿真數(shù)據(jù)。

      所以我們的大思路是,一定要讓機(jī)器人落地后能獲得真實(shí)數(shù)據(jù)。我們堅(jiān)信最終這些數(shù)據(jù)都得用上,大概率是一種融合的狀態(tài)。視頻數(shù)據(jù)長遠(yuǎn)看肯定是最多的,只不過現(xiàn)在它的訓(xùn)練效果還不那么理想??傊膫€(gè)階段哪個(gè)數(shù)據(jù)好用,我們就先用哪個(gè)。

      張一甲:這可能不是應(yīng)不應(yīng)該的問題,而是能不能做到的問題。

      王潛:我們是什么數(shù)據(jù)都用,但用的地方有側(cè)重點(diǎn)。就像我剛才說的,不同數(shù)據(jù)本身的分布差異是很大的。

      比如,我們用大量的互聯(lián)網(wǎng)數(shù)據(jù),基本上每晚能爬的都會(huì)爬一遍。這部分主要用來做知識(shí)鏈,學(xué)習(xí)一些常識(shí),這是大家現(xiàn)在普遍都在做的基礎(chǔ)工作。

      再比如,我們仿真也做,但可能不會(huì)用它來做接觸式的抓取這類任務(wù),而是用來做智能體的決策、推理。那種物理抓取的遷移學(xué)習(xí),主要還是以物理世界的真實(shí)數(shù)據(jù)為主。

      所以,所有數(shù)據(jù)本質(zhì)上都可以用起來,但說實(shí)話,把任何一種數(shù)據(jù)用好都挺難的,里面涉及大量核心的工程問題,這才是我們?nèi)粘9ぷ骱妥⒁饬Φ闹攸c(diǎn)。數(shù)據(jù)肯定是多多益善,我們能從各種各樣的數(shù)據(jù)里都學(xué)到東西。

      趙冬斌:我想,自動(dòng)駕駛應(yīng)該是具身智能一個(gè)非常重要的落地例子。從它的經(jīng)驗(yàn)來看,把車賣給C端用戶后,每個(gè)司機(jī)每天開車就把數(shù)據(jù)收回來了,這個(gè)真實(shí)數(shù)據(jù)的反饋閉環(huán)用得非常好。

      我其實(shí)一直在想,我們其他的機(jī)器人什么時(shí)候也能這樣?比如把服務(wù)機(jī)器人賣到旅館,讓它在無人環(huán)境下打掃衛(wèi)生、疊被子。這樣就能持續(xù)回收數(shù)據(jù),出了問題可以遠(yuǎn)程接管,這些接管數(shù)據(jù)也非常重要。

      再比如一個(gè)廚房機(jī)器人,如果能根據(jù)菜單做各種菜,隨著部署規(guī)模上去,數(shù)據(jù)量自然就起來了。我們期待的就是這種數(shù)據(jù)自然而然涌現(xiàn)的時(shí)刻。

      3.決策的“第一性原理”

      張一甲:具身智能這個(gè)問題,真是越聊越覺得比我們想象中更復(fù)雜。就好像各位嘉賓在一個(gè)復(fù)雜的森林里,從不同的地點(diǎn)出發(fā)。我們不知道這個(gè)森林有多少物種,也不知道它的全貌,但我們知道大概會(huì)有寶藏。至于寶藏什么樣、在哪里,都需要我們?nèi)ッ鳌T诿鎸?duì)這么多開放和復(fù)雜的問題時(shí),你們做決策的“第一性原理”是什么?

      張家興:我認(rèn)同去年圖靈獎(jiǎng)得主的理念——讓機(jī)器自己去發(fā)現(xiàn),讓機(jī)器自己去探索。

      趙行:星海圖創(chuàng)立時(shí)就有一句格言:“In scaling law we trust.” 我們相信,數(shù)據(jù)的規(guī)?;瘜⒎聪蝌?qū)動(dòng)模型的進(jìn)化與智能的實(shí)現(xiàn)。

      羅劍嵐:我們堅(jiān)持做正確的事,正所謂“風(fēng)物長宜放眼量”。很多事情短期看是負(fù)擔(dān),長期看卻會(huì)產(chǎn)生巨大價(jià)值。

      王仲遠(yuǎn):人類如何學(xué)習(xí),機(jī)器人就可以如何學(xué)習(xí)。

      王鶴:我們始終致力于讓“數(shù)據(jù)飛輪”轉(zhuǎn)起來。即便當(dāng)前所做的,未必是外界眼中最炫酷的事情。

      程昊:我們決策時(shí)始終關(guān)注一件事:它能否真正落地。只要方向?qū)β涞赜袔椭?,我們就?huì)推進(jìn)。

      王潛:我們的金標(biāo)準(zhǔn)是:能否長期為客戶與消費(fèi)者創(chuàng)造真實(shí)價(jià)值。

      張一甲:具身智能領(lǐng)域,大家是在“戴著鐐銬起舞”,它很吸睛,但也很花錢。如果你手里有100億元來推進(jìn)具身智能發(fā)展,這筆錢你會(huì)怎么花?

      趙冬斌:這是錢的問題,給他們來回答(笑)。

      王潛:我首先把市場上能吸納的好人才都吸納過來,這是第一位的。那其次肯定是算力和數(shù)據(jù)啊。

      王鶴:100億其實(shí)并不重要,重要的是你怎么能夠用你的事業(yè)和你堅(jiān)定的進(jìn)步,吸引到人才加入。我們不希望大家為了錢每天睜開眼睛,而是為了一個(gè)未來人與機(jī)器人共生的世界。

      程昊:首先,100億不夠。如果我只有100億的話,我肯定不會(huì)自己埋頭落地,而是找更多的朋友一起,比如投到智源研究院,吸引全球的研究人才,讓他們可以心無旁騖地去搞比較長期的技術(shù)突破。

      王仲遠(yuǎn):我特別喜歡程昊總的這個(gè)回答。100個(gè)億其實(shí)也就聽起來很多,實(shí)際上也不多,也就10億多美元。GPT-3真的要開始訓(xùn)練的時(shí)候,微軟投資的規(guī)模也就是這個(gè)量級(jí),這正是一個(gè)關(guān)鍵研究周期所需要的。

      羅劍嵐:我會(huì)去構(gòu)建世界上最大的能夠自我進(jìn)化、自我閉環(huán)的數(shù)據(jù)系統(tǒng)。100億可以說很多,也可以說不多,但關(guān)鍵是,第一個(gè)投入百億去做這件事的個(gè)人或機(jī)構(gòu),現(xiàn)在還不存在。

      趙行:我也會(huì)去構(gòu)建一個(gè)最大的“data engine(數(shù)據(jù)引擎)”,目標(biāo)是把物理世界的信息全部數(shù)字化下來。

      張家興:我是希望能夠設(shè)計(jì)出屬于我們自己的、具身智能的“黃金式模型”,然后進(jìn)行大規(guī)模預(yù)訓(xùn)練,讓能力真的能夠scale up上去,找到我們最正確的那條路徑。

      (封面圖來源:智源研究院)

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      民心不負(fù)王者:阿根廷議會(huì)大選塵埃落定,米萊大獲全勝

      民心不負(fù)王者:阿根廷議會(huì)大選塵埃落定,米萊大獲全勝

      史政先鋒
      2025-10-27 19:42:31
      26歲女星被傳婚內(nèi)出軌,本尊回應(yīng)揭更驚人真相:我早已離婚

      26歲女星被傳婚內(nèi)出軌,本尊回應(yīng)揭更驚人真相:我早已離婚

      科學(xué)發(fā)掘
      2025-12-26 12:38:45
      對(duì)越自衛(wèi)反擊戰(zhàn)勝利結(jié)束后,鄧小平不再兼任總參謀長,由楊得志接任該職務(wù),許世友也隨之離開軍隊(duì)

      對(duì)越自衛(wèi)反擊戰(zhàn)勝利結(jié)束后,鄧小平不再兼任總參謀長,由楊得志接任該職務(wù),許世友也隨之離開軍隊(duì)

      史海孤雁
      2025-12-19 17:46:12
      2025年度盜版美劇榜單出爐:Netflix包攬冠亞軍

      2025年度盜版美劇榜單出爐:Netflix包攬冠亞軍

      IT之家
      2025-12-26 11:45:10
      iPhone 18 Pro 新外觀曝光,勸退了…

      iPhone 18 Pro 新外觀曝光,勸退了…

      全是技能
      2025-12-26 16:02:34
      帶你讀懂:人民幣破7背后的大國博弈與財(cái)富轉(zhuǎn)移

      帶你讀懂:人民幣破7背后的大國博弈與財(cái)富轉(zhuǎn)移

      柏年說政經(jīng)
      2025-12-26 17:52:47
      男女比例嚴(yán)重失衡,中國3000萬光棍時(shí)代已結(jié)束?第7次全國人口普

      男女比例嚴(yán)重失衡,中國3000萬光棍時(shí)代已結(jié)束?第7次全國人口普

      正直小墨
      2025-12-26 21:50:16
      廣東結(jié)冰了!今天更冷,深圳最低溫降至……

      廣東結(jié)冰了!今天更冷,深圳最低溫降至……

      深圳晚報(bào)
      2025-12-26 08:21:17
      國家在號(hào)召符合條件的退役士兵可以再次入伍,外交部:警鐘已敲響

      國家在號(hào)召符合條件的退役士兵可以再次入伍,外交部:警鐘已敲響

      百態(tài)人間
      2025-12-24 16:40:00
      美司令曾警告:若大陸武力收臺(tái),美軍將摧毀中方火箭軍和核武庫!

      美司令曾警告:若大陸武力收臺(tái),美軍將摧毀中方火箭軍和核武庫!

      壹知眠羊
      2025-12-21 07:15:19
      乒超半決賽:王曼昱3:1擊敗王藝迪!大獲全勝,陳幸同錢天一3:2

      乒超半決賽:王曼昱3:1擊敗王藝迪!大獲全勝,陳幸同錢天一3:2

      國乒二三事
      2025-12-26 20:33:15
      中規(guī)中矩,詹姆斯13中7拿到18分2板5助,正負(fù)值-33全場最低

      中規(guī)中矩,詹姆斯13中7拿到18分2板5助,正負(fù)值-33全場最低

      懂球帝
      2025-12-26 11:35:07
      許利民接受采訪,透露了3則重要消息

      許利民接受采訪,透露了3則重要消息

      體育哲人
      2025-12-26 17:13:46
      有史以來最貴的 iPhone,基本確定了!

      有史以來最貴的 iPhone,基本確定了!

      黑貓科技迷
      2025-12-26 22:31:43
      山東省民營企業(yè)家協(xié)會(huì)第八屆第三次會(huì)員大會(huì)在濟(jì)南成功召開

      山東省民營企業(yè)家協(xié)會(huì)第八屆第三次會(huì)員大會(huì)在濟(jì)南成功召開

      齊魯壹點(diǎn)
      2025-12-26 16:58:14
      馬斯克沒說錯(cuò):拆開GDP的“包裝”,中國的真實(shí)實(shí)力是美國的2-3倍

      馬斯克沒說錯(cuò):拆開GDP的“包裝”,中國的真實(shí)實(shí)力是美國的2-3倍

      通鑒史智
      2025-12-21 07:05:21
      趙露思不尷尬嗎?寶格麗900萬珠寶給她戴了,卻一身廉價(jià)味顯難堪

      趙露思不尷尬嗎?寶格麗900萬珠寶給她戴了,卻一身廉價(jià)味顯難堪

      嫹筆牂牂
      2025-12-23 07:09:08
      咸魚還是太全面了,怪不得人稱國內(nèi)黑市

      咸魚還是太全面了,怪不得人稱國內(nèi)黑市

      另子維愛讀史
      2025-12-20 17:07:20
      華為,造了個(gè)直播神器

      華為,造了個(gè)直播神器

      放毒
      2025-12-25 21:43:40
      A股:股民站穩(wěn)扶好,下午傳來5大利好,A股將迎史詩級(jí)別行情?

      A股:股民站穩(wěn)扶好,下午傳來5大利好,A股將迎史詩級(jí)別行情?

      股市皆大事
      2025-12-26 13:28:49
      2025-12-26 23:24:49
      甲子光年
      甲子光年
      中國科技產(chǎn)業(yè)化前沿智庫
      3302文章數(shù) 9253關(guān)注度
      往期回顧 全部

      科技要聞

      收割3000億!拼多多"土辦法"熬死所有巨頭

      頭條要聞

      黑老大2名表超5千萬成交 深圳原政法委書記是其保護(hù)傘

      頭條要聞

      黑老大2名表超5千萬成交 深圳原政法委書記是其保護(hù)傘

      體育要聞

      開翻航母之后,他決定親手造一艘航母

      娛樂要聞

      王傳君生病后近照變化大,面部浮腫

      財(cái)經(jīng)要聞

      投資巨鱷羅杰斯最新持倉:只留四種資產(chǎn)

      汽車要聞

      兩大CEO試駕 華為乾崑*啟境開啟首款獵裝轎跑路測

      態(tài)度原創(chuàng)

      本地
      旅游
      時(shí)尚
      數(shù)碼
      公開課

      本地新聞

      云游安徽|踏訪池州,讀懂山水間的萬年史書

      旅游要聞

      辰山植物園“荒野生花”番杏科植物展即將開幕,元旦假期邂逅石礫間的堅(jiān)韌精靈

      我們?yōu)槭裁葱枰?jié)日穿搭?

      數(shù)碼要聞

      ACEMAGIC阿邁奇推出M1A PRO+迷你主機(jī):AI Max+ 395,三M.2

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 中文字幕精品av一区二区五区| 阿瓦提县| 内射老妇bbwx0c0ck| 欧美成人片在线观看| 十八岁以下禁止观看黄下载链接 | 极品尤物一区二区三区| 乱精品一区字幕二区| 少妇真人直播免费视频| 青青草乱人| 中国不卡一区| 亚洲色欲色欲www| 亚洲一区二区偷拍精品| 中文字幕精品人妻| 香蕉社区| 人妻激情文学| 色二av手机版在线| 无限A片| 亚洲综合精品| 18禁美女裸身无遮挡免费网站| 精品人妻少妇一区二区三区在线| 91豆花成人网站| 亚洲精品一区国产| 国产日韩av在线播放| 男人的天堂av一二三区| 超碰99在线| 亚洲 欧美 清纯 校园 另类| 国产精品无码一本二本三本色| 18禁黄无遮挡网站免费| 类乌齐县| 99久久伊人精品综合观看| 亚洲一区av| 夜夜cao| 97精品官网国产户外| 久久精品国产精品亚洲精品| 90后极品粉嫩小泬20p| 欧美丝袜性交| 日日碰狠狠添天天爽 | av色蜜桃一区二区三区| 538在线精品| 国精产品一品二品国精在线观看| 久久亚洲精品国产亚洲老地址|