<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      哈佛Yilun Du專訪:世界模型三問 —— 因果、規(guī)劃與泛化的征途

      0
      分享至


      來(lái)源:大數(shù)據(jù)文摘受權(quán)轉(zhuǎn)載自智源社區(qū)

      采訪:李夢(mèng)佳

      編輯:陳然

      強(qiáng)化學(xué)習(xí)智能體在像素環(huán)境中可實(shí)現(xiàn)游戲高分刷新,但關(guān)鍵線索隱匿時(shí)即陷入決策困境;生成模型雖能生成光影逼真場(chǎng)景,卻無(wú)法解析 “積木傾塌” 背后的基礎(chǔ)物理邏輯。

      人工智能對(duì)真實(shí)世界的認(rèn)知,受限于以 “理解” 為核心的 “世界模型” 門檻。

      如今任職于哈佛大學(xué)Kempner 研究所與計(jì)算機(jī)科學(xué)系的助理教授Yilun Du正是該領(lǐng)域的核心探索者之一。憑借 MIT 博士畢業(yè)的扎實(shí)理論基礎(chǔ),他一直以來(lái)致力于通過生成式人工智能構(gòu)建具備推理與規(guī)劃能力的世界模型。他開創(chuàng)了用生成模型進(jìn)行決策規(guī)劃的新范式,并提出基于可組合性 和 “模型社會(huì)” 的下一代世界模型藍(lán)圖。

      OpenAI、FAIR、DeepMind 等諸多全球頂尖 AI 實(shí)驗(yàn)室,都留下過他的研究足跡。這些經(jīng)歷,讓他對(duì)行業(yè)前沿動(dòng)態(tài)有了多維度的深刻洞察。

      與此同時(shí),Yilun Du也始終堅(jiān)持著能量基模型(EBMs)的研究方向,為破解世界模型困境提供了關(guān)鍵思路。他早年聚焦能量景觀學(xué)習(xí),提出通過建模數(shù)據(jù)能量分布捕捉事物本質(zhì)。這一突破為 2020 年擴(kuò)散模型迭代埋下伏筆,也成了可組合生成建模的重要理論基石。他認(rèn)為,EBMs 能超越傳統(tǒng)模型的淺層擬合,挖掘底層能量邏輯,與世界模型的需求高度契合。就像孩子靠積木凹凸拼接、堆疊平衡的基本邏輯,能搭出城堡、橋梁等無(wú)數(shù)造型,Yilun Du 認(rèn)為,復(fù)雜世界的運(yùn)行也遵循著簡(jiǎn)潔深刻的底層規(guī)則。

      若能構(gòu)建可靈活組合、動(dòng)態(tài)適配這些規(guī)則的模型,就能突破訓(xùn)練數(shù)據(jù)局限,觸達(dá)數(shù)據(jù)集中從未出現(xiàn)過的新場(chǎng)景。而打開世界模型的 “理解之門”,還需跨越三座關(guān)鍵關(guān)卡:當(dāng)前模型缺乏因果性與物理規(guī)律、需支持良好規(guī)劃和要能泛化到未見過的事物。

      這是模型從實(shí)驗(yàn)室走向真實(shí)場(chǎng)景的關(guān)鍵,也是可組合建模的核心價(jià)值。關(guān)于如何突破這三重關(guān)卡,他在與智源的對(duì)話中分享了諸多洞見,從技術(shù)路徑的探索方向,到個(gè)人研究心得均有涉及,其中便包括他獨(dú)特的閱讀經(jīng)驗(yàn)—— “偏愛研讀經(jīng)典的 AI 老論文,尤其是心理學(xué)、神經(jīng)科學(xué)領(lǐng)域的相關(guān)文章”。以下是本期智源專訪的完整內(nèi)容。

      智源專訪欄目意在展現(xiàn)行業(yè)頂尖技術(shù)研究者和創(chuàng)業(yè)者的研究經(jīng)歷和故事,記錄技術(shù)世界的嬗變,激發(fā)當(dāng)代AI從業(yè)者的創(chuàng)新思維,啟迪認(rèn)知、關(guān)注突破性進(jìn)展,為行業(yè)注入靈感光芒。本次專訪為總第31期。

      簡(jiǎn)介:Yilun Du,哈佛大學(xué)肯普納研究所與計(jì)算機(jī)科學(xué)學(xué)院助理教授、博士生導(dǎo)師。麻省理工學(xué)院電子工程與計(jì)算機(jī)科學(xué)系博士,師從萊斯利·凱爾布林、托馬斯·洛薩諾-佩雷斯和約書亞·特南鮑姆教授。曾任OpenAI研究員,并在Meta FAIR與Google DeepMind從事研究。主要研究方向包括生成建模、具身智能、機(jī)器人學(xué)習(xí)與決策推理,致力于通過生成式人工智能構(gòu)建具備推理與規(guī)劃能力的世界模型。相關(guān)研究在NeurIPS、ICML、ICLR、ICCV、RSS等多次發(fā)表,其在能量基模型和擴(kuò)散模型方面的工作對(duì)生成式人工智能的發(fā)展具有重要影響。

      01


      學(xué)術(shù)起點(diǎn),高中起對(duì)生物充滿熱忱

      “對(duì)生物的興趣是我的重要起點(diǎn),讓我對(duì)如何創(chuàng)造智能產(chǎn)生濃厚興趣”

      采訪者:在求學(xué)和工作過程中,您認(rèn)為有哪些關(guān)鍵經(jīng)歷對(duì)您的學(xué)術(shù)方向產(chǎn)生了影響?

      Yilun Du第一個(gè)關(guān)鍵經(jīng)歷,是從小便接觸生物相關(guān)知識(shí)。那時(shí)我參加過生物奧林匹克競(jìng)賽,由此對(duì) “如何創(chuàng)造智能” 產(chǎn)生了濃厚興趣,所以高中階段對(duì)生物的熱忱,成了我探索智能領(lǐng)域的重要起點(diǎn)。進(jìn)入本科后,我關(guān)注到 DeepMind 及其 AlphaGo 的相關(guān)成果。這些突破讓我真切感受到 “創(chuàng)造人工智能” 這一方向的獨(dú)特魅力,也進(jìn)一步加深了我對(duì)該領(lǐng)域的興趣。本科第三年,我在 OpenAI 度過了 9 個(gè)月,期間主要圍繞能量基模型和人工智能模型開展研究。這段經(jīng)歷同樣意義非凡,也正是從這時(shí)起,我萌生了攻讀博士、投身科研的想法。

      采訪者:您在OpenAI、FAIR還有DeepMind這些頂尖實(shí)驗(yàn)室都有過研究經(jīng)歷,這些不同的環(huán)境,在研究風(fēng)格、問題選擇以及目標(biāo)上會(huì)有什么不同嗎?

      Yilun Du差異較大。2018年我在OpenAI時(shí),它才剛剛起步,總共只有二十幾個(gè)人。那時(shí)候80%的人在做強(qiáng)化學(xué)習(xí),20%的人在做各種深度生成模型,比如語(yǔ)言模型或者我們當(dāng)時(shí)在做的能量基模型,和現(xiàn)在的OpenAI很不一樣,規(guī)模真的很小。不過那時(shí)候OpenAI的人們特別專注,大家都非常相信自己所做的事情,我覺得現(xiàn)在行業(yè)里最聰明的一批人都在那里,每個(gè)人都很投入。

      而FAIR、DeepMind等公司規(guī)模則大得多,每個(gè)公司都有好幾百人甚至好幾千人,整體氛圍會(huì)輕松一些,和OpenAI的緊張專注不太一樣,而且大家對(duì)科研的關(guān)注點(diǎn)也有所不同。在人工智能領(lǐng)域,OpenAI的研究方向和硅谷的關(guān)聯(lián)更緊密,大家特別想做出通用人工智能相關(guān)的成果。但DeepMind的研究更偏向科研性質(zhì),有些人關(guān)注計(jì)算機(jī)科學(xué),有些人專注神經(jīng)科學(xué),還有人研究人工智能在科學(xué)領(lǐng)域的應(yīng)用,研究方向更開放、沒有那么局限。我?guī)啄昵霸贔AIR的時(shí)候,那里的研究氛圍也比較開放,當(dāng)時(shí)我們?cè)谧鯢AIR Protein相關(guān)的研究,類似ESM這種用語(yǔ)言模型研究蛋白質(zhì)的方向,整體也是比較開放的狀態(tài)。

      采訪者:在這些過往經(jīng)歷中,您覺得有沒有對(duì)您影響特別大的人物或者相關(guān)的理論?

      Yilun Du:我在 OpenAI 期間經(jīng)歷了蠻大的轉(zhuǎn)變。當(dāng)初選擇加入 OpenAI,是因?yàn)榭吹剿麄冮_發(fā)出能玩《DOTA2》的智能體,所以最開始我對(duì)智能體格外感興趣。在 OpenAI 的日子里,我每天都會(huì)和 Ilya Sutskever 交流,他常跟我說(shuō),自己不太相信通用強(qiáng)化學(xué)習(xí),卻對(duì)通用模型格外認(rèn)可,尤其是能量基模型。

      也正因如此,我從那時(shí)起開始投身能量基模型與通用模型的研究。那會(huì)兒行業(yè)里,大家基本都在使用生成對(duì)抗網(wǎng)絡(luò),且這類網(wǎng)絡(luò)僅應(yīng)用于圖像領(lǐng)域;同時(shí)智能體的研究正當(dāng)火熱,幾乎沒人涉足生成模型相關(guān)方向,所以我們當(dāng)時(shí)做這個(gè)領(lǐng)域,總覺得格外有意義。

      從那之后,我便一直對(duì)能量基模型抱有濃厚興趣。后來(lái)依托我們?cè)谀芰炕P蜕系难芯浚盅由斐鰯U(kuò)散模型相關(guān)的工作 —— 由于擴(kuò)散模型與能量基模型極為相似,我們還將之前在能量基模型上的成果遷移到了擴(kuò)散模型中。這段經(jīng)歷,也讓我最終確定了如今的研究方向。


      圖注:Ilya Sutskever圖片(圖源CNN)

      02

      EBM或?qū)⒃谕评眍I(lǐng)域有大突破

      “真正想學(xué)習(xí)的EBM,是要讓真實(shí)答案都是低能量,其余答案都是高能量。”

      采訪者:請(qǐng)您分析一下基于能量基模型(EBM)和基于分?jǐn)?shù)(score)的模型,您認(rèn)為它們有什么不一樣的地方?各自有什么優(yōu)點(diǎn)、缺點(diǎn)呢?

      Yilun Du其實(shí)可以說(shuō)分?jǐn)?shù)模型就是能量基模型的一種。傳統(tǒng)意義上,分?jǐn)?shù)匹配是訓(xùn)練能量基模型的一種方法。但能量基模型本身有個(gè)特點(diǎn):當(dāng)你學(xué)習(xí)到能量景觀之后,若想生成一張圖像,便可采用自適應(yīng)測(cè)試時(shí)計(jì)算的方式 —— 你希望能量?jī)?yōu)化運(yùn)行多久,它便能運(yùn)行多久。如此一來(lái),比如生成圖像時(shí),你能通過運(yùn)行多步朗之萬(wàn)動(dòng)力學(xué)得到理想圖像。這正是能量基模型的優(yōu)勢(shì)所在,即可以通過控制采樣時(shí)間,提升生成結(jié)果的質(zhì)量。而分?jǐn)?shù)模型,正是學(xué)習(xí)能量基模型的一種方式。像大家熟知的 Jaccard 相似系數(shù),早在 21 世紀(jì)初就有不少人探索這種方法。從這個(gè)角度來(lái)講,分?jǐn)?shù)模型其實(shí)就是能量基模型的一種。

      注:Jaccard相似系數(shù)主要用于計(jì)算符號(hào)度量或布爾值度量的個(gè)體間的相似度(一般用于解決非對(duì)稱二元的相關(guān)性問題),無(wú)法衡量差異具體值的大小,只能獲得“是否相同”這個(gè)結(jié)果,所以Jaccard系數(shù)只關(guān)心個(gè)體間共同具有的特征是否一致這個(gè)問題。Jaccard系數(shù)等于樣本集交集與樣本集合四集的比值,可以用于計(jì)算兩個(gè)集合的相似性,無(wú)論這些集合是文檔、用戶的興趣愛好或任何其他類型的集合。

      采訪者:在未來(lái)兩三年里,EBM可能會(huì)最先在哪一個(gè)應(yīng)用領(lǐng)域取得突破?

      Yilun Du:我覺得能量基模型在推理領(lǐng)域應(yīng)該會(huì)有蠻大的突破。現(xiàn)在推理的一個(gè)核心問題,是如何通過更多的測(cè)試時(shí)計(jì)算,得到更優(yōu)的答案。當(dāng)下大家用鏈?zhǔn)剿季S做推理,會(huì)發(fā)現(xiàn)很多推理任務(wù)其實(shí)頗具難度 —— 有些推理過程難以用語(yǔ)言清晰表述,而且當(dāng)鏈?zhǔn)剿季S的流程拉得很長(zhǎng)時(shí),也很難明確它具體的運(yùn)行邏輯。

      能量基模型有個(gè)鮮明特點(diǎn),就是能通過采樣直接生成答案,因此你可以通過多步優(yōu)化,逐步趨近并得到最終答案。我們最近有一篇論文《Multi-agent Verification: Scaling Test-time Compute with Multiple Verifiers》,正是將語(yǔ)言模型的可能性也視作一種能量,再在其上通過采樣開展推理。

      所以我認(rèn)為,用采樣與迭代優(yōu)化的思路來(lái)做推理,是讓模型能夠依據(jù)可用時(shí)間,靈活決定測(cè)試時(shí)計(jì)算量的好方式。


      圖注:《Multi-agent Verification: Scaling Test-time Compute with Multiple Verifiers》

      采訪者目前最關(guān)心的研究方向是什么?

      Yilun Du:總的來(lái)說(shuō),我現(xiàn)在對(duì)智能體的構(gòu)建格外感興趣。比如如何打造出色的機(jī)器人,讓它能完成各類家庭或工作任務(wù);又或者如何研發(fā)線上智能體,幫人們處理發(fā)郵件、購(gòu)物等事務(wù) —— 核心就是探索智能體的構(gòu)建方法。我感覺目前最大的問題,在于現(xiàn)有系統(tǒng)在這方面的表現(xiàn)都不盡如人意。像語(yǔ)言模型智能體,環(huán)境稍有變化便無(wú)法正常工作,可靠性不足;機(jī)器人也是如此,一旦環(huán)境改變或接到新任務(wù),往往難以順利運(yùn)行。

      我認(rèn)為問題的核心在于決策環(huán)節(jié)。世界本身存在無(wú)限可能,我或許會(huì)給智能體設(shè)定從未見過的目標(biāo),而這些目標(biāo)并未包含在訓(xùn)練數(shù)據(jù)集中,導(dǎo)致系統(tǒng)在新環(huán)境下無(wú)法給出理想答案。這便是泛化難題。通常訓(xùn)練神經(jīng)網(wǎng)絡(luò)時(shí),它會(huì)擬合給定的訓(xùn)練數(shù)據(jù)集,但在決策任務(wù)中,遇到未見過的目標(biāo),就會(huì)超出數(shù)據(jù)集的覆蓋范圍。

      那該如何解決這個(gè)問題呢?我認(rèn)為必須讓系統(tǒng)具備推理能力,能夠通過規(guī)劃或搜索得出答案。具體該如何通過搜索與規(guī)劃獲取動(dòng)作呢?我們一直在開展能量基模型相關(guān)的研究,也可以采用廣度模型,比如學(xué)習(xí)一個(gè)動(dòng)力學(xué)模型。有了動(dòng)力學(xué)模型,再結(jié)合動(dòng)作序列,就能得到動(dòng)作軌跡;依據(jù)這些動(dòng)作可計(jì)算出能量,進(jìn)而借助能量進(jìn)行搜索。所以我覺得,要做好決策,離不開通過搜索或推理來(lái)獲取答案。

      采訪者:在實(shí)際落地過程中,EBM的穩(wěn)定性和收斂性是否是現(xiàn)在的工程挑戰(zhàn)之一?目前有哪些解決思路?

      Yilun Du:有一個(gè)思路是,擴(kuò)散模型中的分?jǐn)?shù)匹配其實(shí)就是 EBM 的一種訓(xùn)練方式,因此可將擴(kuò)散模型大致解釋為 EBM。不過兩者存在一點(diǎn)差別:擴(kuò)散模型通常只需運(yùn)行幾步,從噪聲起步,依據(jù)時(shí)間積分即可得到答案。但若是將決策模型解釋為 EBM,采樣過程便有所不同 —— 需在高噪聲水平下運(yùn)行多步以獲取一個(gè)答案,隨后進(jìn)入下一個(gè)時(shí)間步,再運(yùn)行多步。如此一來(lái),其實(shí)可以將未來(lái)模型轉(zhuǎn)化為類似 EBM 的形態(tài)。我們最近有一篇論文《Equilibrium Matching: Generative Modeling with Implicit Energy-Based Models》的,把流匹配這類方法稍作修改,便使其成為了真正的 EBM,可見二者本質(zhì)上十分接近。

      當(dāng)然,我們真正希望學(xué)習(xí)的 EBM,需讓真實(shí)答案均處于低能量狀態(tài),其余答案則處于高能量狀態(tài)。但通過分?jǐn)?shù)匹配的方式學(xué)習(xí)能量景觀時(shí),每個(gè)正確答案都會(huì)成為一個(gè)局部最小值,能量在此處雖達(dá)到最低,可這些能量值有高有低,并非理想的 EBM 景觀。因此,若想真正學(xué)習(xí)到優(yōu)質(zhì)的 EBM 基線,還必須借助對(duì)比學(xué)習(xí) —— 需找到辦法將所有正確答案的能量向下壓制,同時(shí)將其余答案的能量向上推升。這一過程頗具難度,核心在于要設(shè)法構(gòu)建出優(yōu)質(zhì)的負(fù)樣本。


      圖注:Multi-agent Verification: Scaling Test-time Compute with Multiple Verifiers網(wǎng)站頁(yè)面

      03

      世界模型,如何泛化到前所未見的事物?

      “世界上只有幾個(gè)簡(jiǎn)單的規(guī)則,構(gòu)建一個(gè)組合模型就能泛化到其他”

      采訪者:目前世界模型方面,要攻克的最關(guān)鍵問題是什么?

      Yilun Du:我覺得世界模型有幾個(gè)關(guān)鍵問題。第一個(gè)大問題,現(xiàn)在的世界模型不夠有因果性,也不夠符合物理規(guī)律。比如讓像Sora這樣的模型去抓一個(gè)杯子,杯子可能就浮起來(lái)了,其實(shí)根本沒抓上,說(shuō)明這些世界模型的物理準(zhǔn)確性不足。

      第二個(gè)問題,世界模型并不需要最準(zhǔn)確的,而是需要能支持良好規(guī)劃的能力。比如我想規(guī)劃去夏威夷旅游,如果用現(xiàn)在的視頻生成模型作為世界模型,是做不到的,因?yàn)樽屗M“打開網(wǎng)站、點(diǎn)擊按鈕訂機(jī)票”這個(gè)過程,每一步都模擬不出來(lái)。我覺得有些任務(wù)中,世界模型不應(yīng)該模擬每一張照片,有時(shí)候需要模擬幾張照片,而有時(shí)候需要模擬更高層次的知識(shí)。所以世界知識(shí)必須是分層的,不只是模擬下面幾幀照片的方式。

      第三個(gè)大問題,需要讓這些模型能泛化到?jīng)]見過的東西。比如YouTube上有各種視頻,像“抓杯子”的視頻很多,但“沒抓好杯子把杯子摔壞”的視頻很少。但如果真想把視頻模型用在機(jī)器人上,就必須讓模型能準(zhǔn)確模擬沒見過的場(chǎng)景。所以怎么實(shí)現(xiàn)這種好的泛化能力,是個(gè)很有意思的問題。我們一直在做組合結(jié)構(gòu)相關(guān)的工作,認(rèn)為世界上其實(shí)只有幾個(gè)簡(jiǎn)單的規(guī)則,只要構(gòu)建一個(gè)能把這些簡(jiǎn)單規(guī)則組合起來(lái)的模型,就能泛化到?jīng)]見過的場(chǎng)景。但泛化確實(shí)是個(gè)大問題,現(xiàn)在大家展示世界模型時(shí)只放幾個(gè)視頻,能展示幾個(gè)好的案例,但如果要真正用在機(jī)器人上,不能只生成一兩個(gè)視頻,而是要100%的時(shí)候都能生成好的動(dòng)作規(guī)劃,所以泛化能力就非常重要了。

      采訪者:關(guān)于現(xiàn)有的那些世界模型,它們的方法有哪些?

      Yilun Du我感覺如今大家似乎把許多事物都稱作世界模型。有人會(huì)說(shuō)圖像模型是世界模型,也有人認(rèn)為視頻模型屬于世界模型。在我看來(lái),不妨去翻閱傳統(tǒng) AI 的論文,其中便有 “基于模型的智能” 這一概念。像邏輯專家系統(tǒng)這類傳統(tǒng) AI 系統(tǒng),都秉持著這樣的思路:先建立一個(gè)數(shù)據(jù)庫(kù)或儲(chǔ)備一些信息,用以描述世界的演變規(guī)律;再設(shè)計(jì)一個(gè)推理過程,結(jié)合既定目標(biāo),通過推理,依據(jù)信息數(shù)據(jù)庫(kù)與目標(biāo)推導(dǎo)出最終答案。我認(rèn)為,這才是世界模型最通用的形態(tài)。

      采訪者:世界模型應(yīng)該要記住世界的哪些關(guān)鍵信息,它又是怎么篩選那些信息的?

      Yilun Du:這是個(gè)有意思的問題,其實(shí)我們不太清楚到底要記哪些信息。一方面,大型語(yǔ)言模型記了很多信息,尤其是高層級(jí)信息,比如想訂機(jī)票去開會(huì),它知道每一步該怎么操作,所以語(yǔ)言模型有特別多的高層級(jí)信息。另一方面,視頻模型則有更多低層級(jí)的物理信息,比如想系鞋帶,視頻模型可以告訴我具體怎么做。再比如動(dòng)作模型、觸覺模型或者音頻模型,它們又各自包含各種其他信息。所以我的感覺是,我們也不太清楚到底需要多少信息,但應(yīng)該把現(xiàn)在這些模型都當(dāng)作不同的信息源。比如我們有了這些源信息,再把機(jī)器人放在真實(shí)世界中,讓它在真實(shí)世界里學(xué)習(xí)剩下未知的信息。

      怎么篩選到有用的信息,這也特別重要。因?yàn)樾畔⒘看蟮脑挘茈y找到正確的答案或信息來(lái)完成想做的事。不過現(xiàn)在的語(yǔ)言模型其實(shí)有一個(gè)非常高效的獲取信息的方式 —— 傳統(tǒng)的數(shù)據(jù)庫(kù)信息量大,但查到正確答案很費(fèi)勁,而語(yǔ)言模型只要你問它問題,就能給出一個(gè)答案。這個(gè)答案可能不準(zhǔn)確,所以需要多花點(diǎn)時(shí)間計(jì)算 / 推理來(lái)得到正確答案,但至少答案應(yīng)該是比較接近準(zhǔn)確的。

      所以我覺得可以用現(xiàn)在的生成模型作為幫助找到有用信息的方式。你可以想象,我有一個(gè)語(yǔ)言模型、一個(gè)視頻模型、一個(gè)動(dòng)作模型,根據(jù)我需要的信息直接查詢這些模型,就能得到大概需要的信息了。


      圖注:Yilun Du 參加神經(jīng)人工智能前沿研討會(huì),討論“學(xué)習(xí)世界組合模型”

      采訪者:關(guān)于具身智能領(lǐng)域,宏觀趨勢(shì)下,未來(lái)10年可能推動(dòng)具身智能進(jìn)步的核心驅(qū)動(dòng)力會(huì)是什么?

      Yilun Du我認(rèn)為當(dāng)前存在幾個(gè)關(guān)鍵問題亟待解決。第一個(gè)尤為突出的問題是記憶缺失。如今我們研發(fā)的系統(tǒng),比如依據(jù)單張照片執(zhí)行策略的模型,普遍缺乏記憶能力。正因?yàn)闆]有記憶,舉個(gè)例子,若要尋找某件物品,它可能打開柜子后又關(guān)上,過不了多久,就因毫無(wú)記憶再次打開同一個(gè)柜子。這便是當(dāng)下模型普遍面臨的記憶短板。更關(guān)鍵的是,即便在策略中融入記憶模塊,實(shí)際效果也不盡如人意 —— 這些策略往往無(wú)法真正理解記憶的價(jià)值與用途。

      第二個(gè)核心問題是持續(xù)學(xué)習(xí)的實(shí)現(xiàn)。現(xiàn)在的模型,大多依賴龐大的數(shù)據(jù)集完成訓(xùn)練,訓(xùn)練結(jié)束后,進(jìn)入真實(shí)世界便不再具備學(xué)習(xí)能力。但人類截然不同,比如接觸一款新工具、學(xué)習(xí)一項(xiàng)新任務(wù),都能快速掌握。因此,讓系統(tǒng)擁有快速學(xué)習(xí)新事物的能力,同樣是重中之重。

      第三個(gè)問題,我認(rèn)為也至關(guān)重要,那就是搜索與推理能力的欠缺。如今的語(yǔ)言模型,瀏覽過的文本數(shù)量遠(yuǎn)超任何人,積累的知識(shí)也極為龐大,卻鮮少有真正的創(chuàng)造力。比如多數(shù)數(shù)學(xué)定理之類的內(nèi)容,語(yǔ)言模型在預(yù)訓(xùn)練階段早已接觸,從這個(gè)角度看,這些模型更像是信息檢索工具 —— 即便存儲(chǔ)了海量數(shù)據(jù),也無(wú)法在此基礎(chǔ)上展開推理。而人類獲取這些數(shù)據(jù)后,能以全新的方式將其組合,進(jìn)而得出新的見解、找到新的解決方案。

      在我看來(lái),當(dāng)前的神經(jīng)網(wǎng)絡(luò)系統(tǒng)更偏向模式識(shí)別工具,僅學(xué)會(huì)了極為簡(jiǎn)單的計(jì)算邏輯,并未掌握真正通用、可泛化的能力。若想研發(fā)更先進(jìn)的人工智能,必須打造更多具備高層級(jí)推理能力的系統(tǒng)。具體該如何實(shí)現(xiàn)?我認(rèn)為搜索與規(guī)劃能力必不可少,我們所研究的能量基模型,正是實(shí)現(xiàn)高層級(jí)推理的路徑之一,這也是第三點(diǎn)需要突破的核心方向。

      采訪者:您現(xiàn)在所倡導(dǎo)的基于可組合能量圖譜的具身智能路線,和目前比較火的VLA模型路線,最大的分歧點(diǎn)在哪里?

      Yilun Du在我看來(lái),VLA 的邏輯對(duì)我而言并不合理。VLA 的核心是將圖像、文本與動(dòng)作進(jìn)行映射,但實(shí)際上,傳統(tǒng)機(jī)器人決策存在兩種經(jīng)典路徑:一是學(xué)習(xí)策略,二是學(xué)習(xí)模型。在處理機(jī)器人相關(guān)問題時(shí),傳統(tǒng)方法往往更傾向于學(xué)習(xí)模型。

      以控制機(jī)器人抓取物體為例,一種簡(jiǎn)單的思路是記錄每一步所需動(dòng)作,之后通過回放完成任務(wù),這屬于無(wú)模型的方式。而基于模型的方式,則是先學(xué)習(xí)機(jī)器人的運(yùn)動(dòng)學(xué)模型,掌握物體的 3D 姿態(tài),再依據(jù)這些信息計(jì)算出抓取方案。這兩種方式中,前者顯然更簡(jiǎn)便,只需記錄動(dòng)作即可;但后者的泛化能力要強(qiáng)得多 —— 即便將蘋果放到新的位置,依然能通過類似的計(jì)算完成抓取。

      我認(rèn)為這正是二者的核心差異。如今的 VLA,本質(zhì)上更接近記錄動(dòng)作的思路:依靠海量數(shù)據(jù)訓(xùn)練,模型在數(shù)據(jù)中產(chǎn)生過擬合,最終只能根據(jù)見過的圖像預(yù)測(cè)動(dòng)作。因此 VLA 的泛化能力極差,只要遇到不同的物體,或是接收到不同的語(yǔ)言指令,便無(wú)法正常工作。

      比如面前放著蘋果時(shí)讓它去抓橘子,它仍會(huì)沿用抓取蘋果的方式 —— 因?yàn)槟P筒⑽凑莆崭邔蛹?jí)推理能力,只是機(jī)械記住了見過的演示過程。而我們的研究方向,是學(xué)習(xí)世界模型或能量基模型,再在此基礎(chǔ)上展開推理,更貼近傳統(tǒng)機(jī)器人采用的基于模型的方式:先學(xué)習(xí)世界模型,再確立作為目標(biāo)函數(shù)的能量函數(shù),最后通過運(yùn)行搜索與規(guī)劃得出動(dòng)作。我們相信,這種方式才能真正解決未見過的問題,而非僅能應(yīng)對(duì)已 “死記硬背” 的場(chǎng)景,這便是我們研究的核心方向。

      04

      品讀經(jīng)典,六十年代的神經(jīng)學(xué)探索

      “我偏愛研讀經(jīng)典的 AI 老論文,以及心理學(xué)、神經(jīng)科學(xué)領(lǐng)域的相關(guān)文章。”

      采訪者:如今很多研究方向呈現(xiàn)同質(zhì)化,如何看待當(dāng)前卷帙浩繁的論文?

      Yilun Du我不太喜歡,也很少去讀如今大家頻繁發(fā)在網(wǎng)上的那些論文。在我看來(lái),要是天天沉浸在這些熱門論文里,自己做的研究很容易就會(huì)和眾人趨同 —— 畢竟大家關(guān)注的都是同一批熱點(diǎn)文章。所以我更偏愛讀一些經(jīng)典論文。比如今年我在講授一門課程時(shí),便帶著學(xué)生從 1950 年開始,研讀各類七八十年代,甚至五六十年代的人工智能文章。

      品讀這些經(jīng)典老文,你會(huì)發(fā)現(xiàn)如今大家鉆研的許多內(nèi)容,其實(shí)前人早已探索過;但同時(shí)也能清晰看到不同研究方法的優(yōu)劣所在。在我看來(lái),讀老論文是個(gè)很有價(jià)值的方式。此外,我還很喜歡讀心理學(xué)或神經(jīng)科學(xué)領(lǐng)域的文章,畢竟人類本身就是一個(gè)極具代表性的智能范例。你可以觀察人類如何學(xué)習(xí)知識(shí),再由此思考怎樣讓人工智能實(shí)現(xiàn)人類具備的能力。

      只要你稍微翻開幾本神經(jīng)科學(xué)的書籍,就會(huì)發(fā)現(xiàn)其中有大量研究圍繞記憶構(gòu)建、持續(xù)學(xué)習(xí)、模型控制展開,這些都是由來(lái)已久的傳統(tǒng)研究方向。借助這些內(nèi)容,你能清楚意識(shí)到當(dāng)前人工智能的能力與人類智能之間的差距,進(jìn)而發(fā)掘出許多值得深入探索的研究問題。

      采訪者:神經(jīng)科學(xué)領(lǐng)域,有沒有什么讓您有很大啟發(fā)的idea?

      Yilun Du:從神經(jīng)科學(xué)中學(xué)到的一些觀點(diǎn),給了我不少啟發(fā)。其中有一點(diǎn)格外有意思:人腦并非一個(gè)單一的龐大模型,而是由各類功能模塊構(gòu)成的復(fù)雜系統(tǒng)。比如,大腦中有負(fù)責(zé)語(yǔ)言表達(dá)的區(qū)域、負(fù)責(zé)聽覺感知的區(qū)域,也有負(fù)責(zé)動(dòng)作控制的區(qū)域。即便有人大腦的某一區(qū)域出現(xiàn)問題,他依然能夠正常思考、正常聆聽,只是無(wú)法順利說(shuō)話而已。

      由此可見,人腦是一個(gè)高度模塊化的系統(tǒng),各個(gè)模塊各司其職又協(xié)同配合,最終共同支撐起完整的智能。我們目前開展的許多研究,正是在探索如何將各類模型整合起來(lái),構(gòu)建出更具智能的整體系統(tǒng) —— 這一思路,大概就是從神經(jīng)科學(xué)的研究中得到的啟發(fā)。

      采訪者:有哪些看起來(lái)有些“過時(shí)”的經(jīng)典論文推薦研讀?

      Yilun Du有許多極具價(jià)值的經(jīng)典論文。比如 Marvin Minsky 撰寫的《Steps Towards Artificial Intelligence》,若你細(xì)細(xì)品讀便會(huì)發(fā)現(xiàn),如今學(xué)界研究的幾乎每一個(gè)方向,文中都曾提及 —— 他不僅探討了神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)方法,還闡述了強(qiáng)化學(xué)習(xí)、搜索規(guī)劃的實(shí)現(xiàn)路徑,以及記憶機(jī)制的構(gòu)建思路。再如 John McCarthy 的《Programs with Common Sense》,文中詳細(xì)論述了智能系統(tǒng)所需的核心要素,以及如何借助邏輯實(shí)現(xiàn)這些功能。此外,Marvin Minsky 還有一本著作《The Society of Mind》,專門講解如何通過去中心化的 AI 智能體或去中心化的 AI 組件,搭建起一個(gè)完整的智能系統(tǒng)。我覺得這些內(nèi)容都格外有意思。實(shí)際上,這類稍早的經(jīng)典文獻(xiàn)并不難尋,稍加檢索就能找到。但當(dāng)你真正讀進(jìn)去就會(huì)發(fā)現(xiàn),現(xiàn)在我們探索的各種想法,前人早已埋下過思想的種子。


      圖注:《The Society of Mind》

      閱讀最新前沿科技趨勢(shì)報(bào)告,請(qǐng)?jiān)L問歐米伽研究所的“未來(lái)知識(shí)庫(kù)”

      https://wx.zsxq.com/group/454854145828


      未來(lái)知識(shí)庫(kù)是“ 歐米伽 未來(lái)研究所”建立的在線知識(shí)庫(kù)平臺(tái),收藏的資料范圍包括人工智能、腦科學(xué)、互聯(lián)網(wǎng)、超級(jí)智能,數(shù)智大腦、能源、軍事、經(jīng)濟(jì)、人類風(fēng)險(xiǎn)等等領(lǐng)域的前沿進(jìn)展與未來(lái)趨勢(shì)。目前擁有超過8000篇重要資料。每周更新不少于100篇世界范圍最新研究資料。 歡迎掃描二維碼或訪問https://wx.zsxq.com/group/454854145828進(jìn)入。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      河南南陽(yáng)一佳人好漂亮, 身高169cm,體重50kg 美的讓人移不開眼

      河南南陽(yáng)一佳人好漂亮, 身高169cm,體重50kg 美的讓人移不開眼

      東方不敗然多多
      2025-12-25 07:00:37
      獨(dú)居老人凌晨去世,消失的手機(jī)在冰箱里,“臥室整潔”的細(xì)節(jié)引起家人懷疑……

      獨(dú)居老人凌晨去世,消失的手機(jī)在冰箱里,“臥室整潔”的細(xì)節(jié)引起家人懷疑……

      方圓
      2025-12-22 16:30:46
      南博事件背后勢(shì)力已冒頭,舉報(bào)人被恐嚇,知情人曝新進(jìn)展

      南博事件背后勢(shì)力已冒頭,舉報(bào)人被恐嚇,知情人曝新進(jìn)展

      削桐作琴
      2025-12-25 17:33:48
      徐湖平夫妻被帶走!紅二代身份曝光,一家三口精密布局盜寶

      徐湖平夫妻被帶走!紅二代身份曝光,一家三口精密布局盜寶

      西門老爹
      2025-12-25 18:42:42
      阿維塔宣稱南極-50℃極寒測(cè)試,被網(wǎng)友打假:南極現(xiàn)在是夏季

      阿維塔宣稱南極-50℃極寒測(cè)試,被網(wǎng)友打假:南極現(xiàn)在是夏季

      玩車專家1
      2025-12-25 17:24:33
      克宮為什么拒絕“和平計(jì)劃”?給俄粉們普及一下常識(shí),預(yù)報(bào)一大捷

      克宮為什么拒絕“和平計(jì)劃”?給俄粉們普及一下常識(shí),預(yù)報(bào)一大捷

      鷹眼Defence
      2025-12-25 18:33:03
      賈國(guó)龍:假如西貝活不下來(lái),絕對(duì)不會(huì)再創(chuàng)業(yè)了,和夫人回草原養(yǎng)羊

      賈國(guó)龍:假如西貝活不下來(lái),絕對(duì)不會(huì)再創(chuàng)業(yè)了,和夫人回草原養(yǎng)羊

      好賢觀史記
      2025-12-25 22:34:27
      一車企海報(bào)被指“用粵語(yǔ)不雅詞匯”引爭(zhēng)議,廣東網(wǎng)友:有被冒犯到,數(shù)字“7”因發(fā)音問題,在日常交流中需謹(jǐn)慎避諱;當(dāng)前爭(zhēng)議海報(bào)已被撤換

      一車企海報(bào)被指“用粵語(yǔ)不雅詞匯”引爭(zhēng)議,廣東網(wǎng)友:有被冒犯到,數(shù)字“7”因發(fā)音問題,在日常交流中需謹(jǐn)慎避諱;當(dāng)前爭(zhēng)議海報(bào)已被撤換

      揚(yáng)子晚報(bào)
      2025-12-25 18:00:21
      117-102!馬刺三殺雷霆迎8連勝,文班亞19+11,亞歷山大22分

      117-102!馬刺三殺雷霆迎8連勝,文班亞19+11,亞歷山大22分

      全景體育V
      2025-12-26 06:19:46
      46條中日航線取消才1天,就炸出一群“牛鬼蛇神”,鄭強(qiáng)說(shuō)對(duì)了

      46條中日航線取消才1天,就炸出一群“牛鬼蛇神”,鄭強(qiáng)說(shuō)對(duì)了

      除夕煙火燦爛
      2025-12-25 10:00:49
      多位央企董事長(zhǎng)集中被撤委員資格,釋放哪些從嚴(yán)信號(hào)?

      多位央企董事長(zhǎng)集中被撤委員資格,釋放哪些從嚴(yán)信號(hào)?

      運(yùn)營(yíng)商段子手
      2025-12-26 00:14:14
      泰防長(zhǎng)怒批某國(guó)“偽中立”:只逼泰國(guó)停火,卻偏袒柬埔寨

      泰防長(zhǎng)怒批某國(guó)“偽中立”:只逼泰國(guó)停火,卻偏袒柬埔寨

      胡嚴(yán)亂語(yǔ)
      2025-12-25 15:15:35
      剛剛!人民幣匯率正式破7,五大影響

      剛剛!人民幣匯率正式破7,五大影響

      說(shuō)財(cái)貓
      2025-12-25 12:21:19
      擴(kuò)軍也無(wú)望?56歲范志毅央視語(yǔ)出驚人:2038年世界杯國(guó)足才有望進(jìn)

      擴(kuò)軍也無(wú)望?56歲范志毅央視語(yǔ)出驚人:2038年世界杯國(guó)足才有望進(jìn)

      我愛英超
      2025-12-25 21:06:51
      誰(shuí)偷走了我們的圣誕節(jié)?誰(shuí)偷走了我們的商業(yè)客流?

      誰(shuí)偷走了我們的圣誕節(jié)?誰(shuí)偷走了我們的商業(yè)客流?

      火星宏觀
      2025-12-26 01:00:53
      最新 | 雷軍突發(fā)!全網(wǎng)禁評(píng)!

      最新 | 雷軍突發(fā)!全網(wǎng)禁評(píng)!

      天津廣播
      2025-12-25 22:55:42
      美國(guó)人的斬殺線,將成為新的互聯(lián)網(wǎng)圣經(jīng)

      美國(guó)人的斬殺線,將成為新的互聯(lián)網(wǎng)圣經(jīng)

      楓冷慕詩(shī)
      2025-12-25 14:39:02
      15分大勝!馬刺三殺衛(wèi)冕冠軍:文班19+11,福克斯打爆亞歷山大

      15分大勝!馬刺三殺衛(wèi)冕冠軍:文班19+11,福克斯打爆亞歷山大

      體壇小李
      2025-12-26 07:32:28
      浙江某建筑集團(tuán)“暴雷”,大面積欠薪!

      浙江某建筑集團(tuán)“暴雷”,大面積欠薪!

      黯泉
      2025-12-25 23:38:43
      醫(yī)生提醒:若長(zhǎng)期一天只吃兩頓飯,用不了半年,或患上這4種疾病

      醫(yī)生提醒:若長(zhǎng)期一天只吃兩頓飯,用不了半年,或患上這4種疾病

      瑛派兒老黃
      2025-12-24 08:05:26
      2025-12-26 07:43:00
      人工智能學(xué)家 incentive-icons
      人工智能學(xué)家
      人工智能領(lǐng)域權(quán)威媒體
      4420文章數(shù) 37357關(guān)注度
      往期回顧 全部

      科技要聞

      “不再是機(jī)器人大國(guó)”,日本錯(cuò)過了什么?

      頭條要聞

      美國(guó)始料未及:日本防衛(wèi)開支若到GDP3% "安保條約"作廢

      頭條要聞

      美國(guó)始料未及:日本防衛(wèi)開支若到GDP3% "安保條約"作廢

      體育要聞

      約基奇有多喜歡馬?

      娛樂要聞

      朱孝天把阿信好意當(dāng)球踢!

      財(cái)經(jīng)要聞

      新規(guī)來(lái)了,年化超24%的小貸被即刻叫停

      汽車要聞

      速來(lái)!智界在上海西岸準(zhǔn)備了年末潮流盛典

      態(tài)度原創(chuàng)

      時(shí)尚
      藝術(shù)
      手機(jī)
      本地
      親子

      冬季穿衣別顯得太臃腫!大衣收腰、搭配圍巾,有質(zhì)感又高級(jí)

      藝術(shù)要聞

      William Dyce:19世紀(jì)蘇格蘭重要的畫家

      手機(jī)要聞

      行業(yè)唯一徠卡2億像素連續(xù)光變長(zhǎng)焦!小米17 Ultra星空綠圖賞

      本地新聞

      這輩子要積多少德,下輩子才能投胎到德國(guó)當(dāng)狗

      親子要聞

      首都兒研所又出狠貨「兒童霜」!新華網(wǎng)力薦,北京媽媽排隊(duì)買...

      無(wú)障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: v一区无码内射国产| AV秘 无码一区二| 99RE6在线观看国产精品| www.大熟女| 无码天堂成人| 先锋影音男人av资源| 成人国产片女人爽到高潮| 久久香蕉国产线看观看猫咪av| 国产3P视频| 国产AⅤ爽aV久久久久成人小说| 久久精品亚洲精品国产色婷| 亚洲精品久久久口爆吞精| 亚洲一本大道在线| 日本久久综合| 99er热精品视频| 久久精品国产精品亚洲艾草网| 91国在线啪精品一区| 无码久久久| 国产AV久久| 久久一本人碰碰人碰| 免费无码一区二区三区蜜桃大| 色77777| 双峰县| 国产欧美日韩精品a在线观看 | 中国女人和老外的毛片| 中文www新版资源在线| 国产精品黄色片| 国产wwww| 五月天激情国产综合婷婷婷| 男女啪啪做爰高潮免费网站| 亚洲天堂在线播放| 毛色444综合网| 男女做aj视频免费的网站| 日本一本正道综合久久dvd| 丝袜一级A片| 精品99视频| 内射合集对白在线| 久热这里只有精品12| 内射性感美女| 亚洲 a v无 码免 费 成 人 a v| 亚洲成av人片在一线观看|