<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      AI“破壁人”李國豪|甲子光年

      0
      分享至



      “我們想探索人和AI共存的社會(huì)是什么樣的。”

      作者|王藝

      編輯|王博

      北京時(shí)間1月13日凌晨四點(diǎn),Anthropic發(fā)布AI智能協(xié)作工具Claude Cowork,AI辦公自動(dòng)化領(lǐng)域從此迎來全新時(shí)代。


      Claude Cowork定位為辦公領(lǐng)域的“Claude Code”,圖片來源:Claude官網(wǎng)

      6個(gè)小時(shí)后,X上的一條推文像一記“破壁彈”打破了AI圈子的情緒閾值:“Anthropic Claude Cowork 剛剛殺死了我們初創(chuàng)公司的產(chǎn)品——所以我們做了最理性的決定:將它開源。”


      Claude Cowork發(fā)布六小時(shí)后一篇火爆X平臺(tái)的推文 圖片來源:X

      很快,它收獲了8000+點(diǎn)贊、180萬+瀏覽,討論的矛頭也從Cowork轉(zhuǎn)向了另一個(gè)名字:Eigent AI。

      Eigent AI是一個(gè)開源多智能體(Multi-Agent)協(xié)作平臺(tái),用戶可以用它在電腦上創(chuàng)建由多個(gè)AI Agent組成的虛擬團(tuán)隊(duì)。與單一的AI聊天助手不同,Eigent能夠協(xié)調(diào)多個(gè)專注于不同領(lǐng)域的Agent(如搜索員、程序員、文檔編寫員)并行協(xié)作,解決復(fù)雜的長(zhǎng)周期任務(wù)。

      Eigent AI(下文簡(jiǎn)稱Eigent)的背后,是CAMEL-AI開源社區(qū),以及它的創(chuàng)始人李國豪。李國豪擁有阿卜杜拉國王科技大學(xué)(KAUST)計(jì)算機(jī)博士學(xué)位,曾任牛津大學(xué)Philip Torr教授課題組的博士后研究員,曾在多個(gè)頂級(jí)國際會(huì)議與期刊(如ICCV、CVPR、ICML、NeurIPS、RSS、3DV和TPAMI)上發(fā)表論文。


      CAMEL AI部分成員合照,右一為李國豪。 圖片來源:受訪者提供

      在當(dāng)下的AI戰(zhàn)局中,他扮演著一個(gè)特殊的角色——“破壁人”。

      在《三體》中,破壁人看穿了面壁者深藏不露的戰(zhàn)略意圖,將那些試圖以絕對(duì)封閉來掌控全局的計(jì)劃公之于眾,徹底擊碎了思維的堡壘。而在今天的AI世界里,當(dāng)OpenAI、Anthropic等頂尖團(tuán)隊(duì)正試圖用閉源模型和斥資數(shù)億美元買斷的“訓(xùn)練環(huán)境”筑起高墻時(shí),李國豪選擇用“開源”來打破這堵墻。

      他不僅用開源把巨頭的圍墻撬開一條縫,爭(zhēng)取“智力的自由”;還在探索用多智能體把“單體智能”的天花板推到“組織級(jí)智能”。在他眼里,真正值得規(guī)模化的,不是一個(gè)能干活的智能體,而是一套能不斷擴(kuò)展成員、擴(kuò)展環(huán)境、擴(kuò)展協(xié)作邊界的“智能體社會(huì)”。

      “沒有心智社會(huì)就沒有智能。智慧從愚笨中來。”這是人工智能之父馬文·明斯基在其著作《心智社會(huì)(The Society of Mind)》中的一句話,這本書也是李國豪最喜歡的書之一,深刻影響了他對(duì)AI未來的構(gòu)想——李國豪堅(jiān)信“Local-first(本地優(yōu)先)”,認(rèn)為AI是人類智力的外延,不應(yīng)被少數(shù)巨頭壟斷,而應(yīng)像PC時(shí)代的個(gè)人電腦一樣,完全屬于用戶自己,并在多樣性的“心智社會(huì)”中協(xié)作與進(jìn)化。

      近日,「甲子光年」與李國豪進(jìn)行了一場(chǎng)長(zhǎng)達(dá)兩個(gè)半小時(shí)的深度對(duì)話。我們聊了聊他被巨頭“逼到墻角”后的開源反擊,探討了他打破大廠“環(huán)境”壟斷的破壁行動(dòng),也走進(jìn)了這位曾經(jīng)“沉迷游戲、差點(diǎn)退學(xué)”的非典型學(xué)霸的AGI狂想世界。

      以下為對(duì)話實(shí)錄,經(jīng)「甲子光年」編輯整理。

      1.直面巨頭

      甲子光年1月13日,在Anthropic發(fā)布Claude Cowork之后,你第一時(shí)間發(fā)推特宣布Eigent開源,并說“Cowork殺死了我們的產(chǎn)品”。Eigent是怎么誕生的?產(chǎn)品被巨頭逼到墻角,你的第一反應(yīng)為什么是“開源”而不是“保密”?

      李國豪:關(guān)于Eigent,最早可以追溯到我們?cè)?023年3月份做的一個(gè)開源項(xiàng)目,叫CAMEL。當(dāng)時(shí) OpenAI 剛開放 API 沒幾天,我們?cè)谕铺厣习l(fā)布了這個(gè)項(xiàng)目。那是非常早期的階段,我們應(yīng)該是世界上第一個(gè)用ChatGPT(OpenAI 的 API)來做 Multi-Agent(多智能體)系統(tǒng)的工作。

      當(dāng)時(shí)這個(gè)項(xiàng)目在推特上挺火的,比同期一些后來非常火的項(xiàng)目(比如 AutoGPT、BabyAGI,包括斯坦福小鎮(zhèn))可能還要早一到兩個(gè)星期。項(xiàng)目火了之后,大概一個(gè)星期就收獲了4000多個(gè)Star,后來這篇論文也被AI頂會(huì)NeurIPS 2023接收了。

      慢慢地,這個(gè)項(xiàng)目發(fā)展成了一個(gè)開源社區(qū),我們?cè)谏鐓^(qū)基礎(chǔ)上做了很多不同類型的工作。最后,我們從社區(qū)里招募了一些同學(xué),大家聚在一起,在英國成立了現(xiàn)在的這家創(chuàng)業(yè)公司。這就是大概的來龍去脈。


      CAMEL-AI簡(jiǎn)介 圖片來源:Github

      面對(duì)巨頭的產(chǎn)品,我們之所以選擇開源,是因?yàn)槲覀兾磥淼脑妇氨緛砭褪窍胱鲆粋€(gè)完全本地化的、甚至是可以自我進(jìn)化的Agent。這需要有開源的模型、開源的框架、開源的產(chǎn)品,以及開源的Agent環(huán)境。

      跟Cowork相比,我們最大的區(qū)別就是“完全開源、本地化”。Cowork更多是給C端用戶使用的,而我們的設(shè)計(jì)理念是注重用戶數(shù)據(jù)隱私,你的數(shù)據(jù)不會(huì)發(fā)送到我們的服務(wù)器。你可以完全在企業(yè)內(nèi)部部署,支持任意模型的切換,不綁定任何供應(yīng)商。只有所有東西都私有化部署,你才能擁有完全自主的AI。

      甲子光年你最近在X上發(fā)帖說“個(gè)人AI的未來就在本地,就在你的桌面上”。你為什么如此強(qiáng)調(diào)“Local-first(本地優(yōu)先)”?

      李國豪:我覺得我可能是一個(gè)自由主義者吧(笑)。

      我認(rèn)為,現(xiàn)在的LLM或者AI更像是你智力外延的一部分。它包含了你很多的知識(shí)、記憶和上下文。既然它是你智力的一部分,它就不應(yīng)該存在于云端,不應(yīng)該被某家模型公司所擁有。它應(yīng)該完全屬于你,你有完全的自主權(quán)去定制它、改變它,甚至隨時(shí)銷毀它。

      從市場(chǎng)角度看,我們想要構(gòu)建一個(gè)“AI的PC時(shí)代”。你的Intelligence應(yīng)該像你的電腦一樣能夠隨身攜帶。你不需要聯(lián)網(wǎng),充上電就能用,也不需要付token的錢。未來所有的模型和Agent都可以被本地化,你只需要下載、安裝、使用。

      甲子光年你覺得這個(gè)“AI的PC時(shí)代”什么時(shí)候會(huì)到來?

      李國豪:它的到來比我想象的要快。我們?nèi)ツ?月發(fā)布產(chǎn)品時(shí),大家對(duì)“為什么要用一個(gè)桌面端的本地Agent”還沒有那么強(qiáng)烈的感受。但今年1月Cowork火了之后,大家突然意識(shí)到我們需要一個(gè)桌面端Agent,這大大加速了市場(chǎng)的認(rèn)知。

      同時(shí),從模型和技術(shù)層面看,開源社區(qū)的模型越來越好,離最好的閉源模型可能只有幾個(gè)月的差距,而且這個(gè)差距不會(huì)被拉大,可能會(huì)慢慢追平。加上各種模型推理技術(shù)(比如vLLM等)的成熟,現(xiàn)在我們?cè)贛acBook Pro上部署模型和Agent,就已經(jīng)能完成很多簡(jiǎn)單的自動(dòng)化任務(wù)了。

      甲子光年目前Eigent的商業(yè)化閉環(huán)實(shí)現(xiàn)了嗎?

      李國豪:在今年之前,我們的商業(yè)化進(jìn)展是非常慢的。但在今年1月份,我們已經(jīng)實(shí)現(xiàn)了盈利。目前我們的客戶主要來源于兩個(gè)群體:一是模型公司,我們?cè)诮o他們做一些環(huán)境構(gòu)建;二是企業(yè)客戶,我們幫IT、銷售等部門解決自動(dòng)化的問題,幫他們操控瀏覽器、完成任務(wù)。

      這是一個(gè)比較標(biāo)準(zhǔn)化的產(chǎn)品,客單價(jià)一般在10萬美元上下,主要包含產(chǎn)品License的費(fèi)用和一部分系統(tǒng)集成的定制化費(fèi)用。

      甲子光年作為兩個(gè)成功開源項(xiàng)目的負(fù)責(zé)人,你覺得自己是AI開源領(lǐng)域的“破壁人”嗎?

      李國豪:我覺得還談不上成功,然后“破壁人”可能不太合適,我不是要反對(duì)閉源路線,只是希望一個(gè)完全開源的 Agent生態(tài)應(yīng)該存在。其實(shí)開源研究創(chuàng)業(yè)挺苦,比起去比在Frontier Labs(前沿實(shí)驗(yàn)室)里做研究,可能是Hard Mode(困難模式),如果硬要找一個(gè)詞來形容,我覺得自己只是開源生態(tài)里的一個(gè)普通添磚人吧。

      2.探索Agent的Scaling Law

      甲子光年2023年3月你們發(fā)表了CAMEL論文,提出了基于角色扮演(Role-playing)的多智能體框架。當(dāng)時(shí)的靈感來自哪里?

      李國豪:最早的動(dòng)機(jī)來源于對(duì)AGI的思考。ChatGPT出來后驗(yàn)證了Model Scaling Law是work的,但我當(dāng)時(shí)在想,僅僅靠模型能力的提升,能否到達(dá)AGI?在模型的ScalingLaw之后,是否存在Agent層面的ScalingLaw?

      所以我們想探索人和AI共存的社會(huì)是什么樣的。我們?cè)谡撐睦锾岢隽恕癆I Society(AI社會(huì))”的概念,就是多個(gè)Agent能夠形成一個(gè)社會(huì)組織,小到兩三個(gè)Agent協(xié)作,大到形成一個(gè)公司甚至社交網(wǎng)絡(luò)。


      李國豪團(tuán)隊(duì)在《CAMEL:Communicative Agents for “Mind” Exploration of Large Language Model Society》論文中提出了“AI Society”的概念

      在這個(gè)過程中,我們讓Agent相互協(xié)作、角色扮演(比如一個(gè)扮演開發(fā)者,一個(gè)扮演游戲玩家),生成了大量的數(shù)據(jù)。我們用GPT-4生成數(shù)據(jù),再去微調(diào)像LLaMA這樣的小模型,實(shí)現(xiàn)了很好的效果提升。

      甲子光年你提出“Scaling Laws of Agents”時(shí),最在意的衡量指標(biāo)是什么?你最不看好哪些指標(biāo)?

      李國豪:這是一個(gè)非常好的問題。Model Scaling有一個(gè)很好的指標(biāo),就是看損失函數(shù)(Loss)或者在Benchmark上的性能。但Agent Scaling Law很難找單一的指標(biāo)。

      我不太看好的指標(biāo)是那些簡(jiǎn)單的學(xué)科類評(píng)測(cè)集(比如MMLU),用這種任務(wù)來衡量Multi-Agent系統(tǒng)是比較錯(cuò)誤的方向。因?yàn)楹芏嗳蝿?wù)用一個(gè)Agent就能完成得很好了,沒必要用多智能體。

      我最在意的指標(biāo)是:它是否解鎖了新的應(yīng)用場(chǎng)景?是否能模擬組織(Organization)甚至社會(huì)(Society)做的事情?

      比如,我們能否用大規(guī)模的Agent系統(tǒng)去模擬X(原Twitter)或Reddit這樣的社交網(wǎng)絡(luò)?能否模擬出人類社會(huì)的規(guī)律,比如信息傳播、從眾效應(yīng)、觀點(diǎn)極化?如果在發(fā)布一個(gè)真實(shí)產(chǎn)品前,我們能用幾十萬個(gè)Agent去模擬市場(chǎng)的反饋和推演,那么這種“模擬多大規(guī)模復(fù)雜系統(tǒng)”的能力,才是我最在意的指標(biāo)。

      甲子光年現(xiàn)在也有觀點(diǎn)認(rèn)為“單智能體+技能庫(Skill Library)”在token和延遲上更劃算。你怎么看?多智能體不可替代的部分是什么?

      李國豪:多智能體在企業(yè)落地時(shí)有一個(gè)很現(xiàn)實(shí)的好處:權(quán)限管理和模塊化。不同部門需要不同的Agent和權(quán)限。

      但在技術(shù)層面,多智能體不可替代的是“大規(guī)模任務(wù)的并行”。我們支持三個(gè)維度的并行:任務(wù)拆分后的子任務(wù)并行、Worker層面的復(fù)刻并行、以及工具層面的并行。比如我們能在幾分鐘內(nèi)并行200個(gè)任務(wù)去開發(fā)200個(gè)小游戲,這是單智能體很難做到的。


      CAMEL-AI和AWS、Qwen、魔搭、SGLang、Zilliz、FishAudio等團(tuán)隊(duì)在上海舉辦的多智能體黑客松活動(dòng) 圖片來源:CAMEL-AI

      甲子光年你剛才提到想要探索人和AI共生的社會(huì)是什么樣的,那你怎么看待斯坦福小鎮(zhèn)和現(xiàn)在爆火的Moltbook?

      李國豪:非常有意思。斯坦福小鎮(zhèn)模擬的是社交行為,而CAMEL模擬的是Agent協(xié)作完成任務(wù)。我們當(dāng)時(shí)其實(shí)在思考同一個(gè)事情:在非常大規(guī)模的Agent社會(huì)里,會(huì)誕生什么有意思的現(xiàn)象。


      斯坦福小鎮(zhèn)實(shí)驗(yàn)論文《Generative Agents: Interactive Simulacra of Human Behavior》

      Moltbook出現(xiàn)的時(shí)間點(diǎn)是Agent能力變得更強(qiáng)了,它真的能操控你的電腦了。但我覺得它目前更多是輸出了情緒價(jià)值,還沒有產(chǎn)生很多Economic(經(jīng)濟(jì))的影響。


      Moltbook是一個(gè)專為人工智能代理設(shè)計(jì)的互聯(lián)網(wǎng)論壇。它由企業(yè)家Matt Schlicht于2026年1月推出圖片來源:Fortune

      我們?nèi)祟惿鐣?huì)是有信任系統(tǒng)的,比如你有簡(jiǎn)歷、學(xué)歷、信用卡,外界才能了解你,社會(huì)才能運(yùn)作。但現(xiàn)在的Agent模擬沙盒還沒有這樣的信任系統(tǒng)和經(jīng)濟(jì)系統(tǒng)。未來這個(gè)事情需要存在,比如我想看病,我就能通過信任系統(tǒng)知道該找哪些Agent去做。

      甲子光年在Agent的規(guī)劃(Planning)和記憶(Memory)方面,有哪些值得期待的研究方向?你更相信長(zhǎng)上下文還是外部記憶系統(tǒng)?

      李國豪:這兩者會(huì)同時(shí)存在。長(zhǎng)上下文是訓(xùn)練階段解鎖的基礎(chǔ)能力,每個(gè)人都需要長(zhǎng)上下文的Model。但它是一個(gè)通用的能力。

      而模型外掛的Memory里,能夠?qū)崿F(xiàn)更多Personalized(個(gè)性化)的信息。未來的方向是如何在Continuous Learning(持續(xù)學(xué)習(xí))階段做好Agent。比如自動(dòng)學(xué)到你的獎(jiǎng)勵(lì)函數(shù)(Reward Function),根據(jù)你的Feedback學(xué)到你的價(jià)值是什么,在持續(xù)使用的過程中實(shí)現(xiàn)Planning和Memory能力的個(gè)性化提升。

      3.得環(huán)境者得天下

      甲子光年:你們最近開源了400多個(gè)Terminal Agent的訓(xùn)練環(huán)境SETA。請(qǐng)問你們發(fā)布的目的是什么?能否詳細(xì)介紹一下SETA這個(gè)項(xiàng)目?

      李國豪:SETA是我們正在做的一個(gè)項(xiàng)目,目的是讓Agent學(xué)會(huì)去使用Terminal(命令行終端)。目前在這個(gè)領(lǐng)域,有一個(gè)名為Terminal Bench的基準(zhǔn)測(cè)試(Benchmark),被OpenAI等頭部模型公司用來評(píng)估Agent使用Terminal的能力。但這個(gè)Benchmark的數(shù)據(jù)量很少,大概只有不到100條。

      目前開源領(lǐng)域非常缺乏用于訓(xùn)練Agent使用Terminal的數(shù)據(jù)環(huán)境。所以我們做的事情,就是研究如何去擴(kuò)大(Scale up)這種環(huán)境的構(gòu)建規(guī)模。我們提出了一種自動(dòng)化的Pipeline,能夠根據(jù)一些種子數(shù)據(jù)(比如論壇里的QA問答),自動(dòng)構(gòu)建出Docker環(huán)境。在這個(gè)環(huán)境里,Agent可以使用命令行來解決實(shí)際任務(wù)。

      上次發(fā)布時(shí)我們開源了400多條環(huán)境,2月初我們又發(fā)布了1000條,所以現(xiàn)在總計(jì)有將近1400條訓(xùn)練環(huán)境。

      甲子光年:我可以把“環(huán)境”直接理解為“訓(xùn)練數(shù)據(jù)”嗎?

      李國豪:可以這么理解,環(huán)境就是Agent的訓(xùn)練數(shù)據(jù)。

      傳統(tǒng)語言模型的訓(xùn)練數(shù)據(jù)通常是純文本(輸入輸出都是文本)。但Agent的訓(xùn)練數(shù)據(jù)不同,Agent需要與數(shù)字世界或物理世界進(jìn)行交互。比如操控一個(gè)網(wǎng)頁、操控一部手機(jī)、操控一臺(tái)電腦,這些都是“環(huán)境”。它包含了很多非自然語言的部分。

      Agent在強(qiáng)化學(xué)習(xí)階段,環(huán)境可以給它提供獎(jiǎng)勵(lì)(Reward)來優(yōu)化策略(Policy);或者環(huán)境能夠產(chǎn)生大量的交互軌跡(Trajectories),這些軌跡可以被用于語言模型的預(yù)訓(xùn)練(Pre-training)或中繼訓(xùn)練(Mid-training)階段。

      甲子光年你之前發(fā)帖說“Frontier labs spend millions purchasing RL environments(前沿實(shí)驗(yàn)室花費(fèi)數(shù)百萬美元購買強(qiáng)化學(xué)習(xí)環(huán)境)”。為什么“環(huán)境”在你心里比“模型/代碼”更值得Scale?

      李國豪:語言模型的訓(xùn)練數(shù)據(jù)主要是文本,天然存在于互聯(lián)網(wǎng)上。但Agent的訓(xùn)練數(shù)據(jù)是“環(huán)境”。Agent需要跟數(shù)字世界或物理世界交互,比如操控網(wǎng)頁、手機(jī)、電腦,這些軌跡在互聯(lián)網(wǎng)上是不存在的。

      你要訓(xùn)練Agent,就必須構(gòu)建環(huán)境、設(shè)定任務(wù)、并配備驗(yàn)證器(Verifier)來判斷Agent做得對(duì)不對(duì)。這就導(dǎo)致構(gòu)建環(huán)境非常難,且極其昂貴。據(jù)我所知,很多大廠買一個(gè)高質(zhì)量環(huán)境的預(yù)算都在幾萬到百萬美元級(jí)別。

      為什么CodingAgent(如Devin、Cursor)能做得這么好?因?yàn)榇a環(huán)境最容易構(gòu)建,GitHub上有天然的Issue、PullRequest和單元測(cè)試(天然的Verifier)。但如果Agent要泛化到其他企業(yè)服務(wù)或日常場(chǎng)景,環(huán)境構(gòu)建的成本是極高的,價(jià)格范圍大概在幾萬美元到上百萬美元之間。它的成本和價(jià)格主要取決于以下幾個(gè)構(gòu)成部分:

      第一,沙盒的逼真程度與數(shù)據(jù)量。比如你要克隆一個(gè)Airbnb的網(wǎng)頁,里面掛載1萬條民宿數(shù)據(jù)和掛載100萬條數(shù)據(jù),價(jià)格是完全不一樣的。

      第二,任務(wù)的構(gòu)建難度。有了沙盒和數(shù)據(jù)后,什么樣的任務(wù)對(duì)提升Agent能力真正有用?比如設(shè)定一個(gè)任務(wù):“在紐約預(yù)訂一個(gè)200刀左右、適合開學(xué)術(shù)會(huì)議的房間”,設(shè)計(jì)這種高質(zhì)量任務(wù)本身就需要成本。

      第三,驗(yàn)證器(Verifier)的開發(fā)。這是最難的地方——如何通過代碼去自動(dòng)驗(yàn)證Agent是否真的找到了符合條件的好房間?通常任務(wù)和配套的Verifier是打包在一起售賣的。

      所以,環(huán)境的價(jià)格是由沙盒的逼真度、底層數(shù)據(jù)量、任務(wù)的難度以及驗(yàn)證器的復(fù)雜性共同決定的。

      甲子光年既然環(huán)境這么貴,是核心護(hù)城河,你們?yōu)槭裁催€要開源?

      李國豪:主要有以下幾個(gè)角度的原因:

      第一,反哺產(chǎn)品。我們的產(chǎn)品中一個(gè)很重要的部分,就是讓Agent使用Terminal來寫腳本、完成代碼任務(wù)(如數(shù)據(jù)分析、電腦操控等)。為了讓我們的產(chǎn)品變得更好,我們需要構(gòu)建更多這樣的訓(xùn)練數(shù)據(jù)。

      第二,繁榮開源生態(tài)。我們希望開源領(lǐng)域能有更多這類數(shù)據(jù)出現(xiàn),從而讓開源模型變得更強(qiáng)。實(shí)際上,我們這批數(shù)據(jù)已經(jīng)被用于一些開源模型的訓(xùn)練了,比如階躍星辰的朋友就和我們交流過,他們正在使用我們的數(shù)據(jù)訓(xùn)練模型。

      第三,商業(yè)化展示。我們同時(shí)也在做這方面的商業(yè)化,為大模型公司構(gòu)建訓(xùn)練環(huán)境。開源這些環(huán)境,也是向大家展示我們?cè)诃h(huán)境構(gòu)建方面的能力,建立信任。

      第四,建設(shè)社區(qū)。擴(kuò)大(Scaleup)環(huán)境規(guī)模是一件極其困難且昂貴的事情,單靠我們一家小公司和社區(qū)是做不完的。我們希望通過開源,吸引更多有相同愿景的愛好者加入我們,或者啟發(fā)其他團(tuán)隊(duì)跟進(jìn)。只有這樣,開源模型才會(huì)更好,我們產(chǎn)品能用到的底層模型才會(huì)更強(qiáng),最終才有可能實(shí)現(xiàn)我們所想象的——完全個(gè)性化、本地化的Agent的存在。

      甲子光年:所以你認(rèn)為“環(huán)境規(guī)模”是Terminal Agents的關(guān)鍵瓶頸。同理類比大語言模型,訓(xùn)練數(shù)據(jù)越多,Scaling效應(yīng)越明顯,這又回歸到了你之前提到的Agent Scaling Law?

      李國豪:對(duì)的。我們定義的Agent場(chǎng)景分為三個(gè)維度:一是Agent的數(shù)量與規(guī)模,二是環(huán)境的構(gòu)建與復(fù)雜性,三是自我演進(jìn)。環(huán)境是Agent Scaling Law里非常重要的一部分。

      但它和傳統(tǒng)模型數(shù)據(jù)最大的區(qū)別在于:適合Agent使用的環(huán)境,在互聯(lián)網(wǎng)上并不是天然存在的。

      比如,如何操控瀏覽器或手機(jī)來完成一個(gè)任務(wù),這種交互軌跡在互聯(lián)網(wǎng)上是沒有現(xiàn)成答案的(不像數(shù)學(xué)推理題在教科書里有答案)。這就導(dǎo)致構(gòu)建它非常困難。為了實(shí)現(xiàn)Scaling,我們必須去主動(dòng)構(gòu)建這些環(huán)境,包括設(shè)定任務(wù)、搭建沙盒,以及開發(fā)能夠驗(yàn)證Agent做得對(duì)不對(duì)的驗(yàn)證器(Verifier)。

      甲子光年:這里可能有個(gè)誤區(qū),比如我們要訓(xùn)練Agent去操控網(wǎng)頁訂酒店,Booking這樣的真實(shí)網(wǎng)站不是天然存在于互聯(lián)網(wǎng)上嗎?為什么不能直接用?

      李國豪:真實(shí)網(wǎng)站確實(shí)存在,但它非常不適合用來做Agent訓(xùn)練。

      首先是現(xiàn)實(shí)因素,真實(shí)網(wǎng)站通常會(huì)把你的Agent當(dāng)作機(jī)器人攔截(Block)掉。

      其次,真實(shí)網(wǎng)站無法進(jìn)行狀態(tài)的回溯(Rollback)或分支(Branching),而且充滿隨機(jī)性。這極大地局限了Agent的訓(xùn)練。

      所以在構(gòu)建Agent環(huán)境時(shí),我們通常會(huì)去完全復(fù)刻一個(gè)網(wǎng)頁,讓研究人員擁有完全的控制權(quán)(包括控制前后端和數(shù)據(jù)庫),能夠自由地做分支和回溯。只有具備這種靈活度,才能高效地訓(xùn)練Agent。

      甲子光年你提到的Agent訓(xùn)練方法很類似強(qiáng)化學(xué)習(xí),你是一個(gè)強(qiáng)化學(xué)習(xí)方法的信仰者嗎?怎么避免RL訓(xùn)練在開源社區(qū)里走向“刷榜/拼算力”的局面?

      李國豪:我開始做AI的時(shí)候,確實(shí)是因?yàn)榭吹搅藦?qiáng)化學(xué)習(xí)在打游戲、下圍棋上的厲害之處,但我并不是任意一種方法的狂熱信仰者。我更多是從解決問題的角度出發(fā)。

      現(xiàn)在環(huán)境最大的用途確實(shí)是被用來做強(qiáng)化學(xué)習(xí),但也許到了2026年我們會(huì)發(fā)現(xiàn),環(huán)境最大的用途并不是強(qiáng)化學(xué)習(xí)。這些環(huán)境同時(shí)也能被用在Agent的Pre-training(預(yù)訓(xùn)練)或Mid-training(中繼訓(xùn)練)階段。我們可以根據(jù)環(huán)境大規(guī)模并行,構(gòu)建大規(guī)模的Agent軌跡,這些軌跡甚至可以是非常rough(粗糙)的,不一定要在強(qiáng)化學(xué)習(xí)階段去使用。

      4.非典型學(xué)霸的AGI狂想

      甲子光年:聊聊你個(gè)人吧。看你的履歷,本科是哈爾濱工業(yè)大學(xué)電子信息工程專業(yè),后來去了沙特阿卜杜拉國王科技大學(xué)(KAUST)讀博。為什么會(huì)有這樣的路徑選擇?

      李國豪:其實(shí)我從小到大一直是個(gè)好奇心很重的人,但在做AI研究之前,我一直沒有找到具體的目標(biāo)。我本科的時(shí)候天天沉迷網(wǎng)絡(luò)游戲,逃課、掛科,績(jī)點(diǎn)非常低,3.0都不到,差點(diǎn)被退學(xué)。

      后來讀研接觸到AI,發(fā)現(xiàn)強(qiáng)化學(xué)習(xí)可以用來打游戲,甚至能造出一個(gè)比我打得還好的AI,我突然覺得這事太有意思了。再后來我覺得,實(shí)現(xiàn)AGI可能比打游戲還有意思。這是我人生中第一次找到想要堅(jiān)持努力的方向。

      決定讀博時(shí)已經(jīng)很晚了,因?yàn)榭?jī)點(diǎn)太低,很多學(xué)校申請(qǐng)不了。機(jī)緣巧合下我去了沙特KAUST訪問,遇到了非常好的導(dǎo)師。而且KAUST的資源極其豐富,獎(jiǎng)學(xué)金高、住別墅,最關(guān)鍵的是算力充足——我當(dāng)時(shí)一個(gè)人就能用幾十張甚至上百張A100卡,這在其他地方是不可能實(shí)現(xiàn)的。

      甲子光年你的研究興趣從強(qiáng)化學(xué)習(xí)、圖神經(jīng)網(wǎng)絡(luò),一路演進(jìn)到大語言模型和Agent。為什么會(huì)發(fā)生這樣的轉(zhuǎn)變?

      李國豪:最開始做AI的時(shí)候,我研究的是強(qiáng)化學(xué)習(xí)(RL),主要落地在無人駕駛和無人機(jī)領(lǐng)域。但我發(fā)現(xiàn)一個(gè)問題:強(qiáng)化學(xué)習(xí)Agent往往只能在單一領(lǐng)域訓(xùn)練和使用,極難泛化。比如訓(xùn)練一個(gè)賽車Agent,它甚至需要同一張地圖才能表現(xiàn)好,更不可能讓它去泛化到操控?zé)o人機(jī)。

      那是2017、2018年左右,我認(rèn)為當(dāng)時(shí)的瓶頸不在于強(qiáng)化學(xué)習(xí)算法本身,而在于基礎(chǔ)的神經(jīng)網(wǎng)絡(luò)架構(gòu)和表征學(xué)習(xí)沒做好。因此,我的研究方向發(fā)生了第一次轉(zhuǎn)變——去探索什么樣的新型神經(jīng)網(wǎng)絡(luò)架構(gòu)能更好地泛化、解決跨領(lǐng)域問題。我當(dāng)時(shí)認(rèn)為圖神經(jīng)網(wǎng)絡(luò)(GNN)可能是通向AGI的一個(gè)重要方向,因?yàn)樗梢詫?duì)各種領(lǐng)域的問題進(jìn)行建模,比如分子藥物結(jié)構(gòu)、蛋白質(zhì)結(jié)構(gòu)、人類社交網(wǎng)絡(luò)等。同時(shí),我也在做NAS(網(wǎng)絡(luò)架構(gòu)搜索)和AutoML相關(guān)的自動(dòng)網(wǎng)絡(luò)架構(gòu)設(shè)計(jì)研究。

      轉(zhuǎn)向大語言模型和Agent是因?yàn)橹虚g有個(gè)插曲。我在ETH(蘇黎世聯(lián)邦理工學(xué)院)做過一個(gè)關(guān)于Robot Learning(機(jī)器人學(xué)習(xí))的項(xiàng)目,研究如何讓Agent在未知空間里做目標(biāo)導(dǎo)航(Object Navigation)。在2020年左右,我發(fā)現(xiàn)可以用語言模型來很好地預(yù)測(cè)物理空間中物體的存在性和距離,從而指導(dǎo)機(jī)器人導(dǎo)航。這在我腦海里埋下了一顆種子:語言模型在解決泛化性問題上有巨大的潛力。

      后來,模型架構(gòu)迎來了“大一統(tǒng)”,無論是視覺、圖神經(jīng)網(wǎng)絡(luò)還是語言模型領(lǐng)域,大家都在用Transformer。在ChatGPT問世的那一瞬間,我突然意識(shí)到,Transformer這種大一統(tǒng)的架構(gòu),讓我們重新看到了實(shí)現(xiàn)通用Agent的可能性。它一定程度上解決了我最初想探索的“什么樣的神經(jīng)網(wǎng)絡(luò)架構(gòu)和表征學(xué)習(xí)能讓模型具備理解世界的能力”這個(gè)問題。有了理解世界的能力,才能解決Agent如何行動(dòng)的問題。

      所以,我的路線大概是:一開始讀博相信強(qiáng)化學(xué)習(xí)能通向AGI——發(fā)現(xiàn)表征學(xué)習(xí)是瓶頸,轉(zhuǎn)向圖神經(jīng)網(wǎng)絡(luò)模型架構(gòu)——大一統(tǒng)和ChatGPT出現(xiàn)后,發(fā)現(xiàn)語言模型的泛化能力解決了基礎(chǔ)問題——再次切換方向,回歸到做基于大語言模型的Agent。

      甲子光年你現(xiàn)在怎么看大語言模型的Transformer架構(gòu)?它會(huì)是一統(tǒng)天下的終極解嗎?

      李國豪:Transformer最大的問題還是效率,它在神經(jīng)網(wǎng)絡(luò)里沒有記憶,導(dǎo)致推理時(shí)上下文不斷增加,成本極高。

      我覺得如果未來真的存在范式級(jí)的變化,那它必須是“超越神經(jīng)網(wǎng)絡(luò)范疇”的。

      舉個(gè)例子,我想象中的一種新架構(gòu)是:在預(yù)訓(xùn)練階段,Agent不僅有神經(jīng)網(wǎng)絡(luò)的大腦,還有非神經(jīng)網(wǎng)絡(luò)的“身體”(比如它能操控的CPU、Memory、操作系統(tǒng))。在訓(xùn)練過程中,Agent能否構(gòu)建出自己的系統(tǒng)內(nèi)核?基于這個(gè)內(nèi)核,它自己寫編譯器、寫軟件、自己接入互聯(lián)網(wǎng)。

      這種“神經(jīng)網(wǎng)絡(luò)+符號(hào)系統(tǒng)/計(jì)算系統(tǒng)”的、可以自我學(xué)習(xí)和演進(jìn)的系統(tǒng),才可能帶來真正的范式變化。僅僅魔改神經(jīng)網(wǎng)絡(luò)架構(gòu),是遠(yuǎn)遠(yuǎn)不夠的。

      甲子光年最后一個(gè)問題,你最喜歡的一本書是什么?

      李國豪:對(duì)我做CAMEL啟發(fā)最大的是馬文·明斯基的《The Society of Mind》(心智社會(huì))。

      這本書非常深入地剖析了人類智能是怎么來的。它里面有一個(gè)核心觀點(diǎn):人類的智能來源于多樣性(Diversity)。

      未來的Agent社會(huì)其實(shí)也一樣。我們?nèi)绾巫孉gent進(jìn)化?如何跟人類協(xié)作?如何擁有個(gè)性化的Agent?這都需要多樣性。這本書里關(guān)于記憶系統(tǒng)、長(zhǎng)思維鏈(Long-CoT)、Agent通訊、甚至世界模型的討論,在今天看來都極具預(yù)見性。我非常推薦所有做AI Agent的人去讀一讀。

      (封面圖來源:受訪者)

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      騎士50勝卻不敢輪休,1.5分讓分暴露底氣不足

      騎士50勝卻不敢輪休,1.5分讓分暴露底氣不足

      競(jìng)技風(fēng)云錄
      2026-04-09 08:02:30
      維嘉拒給親媽遺產(chǎn)引爭(zhēng)議,何炅落淚力挺

      維嘉拒給親媽遺產(chǎn)引爭(zhēng)議,何炅落淚力挺

      無處遁形
      2026-04-07 12:06:48
      曝伊能靜機(jī)場(chǎng)錄綜藝失態(tài)!噘嘴搬行李卻摔箱,帶貨翻車后看著疲憊

      曝伊能靜機(jī)場(chǎng)錄綜藝失態(tài)!噘嘴搬行李卻摔箱,帶貨翻車后看著疲憊

      阿紿聊社會(huì)
      2026-04-09 06:38:36
      周總理只是讓他去經(jīng)商,為黨賺取經(jīng)費(fèi),他卻給組織賺回個(gè)商業(yè)帝國

      周總理只是讓他去經(jīng)商,為黨賺取經(jīng)費(fèi),他卻給組織賺回個(gè)商業(yè)帝國

      鶴羽說個(gè)事
      2026-04-02 23:00:01
      尖叫瓶子火出圈了!被這10個(gè)用法折服,簡(jiǎn)直是生活中的全能選手

      尖叫瓶子火出圈了!被這10個(gè)用法折服,簡(jiǎn)直是生活中的全能選手

      室內(nèi)設(shè)計(jì)師有料兒
      2026-04-08 09:41:25
      具俊曄最新露面,又黑又瘦情緒低迷,在大S墓碑前靜坐不語

      具俊曄最新露面,又黑又瘦情緒低迷,在大S墓碑前靜坐不語

      素素娛樂
      2026-04-09 08:53:34
      大量美國游客涌入中國,玩了幾天后,不吹不黑,中國比美國強(qiáng)多了

      大量美國游客涌入中國,玩了幾天后,不吹不黑,中國比美國強(qiáng)多了

      小熊侃史
      2026-04-08 09:51:15
      越來越多孩子得白血病?醫(yī)生坦言:家里4樣?xùn)|西是禍根,趁早扔了

      越來越多孩子得白血病?醫(yī)生坦言:家里4樣?xùn)|西是禍根,趁早扔了

      DrX說
      2025-11-19 14:42:09
      空軍飛行員駕機(jī)叛逃臺(tái)灣,晚年回國投案自首,被安排工作和住房

      空軍飛行員駕機(jī)叛逃臺(tái)灣,晚年回國投案自首,被安排工作和住房

      我不是沃神
      2026-04-09 08:40:03
      甜妹田曦薇殺瘋了,這露肩魚尾裙下的腰臀比,誰看了不迷糊?

      甜妹田曦薇殺瘋了,這露肩魚尾裙下的腰臀比,誰看了不迷糊?

      娛樂領(lǐng)航家
      2026-04-08 19:00:04
      被伊朗逼出原形!美國還想對(duì)華開戰(zhàn)?美專家:碰上解放軍起飛都難

      被伊朗逼出原形!美國還想對(duì)華開戰(zhàn)?美專家:碰上解放軍起飛都難

      菲菲愛電影
      2026-04-08 04:14:45
      基民血虧超30%,自己投資卻賺5000萬!泰康基金桂躍強(qiáng),悄悄在愚人節(jié)離職

      基民血虧超30%,自己投資卻賺5000萬!泰康基金桂躍強(qiáng),悄悄在愚人節(jié)離職

      南財(cái)社V
      2026-04-08 20:47:49
      對(duì)安世中國損招用盡后,荷蘭人突然發(fā)現(xiàn),自己已被自己逼上了絕路

      對(duì)安世中國損招用盡后,荷蘭人突然發(fā)現(xiàn),自己已被自己逼上了絕路

      孤單是寂寞的毒
      2026-04-03 00:58:27
      上海一公園內(nèi)女子爬樹拍照,20年樹齡櫻花樹被連根壓倒!經(jīng)多部門聯(lián)合查找約談,當(dāng)事人承認(rèn)錯(cuò)誤并愿賠償

      上海一公園內(nèi)女子爬樹拍照,20年樹齡櫻花樹被連根壓倒!經(jīng)多部門聯(lián)合查找約談,當(dāng)事人承認(rèn)錯(cuò)誤并愿賠償

      揚(yáng)子晚報(bào)
      2026-04-07 21:05:56
      76年華國鋒公然違背毛主席遺愿,做出重大決定,對(duì)后世影響至今

      76年華國鋒公然違背毛主席遺愿,做出重大決定,對(duì)后世影響至今

      棠棣分享
      2026-04-03 11:28:16
      “愛奇藝”的一步之差,竟救活了“騰訊視頻”?

      “愛奇藝”的一步之差,竟救活了“騰訊視頻”?

      歪歌社團(tuán)
      2026-03-30 01:52:26
      關(guān)稅反擊:特朗普已被逼到了懸崖邊上,因?yàn)橹袊鴵糁辛怂@個(gè)要害

      關(guān)稅反擊:特朗普已被逼到了懸崖邊上,因?yàn)橹袊鴵糁辛怂@個(gè)要害

      詭譎怪談
      2025-04-18 11:36:10
      豪取17連勝!隨著上海119-97輕取寧波,這三人堪稱贏球絕對(duì)功臣!

      豪取17連勝!隨著上海119-97輕取寧波,這三人堪稱贏球絕對(duì)功臣!

      田先生籃球
      2026-04-08 22:14:38
      用一千天拆掉千億市值公司的天花板

      用一千天拆掉千億市值公司的天花板

      包郵區(qū)
      2026-04-08 07:36:00
      庫巴西想看VAR屏幕確認(rèn)自己的紅牌,結(jié)果屏幕立即被關(guān)掉了

      庫巴西想看VAR屏幕確認(rèn)自己的紅牌,結(jié)果屏幕立即被關(guān)掉了

      懂球帝
      2026-04-09 08:31:09
      2026-04-09 09:36:49
      甲子光年
      甲子光年
      中國科技產(chǎn)業(yè)化前沿智庫
      3405文章數(shù) 9263關(guān)注度
      往期回顧 全部

      科技要聞

      Meta凌晨首發(fā)閉源大模型 扎克伯格又行了?

      頭條要聞

      一天之內(nèi) 以軍空襲黎巴嫩致254死1165傷

      頭條要聞

      一天之內(nèi) 以軍空襲黎巴嫩致254死1165傷

      體育要聞

      40歲,但實(shí)力倒退12年

      娛樂要聞

      侯佩岑全家悉尼度假,一家四口幸福滿溢

      財(cái)經(jīng)要聞

      局勢(shì)再升級(jí)!霍爾木茲海峽關(guān)閉

      汽車要聞

      20萬級(jí)滿配華為全家桶 華境S是懂家庭的大六座

      態(tài)度原創(chuàng)

      數(shù)碼
      教育
      家居
      藝術(shù)
      時(shí)尚

      數(shù)碼要聞

      銘凡M1 Lite-125U迷你機(jī)首發(fā)2119元起 搭載Ultra 5 125U

      教育要聞

      35歲寶媽被迫帶娃裸辭?她用一本書,從人生低谷逆襲事業(yè)巔峰

      家居要聞

      自在恣意 侘寂風(fēng)別墅

      藝術(shù)要聞

      趙麗穎再傳喜訊,獲央視點(diǎn)贊!網(wǎng)友:她的底氣,藏不住了

      ED網(wǎng)紅病,正在掏空年輕女性

      無障礙瀏覽 進(jìn)入關(guān)懷版