- 大模型的下半場(chǎng),正在進(jìn)入“智能體”涌現(xiàn)時(shí)間。
最近,OpenAI 的秘密項(xiàng)目“Q*”一直受到了圈內(nèi)人士的廣泛關(guān)注。上個(gè)月,以它為前身、代號(hào)為“草莓(Strawberry)”的項(xiàng)目又被曝光了。據(jù)推測(cè),該項(xiàng)目能夠提供高級(jí)推理能力。
就在人們翹首以盼“Q*”的時(shí)候,一家名為MultiOn的初創(chuàng)公司的CEO Div Garg在推特上頻頻使用草莓表情,并發(fā)布了一款名為Agent Q的智能體,讓人不禁聯(lián)想到OpenAI神秘的Q項(xiàng)目。
有人猜測(cè),這背后可能有OpenAI的Q*項(xiàng)目加持。MultiOn公司不僅給AgentQ開(kāi)設(shè)了獨(dú)立的X賬號(hào),而且賬號(hào)的背景圖片和基本信息都與草莓有關(guān),這無(wú)疑增加了人們對(duì)其背后技術(shù)的好奇。
![]()
最被看好的AI應(yīng)用方向
近年來(lái),大型語(yǔ)言模型(LLM)在人工智能領(lǐng)域取得了顯著的進(jìn)步。像ChatGPT、Gemini、Opus和LLaMA-3這樣的前沿模型展現(xiàn)出強(qiáng)大的推理能力,在許多領(lǐng)域的表現(xiàn)接近甚至超越了人類平均水平。這些突破將LLM的應(yīng)用范圍從傳統(tǒng)的聊天和基于文本的任務(wù)擴(kuò)展到了更具動(dòng)態(tài)性的智能體角色,使其不僅可以生成文本,還可以在各種環(huán)境中自主地執(zhí)行操作。
然而,一個(gè)重大的挑戰(zhàn)依然存在:LLM在交互式、多步驟的環(huán)境中仍然難以有效地泛化。Muli0n的研究人員致力于解決這一難題他們的目標(biāo)是設(shè)計(jì)一種方法,使智能體能夠利用自主經(jīng)驗(yàn)和有限的監(jiān)督來(lái)進(jìn)行改進(jìn)。為此,他們引入了Agent Q--一種將推理、搜索自我批評(píng)和強(qiáng)化學(xué)習(xí)等多個(gè)關(guān)鍵概念相結(jié)合的新方法。
Agent Q的設(shè)計(jì)靈感來(lái)自于Suton提出的“痛苦教訓(xùn)",即那些能夠隨著計(jì)算量的增加而不斷擴(kuò)展的通用方法的力量,這表明了將搜索和學(xué)習(xí)結(jié)合起來(lái)的巨大好處。
在Open Table上進(jìn)行的真實(shí)世界預(yù)訂實(shí)驗(yàn)中,Agent Q大幅提高了LLaMa-3模型的零樣本性能,將其成功率從18.6%提升至81.7%提升幅度高達(dá)340%,并且僅需一天的自主數(shù)據(jù)收集。如果啟用在線搜索功能,成功率更可進(jìn)一步提升至 95.4%。這些結(jié)果突出了Agent Q方法在提升自主Web智能體效率和性能方面的顯著效果。
![]()
Agent Q作為AI智能體的一種,具有自主性、反應(yīng)性、社會(huì)性、認(rèn)知性、思辨性等特征的智能“代理”,能夠自主理解、規(guī)劃決策、執(zhí)行復(fù)雜任務(wù)等。它的核心在于自主性的增強(qiáng),即可以獨(dú)立完成某項(xiàng)工作,不必人類進(jìn)行過(guò)多的審核校正,可以將成本降到最低。
OpenAI對(duì)AI智能體的定義著重于其作為一個(gè)以大型語(yǔ)言模型為核心的系統(tǒng),這個(gè)系統(tǒng)具備自主理解感知、規(guī)劃、記憶和使用工具的能力,使其能夠自動(dòng)完成復(fù)雜的任務(wù)。
![]()
AI智能體的基本框架包含四個(gè)主要模塊:記憶、規(guī)劃、工具使用和行動(dòng)。
記憶模塊負(fù)責(zé)存儲(chǔ)信息,既包括過(guò)去的交互和學(xué)習(xí)到的知識(shí),也包括臨時(shí)的任務(wù)信息。有效的記憶機(jī)制對(duì)智能體來(lái)說(shuō)至關(guān)重要,使其能夠在遇到新的或復(fù)雜情況時(shí),調(diào)用過(guò)往的經(jīng)驗(yàn)和知識(shí)。記憶又分為短期和長(zhǎng)期兩種,短期記憶用于上下文學(xué)習(xí),而長(zhǎng)期記憶則通過(guò)外部數(shù)據(jù)庫(kù)和快速檢索,為智能體提供長(zhǎng)時(shí)間保留和回憶信息的能力。
規(guī)劃模塊包括事前規(guī)劃和事后反思兩個(gè)階段。事前規(guī)劃涉及對(duì)未來(lái)行動(dòng)的預(yù)測(cè)和決策,幫助智能體高效地規(guī)劃步驟和行動(dòng)以達(dá)到目標(biāo)。事后反思則讓智能體能夠檢查和改進(jìn)計(jì)劃中的不足,從錯(cuò)誤中學(xué)習(xí)并加入長(zhǎng)期記憶,以此更新對(duì)世界的認(rèn)知。
工具使用模塊使智能體能夠利用外部資源或工具執(zhí)行任務(wù)。例如,它們可以調(diào)用外部API來(lái)獲取模型數(shù)據(jù)中缺失的信息,或者使用特定軟件分析大量數(shù)據(jù)。這種工具使用方式提升了智能體的效率和任務(wù)完成能力。
行動(dòng)模塊是智能體實(shí)際執(zhí)行決策和響應(yīng)的部分。智能體擁有一系列行動(dòng)策略,根據(jù)不同任務(wù)選擇相應(yīng)的行動(dòng),如記憶檢索、推理、學(xué)習(xí)和編程等。
當(dāng)前,AI智能體的技術(shù)難點(diǎn)主要包括以下幾個(gè)方面。
第一,理解復(fù)雜任務(wù)。AI智能體需要能夠理解并執(zhí)行復(fù)雜的、多步驟的任務(wù),這要求模型具備強(qiáng)大的理解能力和規(guī)劃能力。
第二,記憶和知識(shí)管理。為了在執(zhí)行任務(wù)時(shí)保持連貫性和上下文理解,AI智能體需要具備長(zhǎng)期記憶的能力,這涉及到有效的信息存儲(chǔ)和檢索機(jī)制。
第三,工具使用和集成。AI智能體需要能夠與外部環(huán)境進(jìn)行交互,需要能夠使用和集成各種工具和服務(wù),包括調(diào)用API、使用軟件應(yīng)用程序等。這要求模型具備一定的外部工具使用能力,以完成任務(wù),同時(shí)需要注意不同工具之間的互操作性和集成問(wèn)題。
第四,多模態(tài)理解。AI智能體在實(shí)際應(yīng)用中可能需要處理和理解多種類型的輸入,如文本、圖像、音頻等,這要求模型具備多模態(tài)理解的能力,并能夠與用戶進(jìn)行自然的交互。
第五,安全性和可靠性。在執(zhí)行任務(wù)時(shí),AI智能體需要確保操作的安全性和可靠性,避免產(chǎn)生不可預(yù)測(cè)的錯(cuò)誤或風(fēng)險(xiǎn)。
第六,倫理和隱私問(wèn)題。AI智能體的開(kāi)發(fā)和使用涉及到安全和倫理問(wèn)題,如隱私保護(hù)、偏見(jiàn)和公平性等,需要確保AI智能體的行為符合道德和社會(huì)規(guī)范。
大廠集體攻堅(jiān)“智能體”
隨著AI浪潮風(fēng)起云涌,國(guó)內(nèi)互聯(lián)網(wǎng)大廠們都一一成為急先鋒,不斷在AI領(lǐng)域加碼,不論是阿里巴巴騰訊,還是字節(jié)跳動(dòng)拼多多百度,都將AI視為核心戰(zhàn)略。從最近一段時(shí)間開(kāi)始,組建AI應(yīng)用商店,創(chuàng)造各類智能體應(yīng)用,搭建AI生態(tài),成了大廠們的熱門(mén)潮流。
智能體應(yīng)用是基于內(nèi)嵌于終端的本地大模型打造,精準(zhǔn)理解用戶意圖,并將意圖轉(zhuǎn)換為相應(yīng)的任務(wù)組合,分解任務(wù)并識(shí)別任務(wù)完成的路徑,通過(guò)查詢本地知識(shí)庫(kù)、調(diào)用設(shè)備API以及合適的模型或應(yīng)用來(lái)執(zhí)行相應(yīng)的任務(wù),并將相應(yīng)的結(jié)果返回給智能體,智能體完成整合后反饋給用戶。
簡(jiǎn)單來(lái)說(shuō),智能體將成為AI OS系統(tǒng)的最小工作單元,在PC、手機(jī)、自動(dòng)駕駛領(lǐng)域預(yù)計(jì)有廣泛的應(yīng)用場(chǎng)景。而承載智能體應(yīng)用的最好容器,就是AI應(yīng)用商店。
2024年2月,字節(jié)跳動(dòng)正式推出“Coze扣子”AIBot開(kāi)發(fā)平臺(tái)。據(jù)其官方描述稱:無(wú)論你是否有編程基礎(chǔ),都可以在扣子上快速搭建基于大模型的各類Bot,并將Bot發(fā)布到各個(gè)社交平臺(tái)、通訊軟件或部署到網(wǎng)站等其他渠道。
2024年4月,百度旗下的“靈境矩陣”正式更名為“文心智能體平臺(tái)”,基于文心大模型,支持廣大開(kāi)發(fā)者根據(jù)自身行業(yè)領(lǐng)域、應(yīng)用場(chǎng)景,選取多樣化的開(kāi)發(fā)方式,打造大模型時(shí)代的原生應(yīng)用。
2024年5月,騰訊基于“混元大模型”上線一站式AI智能體創(chuàng)作與分發(fā)平臺(tái)“騰訊元器”。用戶不僅可以在平臺(tái)上創(chuàng)建專屬AI智能體,使用騰訊官方的插件和知識(shí)庫(kù),還能將這些智能體一鍵分發(fā)到QQ、微信客服、騰訊云等渠道上。
除此之外,近日又傳出微信的云開(kāi)發(fā)團(tuán)隊(duì)正在打造一款名為“云開(kāi)發(fā)AI智能體”的應(yīng)用平臺(tái),這是一個(gè)多平臺(tái)AI智能體開(kāi)發(fā)框架,用于企業(yè)和小程序提供專屬的智能體平臺(tái)。
螞蟻集團(tuán)也在開(kāi)發(fā)一款A(yù)I應(yīng)用搭建工具“芝士餅”。用戶通過(guò)該平臺(tái)也能夠在無(wú)代碼的情況下搭建AI應(yīng)用,支持創(chuàng)作成支付寶小程序等多種產(chǎn)品形態(tài)。
如今,國(guó)內(nèi)AI應(yīng)用商店、智能體應(yīng)用平臺(tái)已經(jīng)成為“風(fēng)暴眼”。2023年,大廠們的注意力放在搭建AI大模型;2024年,大廠們又轉(zhuǎn)向搭建智能體應(yīng)用平臺(tái)。
目前為止,AI智能體并沒(méi)有誕生一個(gè)“超級(jí)巨頭”,所有玩家都是起步階段,用戶教育還在初級(jí)層次。這場(chǎng)AI世界分發(fā)權(quán)的斗爭(zhēng),注定要持續(xù)很久。
AI智能體技術(shù)演化路徑
AI智能體正成為人工智能成為基礎(chǔ)設(shè)施的關(guān)鍵驅(qū)動(dòng)力。從技術(shù)發(fā)展角度看,技術(shù)最終會(huì)演變成基礎(chǔ)設(shè)施,就像水、電一樣變得無(wú)處不在而又必不可少,云計(jì)算就是一個(gè)類似例子。
IDC《AIGC應(yīng)用層十大趨勢(shì)》報(bào)告調(diào)研表明,所有企業(yè)都認(rèn)為AI智能體是AIGC發(fā)展的確定性方向,50%的企業(yè)已經(jīng)在某項(xiàng)工作中進(jìn)行了AI智能體的試點(diǎn),另有34%的企業(yè)正在制定AI智能體的應(yīng)用計(jì)劃。
《2024數(shù)字科技前沿應(yīng)用趨勢(shì)》中,“多模態(tài)智能體加速AGI進(jìn)程”被列為第二大趨勢(shì)。報(bào)告認(rèn)為,通用人工智能漸行漸近,大模型走向多模態(tài),AI智能體有望成為下一代平臺(tái);端側(cè)大模型加速部署,或?qū)⒊蔀槲磥?lái)交互新入口。AI在數(shù)學(xué)推理、新藥研發(fā)、材料發(fā)現(xiàn)、蛋白質(zhì)合成等領(lǐng)域大顯身手,“AI科學(xué)家”有望加速問(wèn)世。
綜合多家研究報(bào)告來(lái)看,AI智能體的發(fā)展或?qū)⒊霈F(xiàn)幾條最具前景的路徑。
首先,是多智能體系統(tǒng)(Multi-Agent Systems,MAS),其是由多個(gè)互相協(xié)作或競(jìng)爭(zhēng)的自治智能體組成的系統(tǒng),旨在通過(guò)集體行為解決復(fù)雜問(wèn)題。智能體的主要任務(wù)通常包括感知環(huán)境、處理信息、做出決策,并與其他智能體交互以實(shí)現(xiàn)共同的目標(biāo)。
![]()
該系統(tǒng)由多個(gè)自治的、互動(dòng)的、異構(gòu)的智能體組成,每個(gè)智能體都有自己的目標(biāo)、行為、信念和偏好,同時(shí)也受到環(huán)境的影響和約束。其目標(biāo)是實(shí)現(xiàn)智能體之間的協(xié)作和競(jìng)爭(zhēng)的平衡,使得每個(gè)智能體都能達(dá)到自己的目標(biāo),同時(shí)也能促進(jìn)整個(gè)系統(tǒng)的性能和效益。
難點(diǎn)是如何處理智能體之間的復(fù)雜的交互和協(xié)調(diào),如何解決智能體之間的沖突和矛盾,如何評(píng)估智能體的表現(xiàn)和進(jìn)步,如何接受人類的反饋和指導(dǎo),如何遵守人類的倫理和法律等。
智能體可以以協(xié)作或競(jìng)爭(zhēng)的方式相互交互。這使他們能夠通過(guò)團(tuán)隊(duì)合作或?qū)剐曰?dòng)來(lái)實(shí)現(xiàn)進(jìn)步。在系統(tǒng)中,智能體可以共同完成復(fù)雜的任務(wù)或相互競(jìng)爭(zhēng)以提高其性能。
比如用于模擬和優(yōu)化交通、能源、物流等領(lǐng)域的復(fù)雜系統(tǒng),也可以用于設(shè)計(jì)和實(shí)現(xiàn)智能家居、智能城市、智能工廠等應(yīng)用場(chǎng)景。
第二,是自主智能體(Autonomous Agent),其是指能夠在環(huán)境中感知、學(xué)習(xí)和執(zhí)行動(dòng)作的智能實(shí)體。這種實(shí)體具有自主性,即它能夠獨(dú)立地做出決策和行動(dòng),而無(wú)需人為干預(yù)。
自主智能體具備自主決策和行動(dòng)能力,能夠在給定的環(huán)境中自主地感知、學(xué)習(xí)和做出決策,以實(shí)現(xiàn)特定的目標(biāo)。自主智能體能夠根據(jù)環(huán)境的變化和反饋信息,不斷地適應(yīng)和改進(jìn)自己的行為,從而實(shí)現(xiàn)更好的性能和效果。
它通常被設(shè)計(jì)成具備對(duì)環(huán)境的感知能力,能夠根據(jù)感知到的信息做出理性的決策,并執(zhí)行相應(yīng)的動(dòng)作以達(dá)到特定的目標(biāo)。在實(shí)現(xiàn)自主性的過(guò)程中,機(jī)器學(xué)習(xí)和深度學(xué)習(xí)等技術(shù)發(fā)揮了關(guān)鍵作用。
自主智能體的設(shè)計(jì)和實(shí)現(xiàn)涉及多個(gè)方面,包括但不限于機(jī)器學(xué)習(xí)、自然語(yǔ)言處理、計(jì)算機(jī)視覺(jué)等AI技術(shù)的綜合運(yùn)用。
它們被設(shè)計(jì)用于執(zhí)行各種不同的任務(wù),如管理社交媒體賬戶、投資市場(chǎng)、制作兒童讀物等,甚至在一些情況下,它們可以幫助人們釋放時(shí)間去做更有創(chuàng)造性的事情。其研究?jī)r(jià)值主要體現(xiàn)在強(qiáng)化學(xué)習(xí)和機(jī)器人學(xué)中,例如DeepMind的AlphaGo和OpenAI的 OpenAI Five(一個(gè)會(huì)打團(tuán)戰(zhàn)的Dota2游戲AI)都是比較典型的基于強(qiáng)化學(xué)習(xí)智能體運(yùn)用。
LLM爆發(fā)以后,近一年來(lái)關(guān)于自主智能體的研究和話題開(kāi)始呈現(xiàn)井噴之勢(shì),例如AutoGPT、BabyAGI、GenerativeAgents、MetaGPT等項(xiàng)目在Github上已狂攬上萬(wàn)star,成為炙手可熱的明星項(xiàng)目。
第三,是超級(jí)個(gè)體。基于智能體的人機(jī)協(xié)同模式,每個(gè)普通個(gè)體都有可能成為超級(jí)個(gè)體。超級(jí)個(gè)體是一個(gè)由許多有機(jī)體組成的有機(jī)體系,通常是一個(gè)真社會(huì)性動(dòng)物的社會(huì)單位,其中社會(huì)分工被高度專業(yè)化,且個(gè)體無(wú)法獨(dú)自長(zhǎng)時(shí)間地生存。
在現(xiàn)代社會(huì)中,超級(jí)個(gè)體也可以指精通一項(xiàng)或多項(xiàng)專業(yè)技能,并完成商業(yè)變現(xiàn),最終對(duì)傳統(tǒng)雇傭關(guān)系實(shí)現(xiàn)脫離依附的復(fù)合型人才。
AI智能體可以賦予超級(jí)個(gè)體更多的機(jī)遇,使個(gè)人能夠在更廣闊的領(lǐng)域展示才華,通過(guò)AI賦能進(jìn)行創(chuàng)造性工作,足以打造一個(gè)人的團(tuán)隊(duì)與公司。
超級(jí)個(gè)體是擁有自己的AI團(tuán)隊(duì)與自動(dòng)化任務(wù)工作流,基于智能體與其他超級(jí)個(gè)體建立更為智能化與自動(dòng)化的協(xié)作關(guān)系。現(xiàn)在業(yè)內(nèi)不乏一人公司、超級(jí)個(gè)體的積極探索。
Github平臺(tái)上,已經(jīng)出現(xiàn)一些基于智能體的自動(dòng)化團(tuán)隊(duì)項(xiàng)目。比如GPTeam利用大模型創(chuàng)建多個(gè)被賦予角色和功能的智能體,多智能體協(xié)作以實(shí)現(xiàn)預(yù)定目標(biāo)。Dev-GPT是一個(gè)自動(dòng)化開(kāi)發(fā)和運(yùn)維的多智能體協(xié)作團(tuán)隊(duì),包含了產(chǎn)品經(jīng)理智能體、開(kāi)發(fā)人員智能體和運(yùn)維人員智能體等角色分工,可以滿足和支撐一個(gè)初創(chuàng)營(yíng)銷公司的正常運(yùn)營(yíng)。NexusGPT整合了開(kāi)源數(shù)據(jù)庫(kù)中的各種AI原生數(shù)據(jù),并擁有800多個(gè)具有特定技能的AI智能體。在該平臺(tái)上,你可以找到不同領(lǐng)域的專家,例如設(shè)計(jì)師、咨詢顧問(wèn)、銷售代表等。雇主可以隨時(shí)在這個(gè)平臺(tái)上選擇一個(gè)AI智能體幫助他們完成各種任務(wù)。
AI智能體作為人工智能領(lǐng)域的一項(xiàng)革命性技術(shù),預(yù)示著人類與機(jī)器之間協(xié)作方式的根本變革。隨著AI智能體技術(shù)的進(jìn)一步發(fā)展和成熟,我們預(yù)期會(huì)看到更智能、更高效、更個(gè)性化的智能助理,將極大地提升人類的生產(chǎn)力和生活質(zhì)量。然而,技術(shù)進(jìn)步也伴隨著安全、倫理和社會(huì)挑戰(zhàn),需要我們?cè)谙硎芗夹g(shù)帶來(lái)的便利的同時(shí),也要不斷審視和解決這些挑戰(zhàn),從而為技術(shù)的未來(lái)發(fā)展找到一條切實(shí)可行的路徑。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.