網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

OpenAI神秘草莓遭截胡，AI智能體成“新寵”？

2024-08-22 15:58:02　來(lái)源: 極智GeeTech

北京舉報(bào)

分享至

大模型的下半場(chǎng)，正在進(jìn)入“智能體”涌現(xiàn)時(shí)間。

最近，OpenAI 的秘密項(xiàng)目“Q*”一直受到了圈內(nèi)人士的廣泛關(guān)注。上個(gè)月，以它為前身、代號(hào)為“草莓（Strawberry）”的項(xiàng)目又被曝光了。據(jù)推測(cè)，該項(xiàng)目能夠提供高級(jí)推理能力。

就在人們翹首以盼“Q*”的時(shí)候，一家名為MultiOn的初創(chuàng)公司的CEO Div Garg在推特上頻頻使用草莓表情，并發(fā)布了一款名為Agent Q的智能體，讓人不禁聯(lián)想到OpenAI神秘的Q項(xiàng)目。

有人猜測(cè)，這背后可能有OpenAI的Q*項(xiàng)目加持。MultiOn公司不僅給AgentQ開(kāi)設(shè)了獨(dú)立的X賬號(hào)，而且賬號(hào)的背景圖片和基本信息都與草莓有關(guān)，這無(wú)疑增加了人們對(duì)其背后技術(shù)的好奇。

最被看好的AI應(yīng)用方向

近年來(lái)，大型語(yǔ)言模型（LLM）在人工智能領(lǐng)域取得了顯著的進(jìn)步。像ChatGPT、Gemini、Opus和LLaMA-3這樣的前沿模型展現(xiàn)出強(qiáng)大的推理能力，在許多領(lǐng)域的表現(xiàn)接近甚至超越了人類平均水平。這些突破將LLM的應(yīng)用范圍從傳統(tǒng)的聊天和基于文本的任務(wù)擴(kuò)展到了更具動(dòng)態(tài)性的智能體角色，使其不僅可以生成文本，還可以在各種環(huán)境中自主地執(zhí)行操作。

然而，一個(gè)重大的挑戰(zhàn)依然存在：LLM在交互式、多步驟的環(huán)境中仍然難以有效地泛化。Muli0n的研究人員致力于解決這一難題他們的目標(biāo)是設(shè)計(jì)一種方法，使智能體能夠利用自主經(jīng)驗(yàn)和有限的監(jiān)督來(lái)進(jìn)行改進(jìn)。為此，他們引入了Agent Q--一種將推理、搜索自我批評(píng)和強(qiáng)化學(xué)習(xí)等多個(gè)關(guān)鍵概念相結(jié)合的新方法。

Agent Q的設(shè)計(jì)靈感來(lái)自于Suton提出的“痛苦教訓(xùn)"，即那些能夠隨著計(jì)算量的增加而不斷擴(kuò)展的通用方法的力量，這表明了將搜索和學(xué)習(xí)結(jié)合起來(lái)的巨大好處。

在Open Table上進(jìn)行的真實(shí)世界預(yù)訂實(shí)驗(yàn)中，Agent Q大幅提高了LLaMa-3模型的零樣本性能，將其成功率從18.6%提升至81.7%提升幅度高達(dá)340%，并且僅需一天的自主數(shù)據(jù)收集。如果啟用在線搜索功能，成功率更可進(jìn)一步提升至 95.4%。這些結(jié)果突出了Agent Q方法在提升自主Web智能體效率和性能方面的顯著效果。

Agent Q作為AI智能體的一種，具有自主性、反應(yīng)性、社會(huì)性、認(rèn)知性、思辨性等特征的智能“代理”，能夠自主理解、規(guī)劃決策、執(zhí)行復(fù)雜任務(wù)等。它的核心在于自主性的增強(qiáng)，即可以獨(dú)立完成某項(xiàng)工作，不必人類進(jìn)行過(guò)多的審核校正，可以將成本降到最低。

OpenAI對(duì)AI智能體的定義著重于其作為一個(gè)以大型語(yǔ)言模型為核心的系統(tǒng)，這個(gè)系統(tǒng)具備自主理解感知、規(guī)劃、記憶和使用工具的能力，使其能夠自動(dòng)完成復(fù)雜的任務(wù)。

AI智能體的基本框架包含四個(gè)主要模塊：記憶、規(guī)劃、工具使用和行動(dòng)。

記憶模塊負(fù)責(zé)存儲(chǔ)信息，既包括過(guò)去的交互和學(xué)習(xí)到的知識(shí)，也包括臨時(shí)的任務(wù)信息。有效的記憶機(jī)制對(duì)智能體來(lái)說(shuō)至關(guān)重要，使其能夠在遇到新的或復(fù)雜情況時(shí)，調(diào)用過(guò)往的經(jīng)驗(yàn)和知識(shí)。記憶又分為短期和長(zhǎng)期兩種，短期記憶用于上下文學(xué)習(xí)，而長(zhǎng)期記憶則通過(guò)外部數(shù)據(jù)庫(kù)和快速檢索，為智能體提供長(zhǎng)時(shí)間保留和回憶信息的能力。

規(guī)劃模塊包括事前規(guī)劃和事后反思兩個(gè)階段。事前規(guī)劃涉及對(duì)未來(lái)行動(dòng)的預(yù)測(cè)和決策，幫助智能體高效地規(guī)劃步驟和行動(dòng)以達(dá)到目標(biāo)。事后反思則讓智能體能夠檢查和改進(jìn)計(jì)劃中的不足，從錯(cuò)誤中學(xué)習(xí)并加入長(zhǎng)期記憶，以此更新對(duì)世界的認(rèn)知。

工具使用模塊使智能體能夠利用外部資源或工具執(zhí)行任務(wù)。例如，它們可以調(diào)用外部API來(lái)獲取模型數(shù)據(jù)中缺失的信息，或者使用特定軟件分析大量數(shù)據(jù)。這種工具使用方式提升了智能體的效率和任務(wù)完成能力。

行動(dòng)模塊是智能體實(shí)際執(zhí)行決策和響應(yīng)的部分。智能體擁有一系列行動(dòng)策略，根據(jù)不同任務(wù)選擇相應(yīng)的行動(dòng)，如記憶檢索、推理、學(xué)習(xí)和編程等。

當(dāng)前，AI智能體的技術(shù)難點(diǎn)主要包括以下幾個(gè)方面。

第一，理解復(fù)雜任務(wù)。AI智能體需要能夠理解并執(zhí)行復(fù)雜的、多步驟的任務(wù)，這要求模型具備強(qiáng)大的理解能力和規(guī)劃能力。

第二，記憶和知識(shí)管理。為了在執(zhí)行任務(wù)時(shí)保持連貫性和上下文理解，AI智能體需要具備長(zhǎng)期記憶的能力，這涉及到有效的信息存儲(chǔ)和檢索機(jī)制。

第三，工具使用和集成。AI智能體需要能夠與外部環(huán)境進(jìn)行交互，需要能夠使用和集成各種工具和服務(wù)，包括調(diào)用API、使用軟件應(yīng)用程序等。這要求模型具備一定的外部工具使用能力，以完成任務(wù)，同時(shí)需要注意不同工具之間的互操作性和集成問(wèn)題。

第四，多模態(tài)理解。AI智能體在實(shí)際應(yīng)用中可能需要處理和理解多種類型的輸入，如文本、圖像、音頻等，這要求模型具備多模態(tài)理解的能力，并能夠與用戶進(jìn)行自然的交互。

第五，安全性和可靠性。在執(zhí)行任務(wù)時(shí)，AI智能體需要確保操作的安全性和可靠性，避免產(chǎn)生不可預(yù)測(cè)的錯(cuò)誤或風(fēng)險(xiǎn)。

第六，倫理和隱私問(wèn)題。AI智能體的開(kāi)發(fā)和使用涉及到安全和倫理問(wèn)題，如隱私保護(hù)、偏見(jiàn)和公平性等，需要確保AI智能體的行為符合道德和社會(huì)規(guī)范。

大廠集體攻堅(jiān)“智能體”

隨著AI浪潮風(fēng)起云涌，國(guó)內(nèi)互聯(lián)網(wǎng)大廠們都一一成為急先鋒，不斷在AI領(lǐng)域加碼，不論是阿里巴巴騰訊，還是字節(jié)跳動(dòng)拼多多百度，都將AI視為核心戰(zhàn)略。從最近一段時(shí)間開(kāi)始，組建AI應(yīng)用商店，創(chuàng)造各類智能體應(yīng)用，搭建AI生態(tài)，成了大廠們的熱門(mén)潮流。

智能體應(yīng)用是基于內(nèi)嵌于終端的本地大模型打造，精準(zhǔn)理解用戶意圖，并將意圖轉(zhuǎn)換為相應(yīng)的任務(wù)組合，分解任務(wù)并識(shí)別任務(wù)完成的路徑，通過(guò)查詢本地知識(shí)庫(kù)、調(diào)用設(shè)備API以及合適的模型或應(yīng)用來(lái)執(zhí)行相應(yīng)的任務(wù)，并將相應(yīng)的結(jié)果返回給智能體，智能體完成整合后反饋給用戶。

簡(jiǎn)單來(lái)說(shuō)，智能體將成為AI OS系統(tǒng)的最小工作單元，在PC、手機(jī)、自動(dòng)駕駛領(lǐng)域預(yù)計(jì)有廣泛的應(yīng)用場(chǎng)景。而承載智能體應(yīng)用的最好容器，就是AI應(yīng)用商店。

2024年2月，字節(jié)跳動(dòng)正式推出“Coze扣子”AIBot開(kāi)發(fā)平臺(tái)。據(jù)其官方描述稱：無(wú)論你是否有編程基礎(chǔ)，都可以在扣子上快速搭建基于大模型的各類Bot，并將Bot發(fā)布到各個(gè)社交平臺(tái)、通訊軟件或部署到網(wǎng)站等其他渠道。

2024年4月，百度旗下的“靈境矩陣”正式更名為“文心智能體平臺(tái)”，基于文心大模型，支持廣大開(kāi)發(fā)者根據(jù)自身行業(yè)領(lǐng)域、應(yīng)用場(chǎng)景，選取多樣化的開(kāi)發(fā)方式，打造大模型時(shí)代的原生應(yīng)用。

2024年5月，騰訊基于“混元大模型”上線一站式AI智能體創(chuàng)作與分發(fā)平臺(tái)“騰訊元器”。用戶不僅可以在平臺(tái)上創(chuàng)建專屬AI智能體，使用騰訊官方的插件和知識(shí)庫(kù)，還能將這些智能體一鍵分發(fā)到QQ、微信客服、騰訊云等渠道上。

除此之外，近日又傳出微信的云開(kāi)發(fā)團(tuán)隊(duì)正在打造一款名為“云開(kāi)發(fā)AI智能體”的應(yīng)用平臺(tái)，這是一個(gè)多平臺(tái)AI智能體開(kāi)發(fā)框架，用于企業(yè)和小程序提供專屬的智能體平臺(tái)。

螞蟻集團(tuán)也在開(kāi)發(fā)一款A(yù)I應(yīng)用搭建工具“芝士餅”。用戶通過(guò)該平臺(tái)也能夠在無(wú)代碼的情況下搭建AI應(yīng)用，支持創(chuàng)作成支付寶小程序等多種產(chǎn)品形態(tài)。

如今，國(guó)內(nèi)AI應(yīng)用商店、智能體應(yīng)用平臺(tái)已經(jīng)成為“風(fēng)暴眼”。2023年，大廠們的注意力放在搭建AI大模型；2024年，大廠們又轉(zhuǎn)向搭建智能體應(yīng)用平臺(tái)。

目前為止，AI智能體并沒(méi)有誕生一個(gè)“超級(jí)巨頭”，所有玩家都是起步階段，用戶教育還在初級(jí)層次。這場(chǎng)AI世界分發(fā)權(quán)的斗爭(zhēng)，注定要持續(xù)很久。

AI智能體技術(shù)演化路徑

AI智能體正成為人工智能成為基礎(chǔ)設(shè)施的關(guān)鍵驅(qū)動(dòng)力。從技術(shù)發(fā)展角度看，技術(shù)最終會(huì)演變成基礎(chǔ)設(shè)施，就像水、電一樣變得無(wú)處不在而又必不可少，云計(jì)算就是一個(gè)類似例子。

IDC《AIGC應(yīng)用層十大趨勢(shì)》報(bào)告調(diào)研表明，所有企業(yè)都認(rèn)為AI智能體是AIGC發(fā)展的確定性方向，50%的企業(yè)已經(jīng)在某項(xiàng)工作中進(jìn)行了AI智能體的試點(diǎn)，另有34%的企業(yè)正在制定AI智能體的應(yīng)用計(jì)劃。

《2024數(shù)字科技前沿應(yīng)用趨勢(shì)》中，“多模態(tài)智能體加速AGI進(jìn)程”被列為第二大趨勢(shì)。報(bào)告認(rèn)為，通用人工智能漸行漸近，大模型走向多模態(tài)，AI智能體有望成為下一代平臺(tái)；端側(cè)大模型加速部署，或?qū)⒊蔀槲磥?lái)交互新入口。AI在數(shù)學(xué)推理、新藥研發(fā)、材料發(fā)現(xiàn)、蛋白質(zhì)合成等領(lǐng)域大顯身手，“AI科學(xué)家”有望加速問(wèn)世。

綜合多家研究報(bào)告來(lái)看，AI智能體的發(fā)展或?qū)⒊霈F(xiàn)幾條最具前景的路徑。

首先，是多智能體系統(tǒng)（Multi-Agent Systems，MAS），其是由多個(gè)互相協(xié)作或競(jìng)爭(zhēng)的自治智能體組成的系統(tǒng)，旨在通過(guò)集體行為解決復(fù)雜問(wèn)題。智能體的主要任務(wù)通常包括感知環(huán)境、處理信息、做出決策，并與其他智能體交互以實(shí)現(xiàn)共同的目標(biāo)。

該系統(tǒng)由多個(gè)自治的、互動(dòng)的、異構(gòu)的智能體組成，每個(gè)智能體都有自己的目標(biāo)、行為、信念和偏好，同時(shí)也受到環(huán)境的影響和約束。其目標(biāo)是實(shí)現(xiàn)智能體之間的協(xié)作和競(jìng)爭(zhēng)的平衡，使得每個(gè)智能體都能達(dá)到自己的目標(biāo)，同時(shí)也能促進(jìn)整個(gè)系統(tǒng)的性能和效益。

難點(diǎn)是如何處理智能體之間的復(fù)雜的交互和協(xié)調(diào)，如何解決智能體之間的沖突和矛盾，如何評(píng)估智能體的表現(xiàn)和進(jìn)步，如何接受人類的反饋和指導(dǎo)，如何遵守人類的倫理和法律等。

智能體可以以協(xié)作或競(jìng)爭(zhēng)的方式相互交互。這使他們能夠通過(guò)團(tuán)隊(duì)合作或?qū)剐曰?dòng)來(lái)實(shí)現(xiàn)進(jìn)步。在系統(tǒng)中，智能體可以共同完成復(fù)雜的任務(wù)或相互競(jìng)爭(zhēng)以提高其性能。

比如用于模擬和優(yōu)化交通、能源、物流等領(lǐng)域的復(fù)雜系統(tǒng)，也可以用于設(shè)計(jì)和實(shí)現(xiàn)智能家居、智能城市、智能工廠等應(yīng)用場(chǎng)景。

第二，是自主智能體（Autonomous Agent），其是指能夠在環(huán)境中感知、學(xué)習(xí)和執(zhí)行動(dòng)作的智能實(shí)體。這種實(shí)體具有自主性，即它能夠獨(dú)立地做出決策和行動(dòng)，而無(wú)需人為干預(yù)。

自主智能體具備自主決策和行動(dòng)能力，能夠在給定的環(huán)境中自主地感知、學(xué)習(xí)和做出決策，以實(shí)現(xiàn)特定的目標(biāo)。自主智能體能夠根據(jù)環(huán)境的變化和反饋信息，不斷地適應(yīng)和改進(jìn)自己的行為，從而實(shí)現(xiàn)更好的性能和效果。

它通常被設(shè)計(jì)成具備對(duì)環(huán)境的感知能力，能夠根據(jù)感知到的信息做出理性的決策，并執(zhí)行相應(yīng)的動(dòng)作以達(dá)到特定的目標(biāo)。在實(shí)現(xiàn)自主性的過(guò)程中，機(jī)器學(xué)習(xí)和深度學(xué)習(xí)等技術(shù)發(fā)揮了關(guān)鍵作用。

自主智能體的設(shè)計(jì)和實(shí)現(xiàn)涉及多個(gè)方面，包括但不限于機(jī)器學(xué)習(xí)、自然語(yǔ)言處理、計(jì)算機(jī)視覺(jué)等AI技術(shù)的綜合運(yùn)用。

它們被設(shè)計(jì)用于執(zhí)行各種不同的任務(wù)，如管理社交媒體賬戶、投資市場(chǎng)、制作兒童讀物等，甚至在一些情況下，它們可以幫助人們釋放時(shí)間去做更有創(chuàng)造性的事情。其研究?jī)r(jià)值主要體現(xiàn)在強(qiáng)化學(xué)習(xí)和機(jī)器人學(xué)中，例如DeepMind的AlphaGo和OpenAI的 OpenAI Five（一個(gè)會(huì)打團(tuán)戰(zhàn)的Dota2游戲AI）都是比較典型的基于強(qiáng)化學(xué)習(xí)智能體運(yùn)用。

LLM爆發(fā)以后，近一年來(lái)關(guān)于自主智能體的研究和話題開(kāi)始呈現(xiàn)井噴之勢(shì)，例如AutoGPT、BabyAGI、GenerativeAgents、MetaGPT等項(xiàng)目在Github上已狂攬上萬(wàn)star，成為炙手可熱的明星項(xiàng)目。

第三，是超級(jí)個(gè)體。基于智能體的人機(jī)協(xié)同模式，每個(gè)普通個(gè)體都有可能成為超級(jí)個(gè)體。超級(jí)個(gè)體是一個(gè)由許多有機(jī)體組成的有機(jī)體系，通常是一個(gè)真社會(huì)性動(dòng)物的社會(huì)單位，其中社會(huì)分工被高度專業(yè)化，且個(gè)體無(wú)法獨(dú)自長(zhǎng)時(shí)間地生存。

在現(xiàn)代社會(huì)中，超級(jí)個(gè)體也可以指精通一項(xiàng)或多項(xiàng)專業(yè)技能，并完成商業(yè)變現(xiàn)，最終對(duì)傳統(tǒng)雇傭關(guān)系實(shí)現(xiàn)脫離依附的復(fù)合型人才。

AI智能體可以賦予超級(jí)個(gè)體更多的機(jī)遇，使個(gè)人能夠在更廣闊的領(lǐng)域展示才華，通過(guò)AI賦能進(jìn)行創(chuàng)造性工作，足以打造一個(gè)人的團(tuán)隊(duì)與公司。

超級(jí)個(gè)體是擁有自己的AI團(tuán)隊(duì)與自動(dòng)化任務(wù)工作流，基于智能體與其他超級(jí)個(gè)體建立更為智能化與自動(dòng)化的協(xié)作關(guān)系。現(xiàn)在業(yè)內(nèi)不乏一人公司、超級(jí)個(gè)體的積極探索。

Github平臺(tái)上，已經(jīng)出現(xiàn)一些基于智能體的自動(dòng)化團(tuán)隊(duì)項(xiàng)目。比如GPTeam利用大模型創(chuàng)建多個(gè)被賦予角色和功能的智能體，多智能體協(xié)作以實(shí)現(xiàn)預(yù)定目標(biāo)。Dev-GPT是一個(gè)自動(dòng)化開(kāi)發(fā)和運(yùn)維的多智能體協(xié)作團(tuán)隊(duì)，包含了產(chǎn)品經(jīng)理智能體、開(kāi)發(fā)人員智能體和運(yùn)維人員智能體等角色分工，可以滿足和支撐一個(gè)初創(chuàng)營(yíng)銷公司的正常運(yùn)營(yíng)。NexusGPT整合了開(kāi)源數(shù)據(jù)庫(kù)中的各種AI原生數(shù)據(jù)，并擁有800多個(gè)具有特定技能的AI智能體。在該平臺(tái)上，你可以找到不同領(lǐng)域的專家，例如設(shè)計(jì)師、咨詢顧問(wèn)、銷售代表等。雇主可以隨時(shí)在這個(gè)平臺(tái)上選擇一個(gè)AI智能體幫助他們完成各種任務(wù)。

AI智能體作為人工智能領(lǐng)域的一項(xiàng)革命性技術(shù)，預(yù)示著人類與機(jī)器之間協(xié)作方式的根本變革。隨著AI智能體技術(shù)的進(jìn)一步發(fā)展和成熟，我們預(yù)期會(huì)看到更智能、更高效、更個(gè)性化的智能助理，將極大地提升人類的生產(chǎn)力和生活質(zhì)量。然而，技術(shù)進(jìn)步也伴隨著安全、倫理和社會(huì)挑戰(zhàn)，需要我們?cè)谙硎芗夹g(shù)帶來(lái)的便利的同時(shí)，也要不斷審視和解決這些挑戰(zhàn)，從而為技術(shù)的未來(lái)發(fā)展找到一條切實(shí)可行的路徑。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.