最近陸陸續(xù)續(xù)的發(fā)布了很多的智能體,有拿Agent做唯一產(chǎn)品的Manus這樣的明星產(chǎn)品,還有@夕小瑤團(tuán)隊(duì)開(kāi)發(fā)的Teamo;以及本身就是大模型產(chǎn)品基于自己模型開(kāi)發(fā)的Agent,比如Kimi的Kimi-researcher,以及MiniMax最近開(kāi)源周放出來(lái)的MiniMax Agent。
但如果仔細(xì)觀察的話,這些公司的產(chǎn)品中有一個(gè)大類是共通的,那就是去解決一個(gè)問(wèn)題:「怎么去寫(xiě)好一份報(bào)告?」
這幾個(gè)產(chǎn)品,包括古早就出現(xiàn)的OpenAI和Gemini都有的Deep Research功能,其實(shí)也是在做類似的事情,而這件事情想要做好,想要依靠單獨(dú)的某個(gè)模型,在現(xiàn)在的技術(shù)體系下絕無(wú)可能,從問(wèn)題到結(jié)果,最少需要三個(gè)能力。
聯(lián)網(wǎng)搜索:大模型的記憶大多停留在2024年,這是因?yàn)榇竽P偷墓逃杏?xùn)練邏輯,從訓(xùn)練好,到微調(diào),再到最終發(fā)布,幾個(gè)月到半年起,所以你問(wèn)他現(xiàn)在的事情,必須通過(guò)聯(lián)網(wǎng)搜索獲取。
推理思考:資料搜集是一方面,而搜索大多依賴于關(guān)鍵字,很多關(guān)鍵字對(duì)應(yīng)的信息其實(shí)是有沖突的,信息沖突只是其中一方面,而碰到?jīng)_突就需要大模型得具備推理和思考的能力,像人一樣的去做判斷。
訪問(wèn)信息:搜集到的信息可能有很多種類型,最普通的就是網(wǎng)頁(yè)上的文字,但如果碰到的是圖片上的文字,視頻信息甚至一些質(zhì)量很差但是唯一信源的聲音信息,起碼的廣泛的信息訪問(wèn)技術(shù)是必要的。
![]()
你會(huì)發(fā)現(xiàn),不可能有任何一個(gè)單一的大模型可以完成「怎么去寫(xiě)好一份報(bào)告這件事」,不管怎么樣,都需要給現(xiàn)有的大模型加一些插件才行,而這個(gè)過(guò)程,其實(shí)跟“人類和動(dòng)物的最大區(qū)別是對(duì)于工具的使用”異曲同工。
AI Agent并沒(méi)有本質(zhì)上提升某個(gè)模型的智力,只不過(guò)是學(xué)會(huì)了如何使用工具而已。
而如何使用工具,使用說(shuō)明工具以及多大程度的依靠工具,就產(chǎn)生了現(xiàn)有的實(shí)現(xiàn)AI Agent智能體的三種方法:
單體推理模型:典型如OpenAI,這種架構(gòu)的核心思想是依賴一個(gè)單一、巨大且能力全面的大語(yǔ)言模型來(lái)統(tǒng)一處理任務(wù)的各個(gè)方面,包括理解查詢、規(guī)劃步驟、執(zhí)行工具(如搜索)以及綜合信息生成最終答案。
多模型智能體模型:Teamo非常典型,這種架構(gòu)將一個(gè)復(fù)雜的任務(wù)分解成多個(gè)子任務(wù),并為每個(gè)子任務(wù)分配一個(gè)專門(mén)的、角色清晰的AI智能體。這些智能體在一個(gè)“主管”或協(xié)調(diào)者的管理下協(xié)同工作,共同完成最終目標(biāo)。并且根據(jù)不同任務(wù)的特性使用不同的模型,比如寫(xiě)代碼用Claude,論文寫(xiě)作用Gemini,講究的是借力。
RAG中心化智能體:Perplexity是代表,這種架構(gòu)的設(shè)計(jì)哲學(xué)將事實(shí)準(zhǔn)確性置于最高優(yōu)先級(jí)。其核心是檢索增強(qiáng)生成(Retrieval-Augmented Generation, RAG)。整個(gè)工作流程圍繞“先檢索,后生成”展開(kāi):首先,系統(tǒng)實(shí)時(shí)從可信的外部來(lái)源(如互聯(lián)網(wǎng))檢索與查詢相關(guān)的信息;然后,利用大語(yǔ)言模型將這些檢索到的、有事實(shí)依據(jù)的信息進(jìn)行綜合、提煉和組織,最終生成答案。
單體推理模型
對(duì)于單體推理模型來(lái)說(shuō),最常見(jiàn)的就是大模型公司,比如OpenAI的Deep Research,MiniMax,以及Kimi的Researcher,他們的Agent就是基于自身大模型的產(chǎn)品,所以于情于理也不可能用別家的,這是大模型公司做應(yīng)用的執(zhí)念,即使只是暫時(shí)的。
下圖從左到右,從上到下分別是OpenAI的Deep Research,MiniMaX Agent,Kimi Researcher,Gemini的Deep Research。
![]()
這4個(gè)例子的背后公司肯定會(huì)有一個(gè)主打的模型,比如OpenAI的o系列,Kimi的k系列,以及MiniMax最近剛剛出的M1模型,Gemini的Gemini-2.5系列,都是在大模型領(lǐng)域非常能打的存在。也依靠他們的明星產(chǎn)品擁有不少的忠實(shí)用戶,這是他們能做單體推理模型的底氣。
![]()
優(yōu)勢(shì)
強(qiáng)大的通用推理與靈活性:由于所有任務(wù)都在一個(gè)統(tǒng)一的“思維空間”內(nèi)完成,單體模型可能發(fā)展出更強(qiáng)的通用問(wèn)題解決能力。它不受限于預(yù)設(shè)的、僵化的角色分工,因此在面對(duì)從未見(jiàn)過(guò)或結(jié)構(gòu)模糊的復(fù)雜任務(wù)時(shí),可能表現(xiàn)出更高的靈活性和適應(yīng)性。
整體性理解:模型能夠?qū)θ蝿?wù)形成一個(gè)連貫、整體的理解,因?yàn)閺妮斎氲捷敵龅乃兄虚g步驟和思考過(guò)程都是內(nèi)在關(guān)聯(lián)的,而不是在不同模塊間傳遞。
劣勢(shì)
更高的“幻覺(jué)”風(fēng)險(xiǎn):這是該架構(gòu)最主要的弱點(diǎn)。強(qiáng)大的生成能力意味著模型在信息不足或推理出錯(cuò)時(shí),更容易“編造”事實(shí),即產(chǎn)生幻覺(jué)。OpenAI也明確指出,其Deep Research智能體雖然比普通模型出錯(cuò)率低,但仍會(huì)偶爾產(chǎn)生幻覺(jué),并且在區(qū)分權(quán)威信息和網(wǎng)絡(luò)謠言方面存在困難。
不透明的“黑箱”問(wèn)題:推理過(guò)程是模型內(nèi)部的復(fù)雜神經(jīng)活動(dòng),外界難以精確地審視其決策邏輯。當(dāng)模型給出一個(gè)答案時(shí),我們很難完全理解它是如何一步步推導(dǎo)出來(lái)的,這在需要高可靠性和可解釋性的關(guān)鍵應(yīng)用中是一個(gè)重大障礙。
巨大的計(jì)算成本:訓(xùn)練和運(yùn)行一個(gè)能處理所有任務(wù)的、最前沿的單一模型,需要極其龐大的計(jì)算資源和資金投入。
總的來(lái)說(shuō),單體推理模型需要一個(gè)非常強(qiáng)的AI大模型,不然智力程度完全不夠,但這也需要前提投入大量的資金先去做模型,然后再基于此作應(yīng)用。再加上在做應(yīng)用的時(shí)候只用自家模型,所以模型的缺點(diǎn)肯定也會(huì)帶到Agent上。
多模型智能體模型
多模型智能體模型,往往存在于主營(yíng)業(yè)務(wù)甚至就智能體這一個(gè)業(yè)務(wù),他們要實(shí)現(xiàn)的就是極致的效果和性能,所以他們會(huì)針對(duì)于不同的任務(wù)采用不同的模型,選擇的多樣性和靈活度要遠(yuǎn)高于單體推理模型。
比如Teamo,非常的經(jīng)典多模型智能體,下圖就是Teamo設(shè)置不同Agent,主要分為幾個(gè)組,比如搜索組、寫(xiě)作組、咨詢組和一些未上線的組別,并且每個(gè)組都有組長(zhǎng)和組員不同角色。
![]()
細(xì)看的話,搜索組的搜索員就只有兩個(gè)模型可以用,Claude-4-sonnet和Opus,這么說(shuō)吧,這倆模型在大模型領(lǐng)域的定價(jià)算是非常貴的那種了,如果不是在實(shí)踐中發(fā)現(xiàn)這倆模型的性能最好,或者說(shuō)只有這倆模型的性能才能滿足需求,那斷然不會(huì)只用這倆的。
![]()
通用深度寫(xiě)作員就是一個(gè)例子,你可以看到它可用的模型有很多,Gemini-2.5-Pro,DeepSeek-V3,GPT,Claude,甚至不常見(jiàn)的Grok3都有。
這幾個(gè)之間的價(jià)格差別還是比較明顯的,像DeepSeek這種開(kāi)源模型價(jià)格要遠(yuǎn)低于閉源模型,但是實(shí)踐中發(fā)現(xiàn)這些模型之間的實(shí)際表現(xiàn)估計(jì)差別不明顯。
![]()
Manus也一樣,據(jù)其中一個(gè)創(chuàng)始人,Manus主要用的兩家模型,Claude和Qwen,估計(jì)也是考慮到了性能和價(jià)格之間的平衡,只用Claude的確要貴不少。
![]()
![]()
優(yōu)勢(shì)
流程透明且可控:由于任務(wù)被明確地分解到不同的專業(yè)智能體,整個(gè)工作流程變得清晰可見(jiàn)。例如,可以看到“生成”智能體提出了哪些假設(shè),“反思”智能體又如何對(duì)其進(jìn)行評(píng)估。這種模塊化設(shè)計(jì)使得調(diào)試、監(jiān)督和干預(yù)變得更加容易。
專業(yè)分工帶來(lái)的高質(zhì)量:每個(gè)智能體都可以被專門(mén)優(yōu)化以精通其特定任務(wù)。就像人類團(tuán)隊(duì)一樣,讓“創(chuàng)意專家”負(fù)責(zé)頭腦風(fēng)暴,讓“批判專家”負(fù)責(zé)評(píng)估,理論上可以在每個(gè)環(huán)節(jié)都達(dá)到更高的質(zhì)量水平。
任務(wù)并行處理:不同的子任務(wù)可以由多個(gè)智能體同時(shí)執(zhí)行,從而可能提高整體的效率和速度。
劣勢(shì)
通信與協(xié)調(diào)開(kāi)銷(xiāo):智能體之間需要高效地溝通和傳遞信息,這會(huì)引入額外的計(jì)算開(kāi)銷(xiāo)和系統(tǒng)復(fù)雜性。如果協(xié)調(diào)機(jī)制設(shè)計(jì)不當(dāng),可能會(huì)導(dǎo)致效率瓶頸。
管理復(fù)雜性高:設(shè)計(jì)和管理“主管”智能體與各個(gè)專業(yè)智能體之間的復(fù)雜互動(dòng)是一項(xiàng)挑戰(zhàn)。整個(gè)系統(tǒng)的最終表現(xiàn)高度依賴于這種協(xié)調(diào)與管理機(jī)制的優(yōu)劣。
創(chuàng)業(yè)公司青睞這種方式,畢竟不需要自己做模型,只需要用現(xiàn)成的,還可以什么好用就用什么,不好用立馬下線,但缺點(diǎn)也很明顯,就是被復(fù)制的概率非常大,因?yàn)楹诵募夹g(shù)依賴于大模型,而次核心的工程技術(shù)容易被大公司用人海戰(zhàn)術(shù)迅速追上甚至反超。
RAG中心化智能體
這種智能體其實(shí)不算多,因?yàn)樗脑O(shè)計(jì)哲學(xué)偏向于「索引」,這就意味著「檢索」的優(yōu)先級(jí)最高,簡(jiǎn)單來(lái)說(shuō)就是收集更多的信息,然后交給大模型去整理。而這里面資料的儲(chǔ)存和利用就用了RAG這個(gè)技術(shù),它的全名叫檢索增強(qiáng)生成(Retrieval-Augmented Generation)。
可以根據(jù)下面的圖來(lái)理解,比如我們問(wèn)2025年6月22日人民幣和美元的匯率是多少,那么沒(méi)有聯(lián)網(wǎng)的大模型絕對(duì)不可能知道,因?yàn)樗墓逃腥毕荩ㄓ?xùn)練數(shù)據(jù)滯后于模型發(fā)布時(shí)間)。所以這個(gè)時(shí)候就需要先去聯(lián)網(wǎng)獲取外部資料,然后大模型去根據(jù)外部資料去做回答。
![]()
這里面的典型模型其實(shí)就有知乎直答、秘塔AI搜索和Perplexity AI,都是先做大量的檢索,然后根據(jù)檢索資料進(jìn)行匯總和分析。
這里面的區(qū)別就是檢索信息來(lái)源的不同,每家平臺(tái)會(huì)采用不同的信源,像知乎就用的自己平臺(tái)回答多一些,微博和騰訊元寶也有類似的功能,都是優(yōu)先采用自己的信源。
![]()
這種用的模型一般都是自研或者開(kāi)源模型,因?yàn)樗暮诵脑谟谛畔⒌摹翱伤菰础保@一點(diǎn)兒只需要大模型照章辦事即可。
優(yōu)勢(shì)
極高的事實(shí)準(zhǔn)確性與可追溯性:這是該架構(gòu)最突出的優(yōu)點(diǎn)。由于所有答案都牢固地植根于檢索到的真實(shí)世界信息,并且總是附帶來(lái)源引用,用戶可以輕松驗(yàn)證信息的真?zhèn)巍F浜诵脑瓌t是“不生成任何未檢索到的信息”。
幻覺(jué)風(fēng)險(xiǎn)極低:大語(yǔ)言模型在這里的主要角色是“組織者”和“轉(zhuǎn)述者”,而非“創(chuàng)作者”。因?yàn)樗灰蕾嚻鋬?nèi)部記憶來(lái)生成事實(shí)性內(nèi)容,所以產(chǎn)生幻覺(jué)的風(fēng)險(xiǎn)被降到了最低。
來(lái)源透明:用戶能清晰地看到每一條信息來(lái)自何處,這在學(xué)術(shù)研究、新聞?wù){(diào)查等需要嚴(yán)肅事實(shí)核查的場(chǎng)景中至關(guān)重要。
劣勢(shì)
能力受限于可檢索的信息:系統(tǒng)的能力上限被其信息檢索系統(tǒng)所束縛。如果一個(gè)問(wèn)題的答案無(wú)法通過(guò)現(xiàn)有渠道檢索到,那么該系統(tǒng)也無(wú)法憑空創(chuàng)造出來(lái)。
純粹抽象推理和創(chuàng)造力受限:對(duì)于那些需要超越現(xiàn)有數(shù)據(jù)、進(jìn)行純粹邏輯推演或提出全新原創(chuàng)概念的任務(wù),這種方法表現(xiàn)不佳。它擅長(zhǎng)綜合已知,而非探索未知。
它的優(yōu)劣勢(shì)很明顯,信息可溯源就是最大的優(yōu)勢(shì),但同樣限制了大模型的能力,就是嚴(yán)重受限于檢索到的數(shù)據(jù)質(zhì)量,同時(shí)它也不太可能突破現(xiàn)有信息的限制,去創(chuàng)造新的知識(shí)。
這三種當(dāng)下的Agent范式都有各自的優(yōu)缺點(diǎn),特別是在實(shí)現(xiàn)上其實(shí)重合的地方很多,不過(guò)各自的側(cè)重點(diǎn)是能讓各自都能在領(lǐng)域里面脫穎而出的主要原因。這個(gè)新興市場(chǎng)的未來(lái)演進(jìn)路徑正逐漸清晰。
當(dāng)前一代的研究智能體,主要專注于自動(dòng)化現(xiàn)有的「人類資料密集型工作」流程,例如文獻(xiàn)綜述、事實(shí)查找、行動(dòng)規(guī)劃等。不過(guò)未來(lái)不管是AI還是AI Agent,都不可能止步于總結(jié)現(xiàn)有人類的知識(shí)或者經(jīng)驗(yàn),而是更多的將精力投入到「發(fā)現(xiàn)或者發(fā)明」新的知識(shí)上。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.