貝葉斯智能體:通過語言化概率圖模型進(jìn)行不確定性下的貝葉斯智能體推理
BayesAgent: Bayesian Agentic Reasoning Under Uncertainty via Verbalized Probabilistic Graphical Modeling
https://www.alphaxiv.org/zh/overview/2406.05516v4
![]()
摘要
人類認(rèn)知的卓越之處在于能夠超越感官輸入,形成構(gòu)建我們對世界理解結(jié)構(gòu)的潛在表征。雖然大型語言模型(LLM)智能體展現(xiàn)出 emergent 的推理和決策能力,但它們?nèi)狈σ粋€原則性的框架來捕捉潛在結(jié)構(gòu)并對不確定性進(jìn)行建模。在這項(xiàng)工作中,我們首次探索如何將 LLM 智能體與概率圖模型(PGM)相結(jié)合,以解決不確定性下的智能體推理問題。為此,我們引入了語言化概率圖建模(vPGM),這是一個貝葉斯智能體框架,它能夠(i)通過自然語言引導(dǎo) LLM 智能體遵循 PGM 的關(guān)鍵原則,以及(ii)通過數(shù)值貝葉斯推理優(yōu)化得到的后驗(yàn)分布。與許多需要大量領(lǐng)域?qū)I(yè)知識的傳統(tǒng)概率方法不同,vPGM 繞過了專家驅(qū)動的模型設(shè)計(jì),使其特別適用于假設(shè)條件有限的場景。我們在幾個封閉式和開放式的智能體推理任務(wù)上評估了我們的模型。結(jié)果表明,該模型有效地增強(qiáng)了置信度校準(zhǔn)和文本生成質(zhì)量。代碼與附錄 —— https://github.com/xingbpshen/agentic-reasoning-vpgm
引言
在處理復(fù)雜的推理問題(例如解決具有挑戰(zhàn)性的科學(xué)問題)時,人類大腦被認(rèn)為有能力超越單純的感官輸入,可能形成對世界潛在模式的洞察。這種能力表明,人類可能擁有解釋潛在結(jié)構(gòu)和不確定性的復(fù)雜技能(Tenenbaum et al. 2011),盡管其確切機(jī)制仍是 ongoing 研究和爭論的主題。截至目前,人類所展現(xiàn)出的這種理解深度尚未在人工智能系統(tǒng)中完全實(shí)現(xiàn)(Lake et al. 2017; Bender and Koller 2020; Zheng et al. 2021; Sumers et al. 2023)。
雖然大型語言模型在處理和生成人類語言方面展現(xiàn)了令人印象深刻的能力(Devlin et al. 2018; Brown et al. 2020; Achiam et al. 2023),但其性能常常受限于其訓(xùn)練數(shù)據(jù)的范圍。這些模型主要基于海量文本語料庫構(gòu)建,擅長生成句法連貫且上下文相關(guān)的響應(yīng)。最近的進(jìn)展,如思維鏈(CoT)提示(Wei et al. 2022)和智能體范式的出現(xiàn)(Yao et al. 2023; Schick et al. 2023),已將其能力擴(kuò)展到交互式和組合式的智能體推理。然而,當(dāng)在不確定或部分可觀測的環(huán)境中作為自主智能體運(yùn)行時,尤其是在那些需要隱性知識以及整合和推理來自多個來源的未公開信息的能力(這些是 humans 在復(fù)雜推理中通常運(yùn)用的技能)的場景下,LLM 智能體常常會遇到困難。這種局限性不僅源于它們對表層語言相關(guān)性的依賴,還源于缺乏一個原則性的貝葉斯框架來捕捉潛在結(jié)構(gòu)并對不確定性進(jìn)行建模。
在這項(xiàng)工作中,我們首次探索如何將 LLM 智能體與概率圖模型(PGM)相結(jié)合,以解決不確定性下的智能體推理問題。為此,我們引入了語言化概率圖建模(vPGM),這是一個貝葉斯智能體框架,它將 LLM 智能體推理的優(yōu)勢與顯式的數(shù)值貝葉斯推理相結(jié)合。與通常需要大量領(lǐng)域?qū)I(yè)知識的傳統(tǒng)貝葉斯推理框架(Griffiths, Kemp, and Tenenbaum 2008; Bielza and Larra?aga 2014; Wang and Yeung 2020; Abdullah, Hassan, and Mustafa 2022)不同,vPGM 繞過了專家驅(qū)動的模型設(shè)計(jì),使其特別適用于假設(shè)條件有限的場景。具體來說,貝葉斯結(jié)構(gòu)學(xué)習(xí)方法(Kitson et al. 2023)有助于發(fā)現(xiàn)貝葉斯網(wǎng)絡(luò),但它們通常需要專家領(lǐng)域知識來手動驗(yàn)證統(tǒng)計(jì)依賴性,或者依賴計(jì)算成本高昂的評分函數(shù)來評估圖模型對數(shù)據(jù)的擬合優(yōu)度。我們的方法通過引導(dǎo) LLMs 模擬貝葉斯推理原則,同時通過一個可學(xué)習(xí)的貝葉斯代理模型增強(qiáng)不確定性量化,從而利用 LLMs 的知識和推理能力,顯著減少了對專家輸入的依賴。
具體而言,我們的方法包含三個初始階段:(1)圖結(jié)構(gòu)發(fā)現(xiàn),在此階段,提示 LLM 識別潛在變量及其概率依賴性;(2)基于提示的推理,引導(dǎo) LLMs 在給定新輸入數(shù)據(jù)的情況下推斷每個潛在變量的語言化后驗(yàn)分布;(3)不確定性下的預(yù)測,通過計(jì)算在推斷出的潛在變量上的條件預(yù)測分布的期望值,來實(shí)現(xiàn)最終預(yù)測的置信度。此外,為了充分利用 vPGM 框架內(nèi) LLMs 生成的多個響應(yīng)樣本并增強(qiáng)不確定性量化,我們使用數(shù)值貝葉斯推理技術(shù)擴(kuò)展了 vPGM,這些技術(shù)可以推斷預(yù)測的后驗(yàn)分布,并通過一個理論上有保證的可微校準(zhǔn)損失函數(shù)來增強(qiáng)置信度校準(zhǔn)。
我們在幾個智能體推理任務(wù)上評估了我們的方法,這些任務(wù)設(shè)計(jì)為封閉式和開放式回答格式。實(shí)驗(yàn)證明,該方法在置信度校準(zhǔn)和生成響應(yīng)的質(zhì)量方面均有改進(jìn),突顯了 vPGM 在增強(qiáng) LLM 智能體概率推理能力方面的有效性。
相關(guān)工作
大型語言模型的研究近期已從靜態(tài)提示轉(zhuǎn)向能夠進(jìn)行智能體推理、工具使用和交互式?jīng)Q策的 LLM 智能體或智能體系統(tǒng)。我們分別討論這兩個方向,強(qiáng)調(diào)它們的局限性以及我們提出的 vPGM 如何解決一個關(guān)鍵缺失的組成部分:針對智能體推理任務(wù)的概率潛在變量推理和不確定性校準(zhǔn)。
LLM 提示
LLM 中的提示方法構(gòu)成了一個長期的研究方向,其核心是無訓(xùn)練地引導(dǎo)模型響應(yīng)。早期方法包括上下文學(xué)習(xí),即模型根據(jù)特定任務(wù)的演示進(jìn)行條件生成;以及指令提示,它將明確的任務(wù)指令直接嵌入到自然語言提示中。一個重大的發(fā)展是思維鏈提示,它引出中間推理步驟以增強(qiáng)復(fù)雜推理。后續(xù)的變體將 CoT 擴(kuò)展到更靈活或自動化的設(shè)置:零樣本 CoT、自動 rationale 生成、自洽性解碼,以及連續(xù)思維鏈,它將推理軌跡嵌入潛在空間。此外,(Xiong et al. 2023) 在基于一致性的方法基礎(chǔ)上進(jìn)行了擴(kuò)展,并對 LLM 的置信度 elicitation 進(jìn)行了實(shí)證研究。相比之下,我們提出的 vPGM 從貝葉斯推理的角度解決置信度 elicitation 問題,該方法遵循理論上更扎實(shí)的貝葉斯推理框架——概率圖模型的原則。
LLM 智能體與智能體系統(tǒng)
在這些提示方法進(jìn)步的基礎(chǔ)上,LLM 提示已演變?yōu)?LLM 智能體,它將推理與行動、工具使用以及對外部環(huán)境的交互交織在一起。ReAct 結(jié)合了自然語言推理與工具調(diào)用和環(huán)境反饋;Toolformer 使用自監(jiān)督信號教導(dǎo) LLM 何時以及如何調(diào)用工具;ADAS 則自動化了智能體系統(tǒng)架構(gòu)的設(shè)計(jì)。這些系統(tǒng)標(biāo)志著從被動文本生成向交互式、工具增強(qiáng)行為的轉(zhuǎn)變。然而,現(xiàn)有的智能體方法通常缺乏一個原則性的概率框架:它們不顯式地建模潛在變量、量化不確定性或執(zhí)行貝葉斯信念更新,這限制了它們在需要不確定性下進(jìn)行校準(zhǔn)的智能體推理的場景中的適用性。
同期工作
一些同期的工作探索了使用 LLM 進(jìn)行概率或因果建模,但它們在很大程度上與我們的貢獻(xiàn)是正交的。最近的因果發(fā)現(xiàn)研究專注于學(xué)習(xí)因果關(guān)系和反事實(shí),而 vPGM 的目標(biāo)是針對多源智能體任務(wù)的非因果概率潛在變量推理和不確定性校準(zhǔn)。BIRD 引入了一個用于 LLM 的貝葉斯推理包裝器,但它僅限于二元決策制定,因此不直接適用于我們的多類別和開放式輸出。相比之下,vPGM 為 LLM 智能體內(nèi)的潛在變量推理和校準(zhǔn)的不確定性提供了一個統(tǒng)一的貝葉斯框架。
我們的方法:語言化概率圖建模(vPGM)
語言化概率圖建模(vPGM)是一種貝葉斯智能體推理方法,它利用大型語言模型智能體以自然語言模擬概率圖模型的關(guān)鍵原則。與許多需要廣泛領(lǐng)域知識和專門訓(xùn)練的現(xiàn)有概率方法不同,vPGM 繞過了基于專家的模型設(shè)計(jì)需求,使其適用于處理領(lǐng)域假設(shè)有限或數(shù)據(jù)稀缺的復(fù)雜推理任務(wù)。
vPGM 概述
從應(yīng)用角度來看,vPGM 可以嵌入到一系列復(fù)雜的推理系統(tǒng)中,例如智能體推理任務(wù)(見圖1)。我們的方法將整個推理過程分解為三個核心步驟:(1)圖結(jié)構(gòu)發(fā)現(xiàn),在此階段,通過提示 LLM 來識別潛在變量及其概率依賴關(guān)系(見圖2);(2)基于提示的推理,引導(dǎo) LLMs 根據(jù)新的輸入數(shù)據(jù)推斷每個潛在變量的語言化后驗(yàn)分布;(3)不確定性下的預(yù)測,通過計(jì)算在推斷出的潛在變量上的條件預(yù)測分布的期望值,來實(shí)現(xiàn)最終預(yù)測的置信度。
![]()
![]()
圖結(jié)構(gòu)發(fā)現(xiàn)
我們的方法首先通過設(shè)計(jì)專門的提示(見附錄)來揭示組合推理中的潛在變量。該提示包含幾個關(guān)鍵要素:(1)通用任務(wù)描述,簡潔陳述推理目標(biāo);(2)輸入-輸出數(shù)據(jù)對,展示具有代表性的數(shù)據(jù)樣本;(3)上下文信息,提供必要的背景知識或領(lǐng)域洞見;(4)先驗(yàn)知識與約束,指定約束條件,例如潛在變量的最大數(shù)量及其預(yù)定義的依賴關(guān)系。
在識別出一組潛在變量 Z = {Z?, Z?, ..., Z?}(潛在變量的示例見附錄)之后,我們進(jìn)一步提示大語言模型(LLMs)來確定每個潛在變量如何依賴于其他變量。從 LLM 獲得的一組依賴關(guān)系示例如下:{ X → Z?, X → Z?, X → Z?, X → Z?, Z? → Z?, Z? → Z?, Z? → Z?, Z? → Z?, Z? → Y },其中每個關(guān)系 a → b 表示 b 條件依賴于 a。與傳統(tǒng)的概率圖模型(PGMs)類似,我們的語言化 PGM(vPGM)將這些依賴關(guān)系編碼為條件概率分布 P(Z? | Pa(Z?))。然而,vPGM 不依賴于顯式的分布形式,而是使用自然語言描述(詳細(xì)示例見附錄)來指定每個條件關(guān)系,從而減少了對大量領(lǐng)域?qū)I(yè)知識或參數(shù)估計(jì)的需求。
基于提示的貝葉斯推斷
傳統(tǒng)上,貝葉斯推斷側(cè)重于在給定概率模型和新觀測值的情況下推斷模型參數(shù)的后驗(yàn)分布。然而,在 LLM 的語境下,它被重新表述為生成提示,以在 vPGM 框架下利用其發(fā)現(xiàn)的結(jié)構(gòu)和新觀測值來模擬后驗(yàn)推斷。這種方法利用 LLM 的高級推理能力來生成指令,使其能夠模擬貝葉斯推斷原理。一個示例提示是:"生成一個提示,引導(dǎo) LLM 根據(jù)提供的任務(wù)描述、發(fā)現(xiàn)的 PGM 和測試數(shù)據(jù),逐步進(jìn)行概率推理……"
不確定性下的預(yù)測
智能體推理任務(wù)通常涉及顯著的不確定性。例如,LLM 智能體(如圖像描述器)可能產(chǎn)生有噪聲的輸出,引入偶然不確定性。在 vPGM 框架下,這種可變性通過潛在變量的語言化后驗(yàn)分布來捕捉。在通過基于提示的貝葉斯推斷構(gòu)建語言化后驗(yàn) P(Z | X) 之后,我們通過對 Z 取 P(Y | Z) 的期望值來量化對最終預(yù)測的置信度:
![]()
其中 X 表示觀測輸入,Z 是通過使用 vPGM 的貝葉斯推斷提示查詢 LLM 來采樣的。在實(shí)踐中,P(Z | X) 和 P(Y | Z) 都在單個提示中模擬(詳見附錄中的示例)。因此,期望后驗(yàn)概率可以通過對 LLM 在這些推斷步驟中生成的 P(Y | Z) 的數(shù)值取平均來近似。
貝葉斯增強(qiáng)的 vPGM:BayesVPGM
當(dāng)在 vPGM 框架下反復(fù)查詢大語言模型(LLM)時,我們會獲得多個響應(yīng)樣本,即類別預(yù)測及其數(shù)值概率。一個自然的問題是:如何利用這些數(shù)據(jù)來更好地捕捉 LLM 預(yù)測中潛在的不確定性。為此,我們提出推斷這樣一個后驗(yàn)分布,記為 q(y | x?),其中 x? 表示類別預(yù)測。
![]()
![]()
![]()
通過可微分校準(zhǔn)損失優(yōu)化 λ
該后驗(yàn)分布的一個關(guān)鍵局限性在于它依賴于手動調(diào)優(yōu)的 λ,該參數(shù)控制著 vPGM 的數(shù)值概率對最終結(jié)果的影響程度。為了實(shí)現(xiàn)這一過程的自動化并改善校準(zhǔn)效果,我們引入了一種可微分的校準(zhǔn)損失,通過基于梯度的優(yōu)化來學(xué)習(xí) λ。
具體而言,我們最小化以下關(guān)于 λ 的損失函數(shù):
![]()
![]()
![]()
![]()
![]()
![]()
證明見附錄。盡管損失函數(shù)公式 (2) 中的交叉熵項(xiàng)將預(yù)測拉向獨(dú)熱標(biāo)簽,而校準(zhǔn)項(xiàng)強(qiáng)制執(zhí)行逐類別平均對齊,但定理 1 表明這兩個目標(biāo)可以同時達(dá)到最小值。
實(shí)驗(yàn)
我們在三個智能體推理任務(wù)上評估了所提出的 vPGM 和 BayesVPGM 在建模不確定性方面的有效性。第一個是名為 ScienceQA(Lu et al. 2022)的封閉式任務(wù),第二個是名為 ChatCoach(Huang et al. 2024)的開放式任務(wù),這兩個任務(wù)都需要結(jié)合來自多個來源的未公開信息進(jìn)行推理。然后,我們引入了一個源自 A-OKVQA(Schwenk et al. 2022)的負(fù)對照實(shí)驗(yàn),以研究潛在變量是否可以通過檢測錯誤信息存在時的不匹配來增強(qiáng)置信度校準(zhǔn)。詳細(xì)的實(shí)驗(yàn)配置見附錄。
科學(xué)問答
由(Lu et al. 2022)提出的科學(xué)問答(ScienceQA)基準(zhǔn)是一個全面的多模態(tài)問答基準(zhǔn),涵蓋物理學(xué)、數(shù)學(xué)、生物學(xué)和人文學(xué)科等多種科學(xué)學(xué)科。它包含 4,241 個問答對,涵蓋各種主題和背景。該任務(wù)需要整合來自多個來源或 LLM 智能體(例如必應(yīng)搜索結(jié)果、圖像描述)的信息,這一過程可能引入錯誤并增加推理的復(fù)雜性。鑒于這些挑戰(zhàn),ScienceQA 成為評估 vPGM 識別潛在結(jié)構(gòu)和模型不確定性效果的理想測試平臺。更詳細(xì)的實(shí)驗(yàn)設(shè)置見附錄。
基線方法 我們將 vPGM/BayesVPGM 與以下基線方法進(jìn)行比較:
思維鏈(Chain-of-Thought) 這是一種非工具增強(qiáng)的 LLM:配備言語化置信度估計(jì)的思維鏈(CoT)提示(Wei et al. 2022),通過提示其為所選答案提供數(shù)值置信度來實(shí)現(xiàn)。
Chameleon 這是一種基于工具增強(qiáng) LLM 的方法:Chameleon(Lu et al. 2023),我們?yōu)槠渑鋫淞搜哉Z化置信度估計(jì)。
Chameleon+ 它通過結(jié)合言語化置信度估計(jì)和自洽性測量(Wang et al. 2022a)的最先進(jìn)不確定性量化框架擴(kuò)展了 Chameleon,如(Xiong et al. 2023)所推薦的。
評估指標(biāo) 根據(jù)(Naeini, Cooper, and Hauskrecht 2015; Guo et al. 2017; Xiong et al. 2023)中先前的置信度校準(zhǔn)評估設(shè)置,我們采用期望校準(zhǔn)誤差(ECE)來評估模型置信度,以數(shù)值概率預(yù)測的形式表示。ECE 量化了預(yù)測概率與每個置信度水平(分箱)上觀測準(zhǔn)確率之間的差異。在整個實(shí)驗(yàn)中,我們將置信度分箱數(shù)固定為 10,各分箱的置信度貢獻(xiàn)均勻分布。此外,我們通過測量準(zhǔn)確率(Acc.)來評估給定方法正確解決問題的能力。
結(jié)果 表 1 詳細(xì)列出了不同方法在 ScienceQA 數(shù)據(jù)集上的性能。結(jié)果顯示,Chameleon 的 ECE(×102)最高(最差),為 9.62,表明即使在借助外部工具的情況下,處理復(fù)雜推理任務(wù)時仍存在嚴(yán)重的過度自信問題。相比之下,我們的 vPGM 在準(zhǔn)確率和 ECE 方面均優(yōu)于這些方法,這得益于其捕捉其他基線方法所忽略的潛在結(jié)構(gòu)信息的卓越能力。圖 3 展示了 vPGM 和 BayesVPGM 的可靠性圖,顯示其在所有分箱上與理想校準(zhǔn)曲線幾乎完美對齊,突出了其在置信度校準(zhǔn)方面的精確性(消融結(jié)果和詞元級計(jì)算成本見附錄)。
![]()
![]()
推斷潛在變量的定性研究 圖 1 展示了 BayesVPGM 推理能力的案例研究,以定性評估模型利用潛在結(jié)構(gòu)信息改進(jìn)置信度估計(jì)的能力。在此,vPGM 利用其潛在變量來批判性評估檢索信息的相關(guān)性。例如,當(dāng)面對來自必應(yīng)搜索等外部工具的不相關(guān)數(shù)據(jù)或圖像描述器提供的不準(zhǔn)確描述時,基線方法 Chameleon 錯誤地對其預(yù)測保持高置信度。相比之下,BayesVPGM 會仔細(xì)調(diào)整其置信度,在缺少關(guān)鍵上下文知識或知識不正確時分配較低的概率,這一過程通過潛在變量的推斷尤為有效。這些觀察結(jié)果突顯了推斷潛在結(jié)構(gòu)對于提高組合推理系統(tǒng)可靠性的重要性。
![]()
交際醫(yī)療指導(dǎo)
醫(yī)療指導(dǎo)基準(zhǔn) ChatCoach 由(Huang et al. 2024)提出,建立了一個復(fù)雜的多智能體對話場景,涉及醫(yī)生、患者和醫(yī)療教練,跨越 3,500 輪對話。醫(yī)療教練的任務(wù)是檢測醫(yī)生使用的醫(yī)學(xué)術(shù)語中的不準(zhǔn)確之處(檢測任務(wù))并提出適當(dāng)?shù)男拚ㄗh(修正任務(wù))。這些任務(wù)需要整合外部醫(yī)學(xué)知識,這本質(zhì)上會給回復(fù)生成帶來不確定性。選擇該基準(zhǔn)是為了測試 vPGM 在復(fù)雜開放式推理任務(wù)上的泛化能力。BayesVPGM 未在此設(shè)置中應(yīng)用,因?yàn)樵撃P图僭O(shè)輸出為類別分布。實(shí)驗(yàn)和實(shí)現(xiàn)的更多細(xì)節(jié)見附錄。
基線方法 為進(jìn)行比較分析,我們將 vPGM 與以下方法進(jìn)行基準(zhǔn)對比:
普通指令提示(Vanilla Instruction Prompting):該方法使用直接指令提示 LLM 生成對話。
零樣本思維鏈(Zero-shot Chain of Thought, CoT)(Kojima et al. 2022):一種簡單的 CoT 方法,提示 LLM 依次闡述推理鏈。
普通思維鏈(Vanilla CoT)(Wei et al. 2022):該方法在基礎(chǔ) CoT 之上,為 LLM 提供一組包含詳細(xì)推理步驟的示例。
廣義思維鏈(Generalized CoT, GCoT)(Huang et al. 2024):CoT 的高級版本,旨在有效改進(jìn)結(jié)構(gòu)化反饋的生成和外部知識的整合。它代表了 ChatCoach 基準(zhǔn)中的最先進(jìn)方法。
評估指標(biāo) 我們遵循(Huang et al. 2024),采用傳統(tǒng)的自動評估指標(biāo) BLEU-2、ROUGE-L 和 BERTScore。BLEU-2 用于測量二元語法重疊的精確度,提供生成文本相對于參考答案詞匯準(zhǔn)確性的洞察。ROUGE-L 用于評估句子級相似性,關(guān)注最長公共子序列以評估結(jié)構(gòu)連貫性和順序 n 元語法的一致性。此外,BERTScore 應(yīng)用于語義相似性評估,利用 BERT 嵌入在更深層次的語義上比較生成輸出和參考文本。如(Huang et al. 2024)所指定,我們使用 GPT-4 從教練智能體的反饋中提取醫(yī)學(xué)術(shù)語錯誤和相應(yīng)的修正。然后基于這些提取的元素與人類標(biāo)注進(jìn)行比較計(jì)算自動指標(biāo)。
結(jié)果 我們在表 2 中展示了各種方法的性能。所有指標(biāo)上機(jī)器生成輸出與人類基準(zhǔn)之間的顯著差異突顯了交際醫(yī)療指導(dǎo)中固有的挑戰(zhàn)。在醫(yī)學(xué)術(shù)語錯誤檢測方面,vPGM 以優(yōu)異的 BLEU-2(37.2)和 BERTScore(76.3)領(lǐng)先,突顯其在識別不準(zhǔn)確之處方面的熟練程度。在修正任務(wù)中,雖然 vPGM 取得了突出的 BERTScore 68.3,超越所有基線,但其在 BLEU-2 和 ROUGE-L 上得分較低。這種變化歸因于醫(yī)生輸入中的歧義性,這可能產(chǎn)生多個有效回復(fù),影響依賴精確匹配的指標(biāo)。
![]()
A-OKVQA 負(fù)對照:研究錯誤信息下的潛在變量
數(shù)據(jù)模擬 A-OKVQA(Schwenk et al. 2022)是一個視覺問答數(shù)據(jù)集,挑戰(zhàn)模型對場景進(jìn)行常識推理,這通常超出了簡單知識庫查詢的范圍。關(guān)鍵的是,它為每個問題提供了真實(shí)圖像描述和推理依據(jù)。我們利用這些標(biāo)注來構(gòu)建一個負(fù)對照實(shí)驗(yàn):A-OKVQA-clean(603 個數(shù)據(jù)點(diǎn))保留正確的圖像描述和推理依據(jù)(接近單跳推理),而 A-OKVQA-noisy(603 個數(shù)據(jù)點(diǎn))隨機(jī)打亂推理依據(jù),從而引入錯誤信息并強(qiáng)制進(jìn)行多跳一致性檢查。在此實(shí)驗(yàn)中,我們采用具有 2 個潛在變量的 vPGM(推理提示和示例查詢見附錄)。數(shù)據(jù)配置的更多細(xì)節(jié)見附錄。
噪聲條件下的整體性能 表 3 顯示了 A-OKVQA-noisy 數(shù)據(jù)集上的整體準(zhǔn)確率(Acc.)和期望校準(zhǔn)誤差(ECE)。vPGM 和 BayesVPGM 在準(zhǔn)確率上均優(yōu)于 Chameleon+(61.03% 對 59.04%),并產(chǎn)生更低的 ECE,表明潛在變量能夠檢測不匹配并改進(jìn)置信度校準(zhǔn)。
![]()
![]()
![]()
這表明了一種權(quán)衡:雖然潛在變量在檢測錯誤信息和改進(jìn) Noisy 設(shè)置中的校準(zhǔn)方面表現(xiàn)出色,但在實(shí)際不存在不匹配時,它們可能會輕微降低校準(zhǔn)效果。
結(jié)論
我們提出了言語化概率圖模型(vPGM),一種貝葉斯智能體框架,該框架(1)指導(dǎo) LLM 智能體通過自然語言模擬概率圖模型(PGM)的核心原理,以及(2)通過數(shù)值貝葉斯推斷細(xì)化所得的后驗(yàn)分布。應(yīng)用于智能體工作流中,vPGM 使 LLM 智能體能夠執(zhí)行具有校準(zhǔn)不確定性的概率潛在變量推理。該方法無需大量領(lǐng)域?qū)I(yè)知識即可發(fā)現(xiàn)潛在變量和依賴關(guān)系,使其非常適用于假設(shè)有限的場景。我們在智能體推理任務(wù)上的實(shí)證結(jié)果顯示,在置信度校準(zhǔn)和文本生成質(zhì)量方面均有顯著提升。這些結(jié)果突顯了將貝葉斯原理與 LLM 智能體相結(jié)合以增強(qiáng) AI 系統(tǒng)建模不確定性和不確定性下推理能力的潛力。
原文鏈接:https://arxiv.org/pdf/2406.05516
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.