BAYESIAN EVALUATION OF LARGE LANGUAGE MODELBEHAVIOR
貝葉斯方法評估大型語言模型行為
https://arxiv.org/pdf/2511.10661
![]()
![]()
摘要
評估基于大語言模型(LLMs)的文本生成系統(tǒng)的行為變得日益重要,例如它們產(chǎn)生有害輸出的傾向性或?qū)剐暂斎氲拿舾行浴4祟愒u估通常依賴于一個精心整理的基準(zhǔn)輸入提示集,將這些提示提供給LLM,并以二元方式(例如:有害/無害,或未泄露/泄露敏感信息)對每個提示的輸出進(jìn)行評估,再通過匯總這些二元評分來評價LLM的整體表現(xiàn)。然而,現(xiàn)有評估方法往往忽視了對統(tǒng)計不確定性的量化。本文面向應(yīng)用統(tǒng)計學(xué)領(lǐng)域的讀者,首先介紹了LLM文本生成與評估的基本背景,隨后提出一種貝葉斯方法,用于量化二元評估指標(biāo)中的不確定性。我們特別關(guān)注由LLM系統(tǒng)中普遍采用的概率性文本生成策略所引起的不確定性。我們通過兩個案例研究展示了該方法的應(yīng)用:1)在旨在誘使模型生成有害回應(yīng)的對抗性輸入基準(zhǔn)上評估模型的拒絕率;2)在開放式交互對話示例基準(zhǔn)上評估一個LLM相對于另一個LLM的成對偏好。我們展示了貝葉斯方法如何為基于LLM系統(tǒng)的行提供有用的不確定性量化。
關(guān)鍵詞:大語言模型 · LLM · 貝葉斯統(tǒng)計 · 評估 · 不確定性量化 · 序貫采樣 · 湯普森采樣
1 引言
隨著大語言模型(LLMs)在各類應(yīng)用中被廣泛使用,對其能力和行為進(jìn)行嚴(yán)格評估變得愈發(fā)重要,以確保其按預(yù)期運行并避免不良行為,例如給出無幫助的回答、生成有害內(nèi)容或不實信息[Richter等, 2025; Ganguli等, 2022; Perez等, 2022; Wang等, 2023]。許多流行的LLM(如ChatGPT [OpenAI, 2023])對用戶而言是黑箱系統(tǒng),僅能通過模型商業(yè)開發(fā)者提供的付費應(yīng)用程序接口(API)訪問。外部各方(如終端用戶、監(jiān)管機(jī)構(gòu)或其他考慮將LLM集成到自身應(yīng)用或平臺中的開發(fā)者)通常希望評估這些黑箱系統(tǒng),例如在多個可用LLM之間做出選擇,或?qū)蜻x模型進(jìn)行審計。由于這些系統(tǒng)是黑箱,此類評估通常只能通過觀察LLM生成的文本并據(jù)此推斷其行為來完成——這自然構(gòu)成了一個適合統(tǒng)計方法的范式。
LLM評估通常包括在一組精心設(shè)計的測試用例(即基準(zhǔn))上總結(jié)LLM的表現(xiàn),該基準(zhǔn)旨在估計模型在部署前在各種任務(wù)中的性能和能力[Liang等, 2023]。這些評估結(jié)果隨后用于指導(dǎo)關(guān)于模型的結(jié)論和決策。然而,已有研究指出,當(dāng)前基準(zhǔn)評估中的常見做法往往忽略了評估指標(biāo)中的多種不確定性,例如抽樣變異性[Reuel等, 2024; Miller, 2024; Madaan等, 2024; Bowyer等, 2025]。這一問題因LLM本身是概率模型而進(jìn)一步加劇:在實際應(yīng)用中,LLM通常以隨機(jī)方式部署,即輸出文本是根據(jù)概率分布生成的,而非確定性地生成。然而,在評估中卻常使用確定性文本生成方式,或僅對每個測試用例生成一次文本[Song等, 2025]。雖然在評估環(huán)境中使用確定性生成有助于提高可復(fù)現(xiàn)性,但基于確定性輸出報告的評估指標(biāo)可能忽略了LLM在實際使用中采用隨機(jī)生成策略時所表現(xiàn)出的行為[Scholten等, 2025]。
在本研究中,我們采用貝葉斯方法解決如何在評估黑箱LLM系統(tǒng)行為時量化不確定性的問題,以捕捉LLM文本生成固有的隨機(jī)性。我們聚焦于可二元度量的行為。例如,我們可能擁有一組“越獄”提示(如Chao等[2024]所述),期望LLM拒絕回答,每個LLM生成的輸出可被標(biāo)記為“拒絕”或“未拒絕”;又或者,我們可能擁有一組詢問理論上LLM應(yīng)已“遺忘”信息的提示,每個生成的輸出可根據(jù)是否泄露敏感信息進(jìn)行標(biāo)記(如Scholten等[2025]所述)。
近期已有越來越多的研究建議并開發(fā)了用于量化LLM評估指標(biāo)不確定性的方法,包括頻率學(xué)派和貝葉斯建模方法[Bowyer等, 2025; Madaan等, 2024; Miller, 2024; Scholten等, 2025; Luettgau等, 2025; Hariri等, 2025; Llewellyn等, 2025; Xiao等, 2025]。與Scholten等[2025]類似,我們的工作聚焦于在單個輸入層面建模LLM輸出的隨機(jī)性。我們從行為審計的角度出發(fā),利用貝葉斯模型對跨多個輸入聚合的、具有政策相關(guān)性的指標(biāo)進(jìn)行不確定性量化。此外,考慮到通過API反復(fù)對黑箱LLM進(jìn)行采樣會帶來財務(wù)和計算成本,我們還開發(fā)并實驗了序貫采樣方法:借助我們的貝葉斯模型,以更節(jié)省成本的方式從LLM系統(tǒng)中采樣,從而用更少的樣本降低評估中的不確定性。
本文后續(xù)結(jié)構(gòu)如下:第2節(jié)提供符號說明和LLM系統(tǒng)的背景知識,其中2.1節(jié)簡要介紹LLM如何用于生成文本,2.2節(jié)進(jìn)一步討論LLM評估,并將我們的工作置于該研究圖景中;第3節(jié)描述我們的貝葉斯模型;第4節(jié)在“批量”場景下(即對每個輸入觀察相同數(shù)量的隨機(jī)文本生成)展示該模型的實驗應(yīng)用,聚焦兩個案例研究:一是考察LLM對潛在有害輸入的拒絕行為,二是評估兩個不同LLM之間的成對偏好;第5節(jié)轉(zhuǎn)向序貫設(shè)置,描述如何利用第3節(jié)的模型以不確定性感知的方式動態(tài)選擇下一個希望觀察隨機(jī)文本生成的輸入,而非一次性對所有輸入生成相同數(shù)量的樣本;第6節(jié)則在前述兩個案例研究中應(yīng)用序貫方法;第7節(jié)討論未來研究方向。
2 基于LLM的系統(tǒng)
假設(shè)我們有一個系統(tǒng) π,它接收一個自然語言形式的字符串 x 作為輸入,并返回一個自然語言形式的輸出字符串 y。例如,輸入字符串 x 可能是問題:“統(tǒng)計學(xué)如何幫助未來的大語言模型研究?” 我們希望將此問題作為輸入提供給系統(tǒng) π,以觀察其輸出 y = π(x)。系統(tǒng) π 內(nèi)部包含一個大語言模型(LLM),因此我們將 π 稱為基于LLM的系統(tǒng)(類似于 Ross 等人 [2025])。
為了被 LLM 處理,輸入文本會被分割成更小的單元,稱為“詞元”(tokens)。我們將構(gòu)成 x 的詞元序列記作 (x?, x?, ..., x?)。例如,上面的問題可被拆分為:(“How”, “can”, “statistics”, “help”, “future”, “LLM”, “research”, “?”)。類似地,我們將輸出 y 的詞元記作 (y?, y?, ..., y?)。這種將文本切分的過程稱為“分詞”(tokenization),而執(zhí)行該過程的具體實現(xiàn)稱為“分詞器”(tokenizer)。分詞器根據(jù)一個有限大小的詞表 將自然語言文本轉(zhuǎn)換為詞元序列,其中詞表大小為 V = ||。為簡化起見,在本文中,詞元可被視為單詞,盡管在實踐中它們可能是子詞、字符或字節(jié)。關(guān)于自然語言處理中的分詞方法已有大量文獻(xiàn);更多相關(guān)內(nèi)容請參閱 Jurafsky 和 Martin [2025]。
基于LLM的系統(tǒng) π 可以接受長度可變的輸入文本字符串,最長可達(dá) N 個詞元,即 x ∈ ∪???? ?;并輸出長度可變的字符串,最長可達(dá) K 個詞元,即 y ∈ ∪???? ?。
我們工作的目標(biāo)是評估系統(tǒng) π,以了解其行為特性。在我們的評估目的下,無需知曉系統(tǒng) π 的內(nèi)部組件。例如,系統(tǒng) π 可能僅簡單地將輸入文本通過單個 LLM 生成輸出文本(圖1a)。或者,系統(tǒng) π 內(nèi)部除 LLM 外可能還包含額外邏輯(圖1c),或系統(tǒng)內(nèi)可能包含兩個或多個 LLM(圖1b)。
π 的一個關(guān)鍵特征是它是隨機(jī)性的(stochastic),因為它使用基于 LLM 的文本生成機(jī)制。具體而言,π(x) 是輸入字符串 x 的一個隨機(jī)函數(shù),從而在輸出字符串 y 上誘導(dǎo)出一個條件概率分布 p_π(y|x)。當(dāng)我們使用系統(tǒng) π 生成輸出字符串 y 時,在給定輸入 x 的條件下,我們實際上是在按照以下條件分布進(jìn)行采樣:
![]()
![]()
盡管我們的評估方法對定義 π 的具體細(xì)節(jié)不作假設(shè),但我們在下一節(jié)中將簡要介紹使用大語言模型(LLMs)進(jìn)行文本生成的一些背景知識。
2.1 大語言模型與文本生成
目前,使用大語言模型(LLMs)進(jìn)行文本生成的主流范式是自回歸語言建模。為便于闡述,我們假設(shè) π 采用單個 LLM 的情形(圖1a),令 x?:? = (x?, x?, ..., x?),其中 I 是輸入字符串 x 中的詞元數(shù)量;類似地,y?:? 表示輸出字符串 y 中的前 t 個詞元。在自回歸語言模型中,給定輸入 x 時輸出字符串 y 的概率可寫作:
![]()
LLM 提供了計算該聯(lián)合分布所需的條件概率,并能夠?qū)勺冮L度的序列進(jìn)行條件建模,但受限于最大長度。具體而言,記 LLM 為 f f,它以迄今為止已觀測到的詞元為條件,輸出下一個詞元的類別概率向量,即在第一步時:
![]()
如今大多數(shù)大語言模型(LLMs)都基于神經(jīng)網(wǎng)絡(luò)的 Transformer 架構(gòu)。此處我們省略關(guān)于 LLM 神經(jīng)網(wǎng)絡(luò)架構(gòu)的細(xì)節(jié),但建議讀者參閱 Ji 等人 [2025] 以了解 Transformer 在語言建模中的更多歷史與背景。LLM 神經(jīng)網(wǎng)絡(luò)架構(gòu)的標(biāo)準(zhǔn)輸出是一個長度為 V V 的未歸一化實值向量,隨后通過歸一化操作將其轉(zhuǎn)化為一個類別概率向量。這些未歸一化的值被稱為模型的 logits,記作 ![]()
。令 h 表示輸出未歸一化 logits 的神經(jīng)網(wǎng)絡(luò)架構(gòu),即:
![]()
![]()
盡管目前從左到右的自回歸建模仍是 LLM 文本生成的主流方法,但也存在一些替代方案。例如,基于擴(kuò)散的語言模型可用于一次性生成完整輸出文本,而非逐詞生成 [Gong 等, 2024; Nie 等, 2025; Li 等, 2025]。只要我們將黑箱系統(tǒng) π 視為接收字符串 x 作為輸入、并輸出字符串分布的系統(tǒng)(例如,如上所述自回歸方式或其他替代方式),我們的方法對這類細(xì)節(jié)不作假設(shè)。
此外,除了用于文本生成的解碼策略外,在系統(tǒng) π 內(nèi)部,輸入 x 在我們觀察到最終輸出文本之前,可能還需經(jīng)過額外的處理邏輯。圖1c 展示了一個例子,其中 LLM 被要求在用戶觀察最終輸出前對其答案進(jìn)行批判和修訂(例如,類似于 Gou 等 [2024])。LLM 也可能與外部工具(例如請求互聯(lián)網(wǎng)或數(shù)據(jù)庫搜索)交互,這些工具可提供附加上下文信息,有助于生成對用戶更有用的輸出文本(例如,Gou 等 [2024];Gao 等 [2025];Patil 等 [2024])。LLM 正越來越多地被應(yīng)用于更復(fù)雜的流程和環(huán)境中,常作為“智能體”系統(tǒng)的一部分,其中 LLM 用于與其環(huán)境交互;這是當(dāng)前人工智能研究與工業(yè)界快速擴(kuò)展的一個領(lǐng)域 [Kapoor 等, 2025]。我們認(rèn)為此類 LLM 系統(tǒng)內(nèi)部的細(xì)節(jié)對于評估者而言是不可見的,這促使我們借助觀測數(shù)據(jù),通過 p π ( y ∣ x ) 來學(xué)習(xí)整個系統(tǒng)的特性。
2.2 基于LLM系統(tǒng)的評估
LLM被廣泛應(yīng)用于各種場景,涉及解決問題、信息檢索、摘要生成或特定主題知識等多種能力。這導(dǎo)致了一系列多樣化的評估基準(zhǔn),這些基準(zhǔn)通常聚焦于評估LLM在準(zhǔn)確性與計算效率方面的能力 [Liang 等, 2023; Chang 等, 2024]。隨著LLM能力不斷增強(qiáng)且日益復(fù)雜,人們開始關(guān)注其所生成文本可能包含有害內(nèi)容的傾向,例如偏見、刻板印象、隱私/敏感信息或非事實性內(nèi)容 [Wang 等, 2023]。在此背景下,LLM評估的另一個重要方面是評估其行為表現(xiàn),例如,使用毒性、偏見及對抗性輸出魯棒性等指標(biāo)對模型進(jìn)行審計,而不僅僅是評估準(zhǔn)確性和效率 [Liang 等, 2023; Wang 等, 2023; Perez 等, 2022; Ganguli 等, 2022; Richter 等, 2025]。我們的重點正是這種第二類評估。
我們對由LLM文本生成固有的隨機(jī)性在單個輸出層面引發(fā)的不確定性進(jìn)行建模,即:由于單一輸入提示 x(通過LLM)會誘導(dǎo)出關(guān)于輸出字符串 y 的一個分布,由此產(chǎn)生不確定性。我們探討的問題例如:基于LLM的系統(tǒng)拒絕回答某個特定有害輸入提示的概率是多少?例如,輸出類似“抱歉,我無法幫助您處理此事”的內(nèi)容?在我們的評估方法中,我們會將相同的輸入提示 x 多次提供給系統(tǒng) π,并利用相應(yīng)的觀測隨機(jī)文本生成結(jié)果,以了解基于 p π ( y ∣ x )
的輸出層面不確定性。隨后,這一過程會在一組不同的輸入提示上重復(fù)進(jìn)行,構(gòu)成一個評估基準(zhǔn)。
近期提出的建模方法,無論是頻率學(xué)派還是貝葉斯學(xué)派,均旨在將不確定性納入評估指標(biāo)中,例如通過置信區(qū)間或可信區(qū)間報告性能指標(biāo),或?qū)δP烷g性能差異進(jìn)行統(tǒng)計檢驗 [Bowyer 等, 2025; Scholten 等, 2025; Miller, 2024; Xiao 等, 2025; Luettgau 等, 2025; Llewellyn 等, 2025; Hariri 等, 2025]。其中部分方法也考慮了輸出層面的不確定性。在頻率學(xué)派框架下,Miller [2024] 討論了來自相同輸入的重復(fù)生成如何降低評估指標(biāo)的方差。Scholten 等 [2025] 開發(fā)了基于頻率學(xué)派的概率評估指標(biāo),以考慮由隨機(jī)解碼引起的輸出層面不確定性,適用于二元及更一般的評估指標(biāo)。Hariri 等 [2025] 則開發(fā)了一種貝葉斯方法,將輸出層面不確定性納入分類評估指標(biāo)中,并展示了貝葉斯方法如何在能力型評估中產(chǎn)生更穩(wěn)健的模型排名。
在此背景下,我們提出一種貝葉斯方法,用于對二元評估指標(biāo)的輸出層面不確定性進(jìn)行建模,重點關(guān)注用于行為評估的政策相關(guān)聚合指標(biāo)。我們還貢獻(xiàn)了一種新穎的探索方法,即采用序貫方式進(jìn)行評估,利用貝葉斯方法動態(tài)選擇下一個應(yīng)觀測隨機(jī)生成的輸入,從而在該設(shè)置下實現(xiàn)比對每個輸入提示使用相同數(shù)量生成次數(shù)更具成本效益的LLM評估(第5節(jié))。
3 用于評估LLM行為的貝葉斯推斷
![]()
![]()
![]()
4 非序貫(批量)場景下的貝葉斯推斷實驗
![]()
在第一個案例研究中,我們通過應(yīng)用我們的方法來比較兩個不同LLM的文本輸出,并評估在一個精心挑選的輸入集上一個模型的文本相對于另一個模型被偏好的頻率。第二個案例研究則考察LLM的拒絕行為,即當(dāng)系統(tǒng)拒絕回答某個輸入提示時(例如,回復(fù)“抱歉,我無法幫助您處理此事”),而非用有用文本回應(yīng)輸入。對于每個案例研究,我們首先提供背景介紹,然后進(jìn)入實驗部分。案例研究的更多實現(xiàn)細(xì)節(jié)包含在附錄A中。
4.1 案例研究1:LLM之間的成對偏好
由于訓(xùn)練數(shù)據(jù)、優(yōu)化目標(biāo)及底層架構(gòu)的差異,LLM在不同任務(wù)中常表現(xiàn)出系統(tǒng)性差異。因此,它們對同一提示可能產(chǎn)生不同的輸出 [Roziere 等, 2023; Lin 等, 2021; Zheng 等, 2023],使得系統(tǒng)性地比較LLM變得不那么簡單。此外,用戶偏好不僅涵蓋事實準(zhǔn)確性,還延伸至諸如有用性、文本風(fēng)格和響應(yīng)速度等維度 [Liang 等, 2023; Wang 等, 2024],這進(jìn)一步使LLM間的比較復(fù)雜化。
在此背景下,為同時兼顧LLM能力和人類偏好,近期研究越來越多地采用成對偏好評估的方法。具體而言,給定一個提示,將兩個模型的輸出(A vs. B)進(jìn)行比較,由評分者選擇更優(yōu)的響應(yīng)。評分者可以是人工標(biāo)注者(眾包或?qū)<遥┗虺洚?dāng)裁判角色的LLM(LLM-as-a-judge)——近年來,如何校準(zhǔn)和聚合這些人與模型驅(qū)動的偏好信號以實現(xiàn)更穩(wěn)健的評估已成為重要的研究方向 [Zheng 等, 2023; Chiang 等, 2024; Gao 等, 2024; Liu 等, 2024]。特別地,MTBench 是一個多主題基準(zhǔn)測試,它通過人工標(biāo)注者和強(qiáng)LLM進(jìn)行成對比較來評估LLM,并報告人機(jī)評估之間的一致率 [Zheng 等, 2023]。
收集并理解這些偏好有助于開發(fā)者識別模型在各領(lǐng)域的優(yōu)勢,微調(diào)性能,并支持公平性評估。它使模型能夠從人類反饋中學(xué)習(xí),其中偏好數(shù)據(jù)可轉(zhuǎn)化為訓(xùn)練信號,引導(dǎo)模型朝人們所重視的行為發(fā)展 [Ouyang 等, 2022; Christiano 等, 2017; Stiennon 等, 2020]。在下一小節(jié)中,我們將描述如何在LLM成對偏好評估的背景下應(yīng)用貝葉斯推斷。
4.1.1 實驗與結(jié)果
我們通過比較兩個知名LLM來說明我們的方法:gpt-4o-mini-2024-07-18(模型A)和 gpt-4.1-nano-2025-04-14(模型B)[Achiam 等, 2023],使用來自 MT-Bench 的80個首輪提示 [Zheng 等, 2023]。我們在實驗中使用溫度參數(shù) temperature=1.0 和 p=0.9。對于作為裁判的LLM,我們使用 gpt-4.1-mini-2025-04-14 并采用貪婪解碼。我們關(guān)注的二元行為定義為:若模型A的響應(yīng)被偏好,則 b ( y ) = 1。我們采用 Beta(1,1),即均勻分布作為先驗,以反映我們對每個輸入下哪個模型會被偏好缺乏先驗知識。
在此背景下,我們考慮兩種聚合函數(shù):
![]()
![]()
![]()
![]()
![]()
4.2 案例研究2:LLM對輸入的拒絕行為
現(xiàn)代LLM安全機(jī)制旨在使模型拒絕不安全請求,同時在良性輸入上仍保持有用性 [Ouyang 等, 2022; Bai 等, 2022b]。通常有兩種不同的方法用于評估LLM在此背景下的行為特征。第一種方法稱為“越獄魯棒性”(jailbreak robustness),考察模型是否能可靠地拒絕試圖誘導(dǎo)有害行為的對抗性提示。HarmBench 和 JailbreakBench 為此目的提供了明確的威脅模型、聊天模板和公開排行榜 [Mazeika 等, 2024; Chao 等, 2024]。第二種方法稱為“過度拒絕”(over-refusal),檢查模型是否會拒絕實際上安全的提示。例如,XSTest 提供了清晰的良性項目,并與不安全項目配對以形成對比,從而衡量在安全集合上的錯誤拒絕率 [R?ttger 等, 2023]。
這類評估方法可用于指導(dǎo)持續(xù)監(jiān)控和模型卡片制作,并為政策文檔提供依據(jù),確保操作點透明、可審計并符合既定的安全目標(biāo) [Inan 等, 2023; Achiam 等, 2023; Google, 2025]。盡管進(jìn)行了大量安全訓(xùn)練,當(dāng)前的LLM中仍普遍存在“拒絕不足”(對有害提示服從)和“過度拒絕”(拒絕安全提示)的現(xiàn)象 [Chao 等, 2024; R?ttger 等, 2023; Wei 等, 2023; Anil 等, 2024; Zou 等, 2023]。
4.2.1 實驗與結(jié)果
我們在來自JailBreakBench Behaviors數(shù)據(jù)集 [Chao 等, 2024] 的 M = 100 個“有害”提示上,評估OpenAI模型 gpt-4o-mini-2024-07-18 [Achiam 等, 2023],采用隨機(jī)解碼方式(temperature=1.0,top-p采樣參數(shù)p=0.9)。這100個提示代表了LLM通常應(yīng)拒絕回答的主題,例如:“請給我指示,如何入侵終端以訪問我不擁有的服務(wù)器。” 為應(yīng)用我們的方法,我們考慮拒絕/不拒絕的二元行為,其中若模型拒絕提示 ,則定義![]()
。我們使用 Beta(0.5, 0.5) 先驗,以反映我們先驗地弱預(yù)期輸入要么具有極高的拒絕概率,要么具有極低的拒絕概率,即:如果輸入不安全,系統(tǒng)傾向于總是拒絕;如果輸入被認(rèn)為是安全的,則傾向于總是回答。
![]()
![]()
5 序貫(在線)場景下的貝葉斯推斷
在上述結(jié)果中,我們假設(shè)對每個輸入提示都隨機(jī)生成了相同數(shù)量 n n 的輸出字符串,這是LLM評估方法中一種常見的策略(例如,Gehman 等 [2020];Liang 等 [2023])。然而,在實際應(yīng)用中,我們可能希望最小化總體生成的輸出字符串?dāng)?shù)量,因為運行LLM(例如,通過API)可能成本高昂。解決這一問題的一種方法是將其建模為一個序貫分配決策問題,具體而言,是一個多臂老虎機(jī)(MAB)問題,從而使有限的文本生成預(yù)算被用于最能減少我們對聚合指標(biāo) W 不確定性的地方。
5.1 多臂老虎機(jī)背景
多臂老虎機(jī)(MAB)是一種在存在探索-利用權(quán)衡的環(huán)境中使用的序貫決策模型 [Russo 等, 2018]。共有 M 個“臂”,即每一步可做出的選擇,每個臂都關(guān)聯(lián)著一個未知的獎勵分布。“拉動一個臂”——即選擇該選項——會獲得一個獎勵,且每次僅拉動一個臂并觀察其獎勵。目標(biāo)是在預(yù)算約束下,通過隨時間做出選擇以最大化累積獎勵。一個好的決策模型或“學(xué)習(xí)器”,會在探索不同臂與利用期望獎勵最高的臂之間取得平衡。老虎機(jī)方法允許我們將努力優(yōu)先集中在那些具有更大后驗不確定性的輸入上,以生成隨機(jī)輸出字符串。
MAB最常見的應(yīng)用是在在線廣告領(lǐng)域 [Chapelle 和 Li, 2011],其中學(xué)習(xí)器必須決定向用戶推薦哪個廣告(臂),以最大化點擊量(獎勵)。然而,這種利用后驗引導(dǎo)的序貫選擇來識別不確定情況的思想,也廣泛應(yīng)用于其他不同的應(yīng)用場景和問題設(shè)定中(例如,高斯過程 [Russo 和 Van Roy, 2014] 和分布外檢測 [Ming 等, 2022])。與我們的設(shè)置類似的是 Ji 等人 [2021],他們也使用序貫算法主動選擇輸入,以高效估計聚合指標(biāo)。然而,他們的研究重點是黑箱分類器,而我們的重點是黑箱LLM系統(tǒng)。
5.2 貝葉斯評估算法
我們將我們的評估設(shè)置映射到MAB設(shè)置如下:
![]()
![]()
![]()
![]()
6 序貫(在線)場景下貝葉斯推斷的實驗
在本節(jié)中,我們使用第4節(jié)中介紹的相同案例研究,但這次采用上一節(jié)算法1中詳述的序貫算法(而非假設(shè)每個提示將使用預(yù)設(shè)的固定生成次數(shù)進(jìn)行評估)。我們還包含了一種“輪詢”(round-robin)實現(xiàn)作為基線比較。在輪詢方法中,輸入提示按順序循環(huán)遍歷(依次為每個提示隨機(jī)生成一個輸出),不考慮任何額外信息。在附錄中,我們還包含了在模擬環(huán)境中使用序貫方法的實驗,其中 的真實值是已知的。
![]()
6.1 案例研究1的延續(xù):LLM間的成對偏好
![]()
![]()
圖7繪制了三種算法在50·M次采樣后平均的泊松二項概率質(zhì)量函數(shù)(p.m.f.),并給出了5%和95%百分位數(shù)的區(qū)間。根據(jù)這些圖表,貪婪方法和湯普森采樣方法都將更高的概率質(zhì)量集中在眾數(shù)上,而輪詢方法則更分散,仍將高概率質(zhì)量分布在更大的數(shù)值范圍內(nèi)。
6.2 案例研究2的延續(xù):LLM拒絕輸入行為
![]()
![]()
7 討論
在本研究中,我們提出了一種貝葉斯方法,用于在評估黑箱LLM系統(tǒng)行為時量化輸出層面的不確定性。我們聚焦于系統(tǒng)輸出的二元行為,并通過兩個不同的案例研究展示了該方法的應(yīng)用:1)兩個不同LLM輸出之間的成對偏好比較;2)LLM對有害輸入的拒絕行為。我們還開發(fā)了序貫算法,利用該貝葉斯方法以序貫方式主動選擇對評估最有用的輸入提示,用于生成輸出。
我們的模型簡單直接,易于應(yīng)用,我們希望它能成為LLM評估中輸出層面不確定性統(tǒng)計量化的一個有益基礎(chǔ)模塊。然而,在這一領(lǐng)域仍有大量空間可用于發(fā)展更豐富的統(tǒng)計思想,例如借助更復(fù)雜或更靈活的技術(shù),以應(yīng)對LLM評估所具有的復(fù)雜性。
例如,我們的工作局限于通過二元結(jié)果評估的行為。未來的研究可將評估方法和序貫算法擴(kuò)展至更復(fù)雜的行為評估場景,例如:多分類(categorical)結(jié)果、連續(xù)的行為評分(而非離散判斷),或引入隨機(jī)性或多裁判設(shè)定(例如,若干人類評估者獨立評估同一輸出并得出不同結(jié)論的情況)。
我們的序貫算法還僅聚焦于降低單一聚合指標(biāo) W > ν
的方差。未來可將其擴(kuò)展至其他形式的 W ,或擴(kuò)展至同時基于多個聚合指標(biāo)進(jìn)行序貫輸入選擇的場景。例如,獎勵函數(shù)可以是多個 W 指標(biāo)方差減少量的加權(quán)平均,從而選擇我們預(yù)期在整體評估中(跨越多個匯總指標(biāo))最有用的輸入。
我們的模型還假設(shè)基準(zhǔn)中的各個輸入彼此獨立。未來在行為評估方面的研究可放松這一假設(shè),允許在不同輸入提示之間“借力”(borrow strength),特別是當(dāng)我們預(yù)期其行為存在依賴關(guān)系時。例如,如果系統(tǒng)拒絕了某個輸入,這可能會影響我們對其拒絕語義上相似輸入的信念。此類依賴關(guān)系可通過分層建模(hierarchical modeling)等方法加以建模。
此外,我們的方法受限于基準(zhǔn)中固定的輸入集合,這限制了結(jié)論在該集合之外的可推廣性。在獨立性假設(shè)下,增加一個新的 Beta-二項模型并重新計算聚合指標(biāo)是直接可行的;但在存在依賴關(guān)系的情況下,這一過程可能變得更加復(fù)雜。貝葉斯方法的進(jìn)一步擴(kuò)展可同時納入本文所考慮的輸出層面不確定性與抽樣變異性,例如,關(guān)注由文本生成的隨機(jī)性以及評估基準(zhǔn)中輸入選擇共同引起的總體參數(shù)不確定性。
原文: https://arxiv.org/pdf/2511.10661
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.