Anthropic最新CJE技術(shù)：讓AI評判AI不再瞎猜，終結(jié)LLM評估亂象

2025-12-30 23:25:04　來源: 至頂AI實(shí)驗(yàn)室

北京舉報

分享至

大型語言模型（LLM）的評估就像給學(xué)生考試打分一樣，是決定AI系統(tǒng)好壞的關(guān)鍵環(huán)節(jié)。現(xiàn)在大多數(shù)公司都在用一種看似聰明實(shí)則問題重重的方法：讓一個便宜的AI來給另一個AI打分，然后根據(jù)這個分?jǐn)?shù)來判斷模型的優(yōu)劣。這就好比讓一個從未學(xué)過數(shù)學(xué)的人來批改數(shù)學(xué)試卷，雖然省錢省時，但結(jié)果往往南轅北轍。

這篇由CIMO Labs的Eddie Landesberg于2024年12月發(fā)表的研究論文《因果法官評估：大型語言模型系統(tǒng)的校準(zhǔn)替代指標(biāo)》，揭露了這個行業(yè)潛規(guī)則背后的三大致命缺陷，并提出了一套名為CJE（因果法官評估）的解決方案。論文編號為arXiv:2512.11150v1，對于想要深入了解LLM評估技術(shù)的讀者來說是一份不可多得的參考資料。

當(dāng)前的LLM評估就像一場大型的"指鹿為馬"游戲。公司們普遍采用這樣的做法：收集大量AI生成的回答，用便宜的AI法官給每個回答打分，然后只在一小部分樣本上花錢請人類專家驗(yàn)證。這種做法看起來經(jīng)濟(jì)實(shí)惠，實(shí)際上卻存在三個要命的問題。

首先是偏好倒置問題。AI法官的打分標(biāo)準(zhǔn)和人類專家的判斷標(biāo)準(zhǔn)經(jīng)常背道而馳。一個AI可能會給那些看起來"面面俱到"但實(shí)際空洞無物的回答打高分，而對真正有用但表達(dá)簡潔的回答打低分。這就好比一個從未吃過中餐的外國人用西餐標(biāo)準(zhǔn)來評判中餐的好壞，結(jié)果可想而知。研究發(fā)現(xiàn)，未經(jīng)校準(zhǔn)的評分系統(tǒng)甚至?xí)耆嵉鼓Ｐ偷膬?yōu)劣排序。

第二個問題是置信區(qū)間失效。研究人員發(fā)現(xiàn)，基于未校準(zhǔn)分?jǐn)?shù)計(jì)算出的95%置信區(qū)間，實(shí)際覆蓋率竟然接近0%。這意味著研究人員以為自己的結(jié)論有95%的把握是對的，實(shí)際上幾乎完全錯誤。這就像一個溫度計(jì)壞了卻不知道，依然拿它來判斷天氣冷熱，結(jié)果可能穿著羽絨服去海灘。

第三個問題更加隱蔽但同樣致命：離線策略評估的災(zāi)難性失敗。即使研究人員通過各種技巧將有效樣本量提升到90%以上，重要性加權(quán)估計(jì)器仍然失靈。這個現(xiàn)象讓研究團(tuán)隊(duì)大為困惑，最終他們發(fā)現(xiàn)了根本原因：問題不在于權(quán)重是否穩(wěn)定，而在于訓(xùn)練數(shù)據(jù)和目標(biāo)模型之間的覆蓋度差異。簡單來說，就是用來訓(xùn)練評判標(biāo)準(zhǔn)的數(shù)據(jù)和真正需要評估的數(shù)據(jù)差距太大，就像用古典音樂的評判標(biāo)準(zhǔn)來評價搖滾樂。

為了解決這些根本性問題，研究團(tuán)隊(duì)開發(fā)了CJE框架，這套系統(tǒng)就像給胡亂打分的AI法官配了一副精準(zhǔn)的眼鏡。CJE包含三個核心組件，每個都針對一個特定問題提供解決方案。

AutoCal-R是第一個組件，專門解決偏好倒置問題。這個系統(tǒng)通過均值保持的等張回歸來校準(zhǔn)獎勵分?jǐn)?shù)，說得簡單點(diǎn)，就是讓AI法官重新學(xué)習(xí)什么叫好什么叫壞。系統(tǒng)會自動在單調(diào)模式和兩階段模式之間選擇。單調(diào)模式假設(shè)分?jǐn)?shù)越高質(zhì)量越好，適合大多數(shù)情況。但有時AI法官的打分邏輯比較復(fù)雜，比如可能同時考慮回答質(zhì)量和回答長度，這時兩階段模式就會先學(xué)習(xí)一個更復(fù)雜的評分函數(shù)，然后再轉(zhuǎn)換成單調(diào)的最終分?jǐn)?shù)。

研究發(fā)現(xiàn)，回答長度是一個特別重要的混淆因素。LLM法官往往認(rèn)為越長的回答越好，但人類專家可能更喜歡簡潔有力的回答。AutoCal-R的兩階段模式可以先剔除長度因素的干擾，然后再進(jìn)行最終評判，就像先排除外貌因素再評判一個人的能力。

SIMCal-W是第二個組件，專門穩(wěn)定重要性權(quán)重。在傳統(tǒng)的離線評估中，不同樣本的重要性權(quán)重可能相差懸殊，有些樣本的權(quán)重可能是其他樣本的幾萬甚至幾十萬倍。這種極端不平衡會導(dǎo)致評估結(jié)果被少數(shù)幾個異常樣本主導(dǎo)。SIMCal-W通過堆疊單調(diào)候選者來解決這個問題，就像用多個穩(wěn)定的支撐點(diǎn)來替代一個搖搖欲墜的獨(dú)木橋。

具體來說，SIMCal-W會在每個交叉驗(yàn)證折疊中擬合遞增和遞減的等張映射，然后通過方差感知的堆疊來選擇最優(yōu)組合。這種方法在研究的實(shí)驗(yàn)中將有效樣本量從不足1%提升到了80%以上，大幅改善了評估的穩(wěn)定性。

第三個組件OUA推理解決了置信區(qū)間失效問題。傳統(tǒng)方法忽略了校準(zhǔn)函數(shù)本身的不確定性，就像忽略了溫度計(jì)的精度誤差。OUA通過刪除一折交叉驗(yàn)證的方式來估計(jì)校準(zhǔn)不確定性，然后將這部分不確定性傳播到最終的置信區(qū)間中。在實(shí)驗(yàn)中，OUA將置信區(qū)間的覆蓋率從接近0%提升到了85-96%，幾乎達(dá)到了理論期望值。

研究團(tuán)隊(duì)還提出了一個重要的診斷工具：覆蓋限制效率（CLE）診斷。這個工具解釋了為什么即使權(quán)重穩(wěn)定，基于重要性加權(quán)的估計(jì)器仍然失敗。CLE診斷發(fā)現(xiàn)，問題的關(guān)鍵在于日志記錄器（用來收集訓(xùn)練數(shù)據(jù)的系統(tǒng)）很少訪問目標(biāo)策略集中的區(qū)域。換句話說，用來訓(xùn)練的數(shù)據(jù)和需要評估的數(shù)據(jù)之間存在根本性的分布差異。

為了驗(yàn)證CJE的有效性，研究團(tuán)隊(duì)在一個大規(guī)模基準(zhǔn)測試上進(jìn)行了實(shí)驗(yàn)。他們使用了4961個來自Chatbot Arena的提示詞，測試了五種不同的LLM策略，包括基礎(chǔ)模型、克隆模型、高級模型、改進(jìn)提示的模型，以及一個故意設(shè)計(jì)得很糟糕的"無用"模型。實(shí)驗(yàn)使用GPT-5作為金標(biāo)準(zhǔn)，用GPT-4.1-nano作為便宜的法官，成本差異約為16倍。

實(shí)驗(yàn)結(jié)果令人印象深刻。在完整樣本量下，CJE達(dá)到了99%的成對排名準(zhǔn)確率，在各種配置下平均達(dá)到94%，與oracle質(zhì)量相匹配。更重要的是，CJE只需要5%的oracle標(biāo)簽（約250個標(biāo)簽），就能以14倍更低的成本（針對5個策略的排名）實(shí)現(xiàn)這樣的性能。這意味著以前需要花費(fèi)數(shù)萬美元的評估工作，現(xiàn)在只需要幾千美元就能完成，而且結(jié)果更加可靠。

研究還揭示了一些意外發(fā)現(xiàn)。首先，傳統(tǒng)的雙重穩(wěn)健方法（DR）并沒有像預(yù)期那樣顯著優(yōu)于直接方法。在低覆蓋度情況下，DR的IPS組件增加的是噪聲而不是信息，因此直接方法實(shí)際上略微優(yōu)于DR方法。這個發(fā)現(xiàn)顛覆了許多研究人員的預(yù)期。

其次，即使經(jīng)過SIMCal-W穩(wěn)定化處理，將有效樣本量從不足1%提升到80%以上，校準(zhǔn)后的IPS仍然表現(xiàn)不佳，成對準(zhǔn)確率只有47%，幾乎與隨機(jī)猜測無異。CLE診斷完美解釋了這個現(xiàn)象：高有效樣本量是必要條件但不充分，當(dāng)日志記錄器很少訪問目標(biāo)典型區(qū)域時，任何基于日志的方法都會失敗。

第三，研究發(fā)現(xiàn)SNIPS（自正則化重要性采樣）方法即使在獎勵校準(zhǔn)后仍然會顛倒排名，成對準(zhǔn)確率只有38%，Kendall tau系數(shù)為負(fù)數(shù)。這進(jìn)一步證明了權(quán)重不穩(wěn)定性的危害有多嚴(yán)重。

CJE框架的理論基礎(chǔ)建立在"通過投影設(shè)計(jì)"的原則之上。這個原則的核心思想是，當(dāng)合理的先驗(yàn)知識定義了一個受限的統(tǒng)計(jì)模型時，受限模型中的效率界限至多等于基線模型中的界限。通過交叉擬合，CJE的估計(jì)器達(dá)到了代理信息界限。

具體來說，CJE使用了三種投影：獎勵校準(zhǔn)投影到單調(diào)錐面，權(quán)重校準(zhǔn)投影到單位均值單調(diào)錐面，IF空間堆疊投影到候選影響函數(shù)列的單純形。每種投影都編碼了合理的先驗(yàn)知識，而且理論上保證不會損失效率。

研究團(tuán)隊(duì)還開發(fā)了一套完整的診斷體系來指導(dǎo)實(shí)踐應(yīng)用。TTC（目標(biāo)典型性覆蓋）診斷測量日志記錄器在目標(biāo)典型區(qū)域的覆蓋度，當(dāng)TTC低于70%時，建議避免使用僅基于日志的IPS方法。Bhattacharyya親和度測量代理空間中的整體對齊度，當(dāng)親和度低于85%時，表示存在嚴(yán)重的形狀不匹配。

政策級均值傳輸測試檢驗(yàn)校準(zhǔn)函數(shù)是否能夠在不同策略間傳輸。對于每個目標(biāo)策略，系統(tǒng)測試殘差均值是否為零。如果某個策略未通過此測試，說明該策略的代理估計(jì)存在系統(tǒng)性偏差，需要重新校準(zhǔn)或回退到僅使用oracle的評估。

在Arena基準(zhǔn)測試中，基礎(chǔ)訓(xùn)練的校準(zhǔn)成功傳輸?shù)搅丝寺　⒏呒壓透倪M(jìn)提示策略，但在故意設(shè)計(jì)的"無用"策略上失敗了，均值殘差為-0.31，表明代理系統(tǒng)性地高估了對抗性回答的質(zhì)量。這個發(fā)現(xiàn)驗(yàn)證了傳輸測試的有效性。

CJE的實(shí)際應(yīng)用價值體現(xiàn)在多個方面。首先，它解決了LLM評估中的根本性統(tǒng)計(jì)問題，為行業(yè)提供了科學(xué)可靠的評估框架。其次，通過大幅降低成本，CJE使得大規(guī)模、頻繁的模型評估成為可能，這對快速迭代的AI開發(fā)至關(guān)重要。

更重要的是，CJE為LLM開發(fā)提供了正確的優(yōu)化信號。在未校準(zhǔn)的評估系統(tǒng)中，模型可能會學(xué)習(xí)迎合法官的偏見而不是真正提升性能。CJE確保優(yōu)化目標(biāo)與評估目標(biāo)保持一致，從而促進(jìn)模型的真正改進(jìn)。

研究團(tuán)隊(duì)還提供了詳細(xì)的實(shí)施指導(dǎo)。對于大多數(shù)應(yīng)用場景，他們建議默認(rèn)使用直接方法加上兩階段校準(zhǔn)。如果TTC低于0.7，應(yīng)避免使用基于日志的OPE方法。務(wù)必使用OUA推理來獲得有效的置信區(qū)間。當(dāng)OUA比例超過50%時，建議收集更多oracle標(biāo)簽；當(dāng)OUA比例低于20%時，建議收集更多評估提示。

此外，協(xié)變量（特別是回答長度）在校準(zhǔn)中起著重要作用。將回答長度作為校準(zhǔn)協(xié)變量而非重新加權(quán)協(xié)變量可以改善所有方法的排名表現(xiàn)。研究還發(fā)現(xiàn)了預(yù)算分配的平方根定律，可以幫助實(shí)踐者在有限預(yù)算下優(yōu)化標(biāo)簽和評估的比例。

CJE的影響超越了技術(shù)層面。它為LLM評估建立了新的標(biāo)準(zhǔn)，要求評估方法不僅要準(zhǔn)確，還要提供可靠的不確定性量化。這種要求促使整個行業(yè)更加重視評估的科學(xué)性和嚴(yán)謹(jǐn)性。

當(dāng)然，CJE也有一些局限性。它假設(shè)操作oracle與利益相關(guān)者價值觀保持一致，但oracle選擇本身是一個治理問題。重要性加權(quán)方法需要日志策略和目標(biāo)策略之間的支撐重疊，當(dāng)重疊度較差時，原始比率會出現(xiàn)重尾現(xiàn)象。法官假設(shè)要求均值充分性和單調(diào)性，如果這些假設(shè)受到挑戰(zhàn)，系統(tǒng)性能可能下降。

盡管存在這些局限，CJE仍然代表了LLM評估領(lǐng)域的重要進(jìn)步。它不僅解決了當(dāng)前方法的根本缺陷，還為未來的研究指明了方向。隨著LLM越來越普及，可靠的評估方法變得越來越重要。CJE為這個關(guān)鍵問題提供了科學(xué)、經(jīng)濟(jì)、可擴(kuò)展的解決方案。

說到底，CJE就像給混亂的AI評估世界帶來了一套嚴(yán)格的測量標(biāo)準(zhǔn)。它讓我們能夠真正知道哪個AI更好，而不是僅僅依賴可能有偏見的猜測。對于普通用戶來說，這意味著未來我們使用的AI產(chǎn)品將經(jīng)過更加嚴(yán)格和科學(xué)的測試，質(zhì)量更有保障。對于AI開發(fā)者來說，CJE提供了正確的指導(dǎo)信號，幫助他們開發(fā)出真正有用的AI系統(tǒng)，而不是僅僅善于"考試"的AI。

這項(xiàng)研究的意義遠(yuǎn)遠(yuǎn)超出了技術(shù)本身。它體現(xiàn)了科學(xué)方法在AI發(fā)展中的重要性，強(qiáng)調(diào)了嚴(yán)謹(jǐn)評估對于AI安全和有效性的關(guān)鍵作用。隨著AI技術(shù)繼續(xù)快速發(fā)展，像CJE這樣的評估框架將成為確保AI系統(tǒng)可靠性和安全性的重要工具。對于關(guān)心AI發(fā)展方向的每個人來說，這都是一個值得關(guān)注的重要進(jìn)展。

Q&A

Q1：CJE技術(shù)是什么，它解決了什么問題？

A：CJE（因果法官評估）是由CIMO Labs開發(fā)的LLM評估框架，專門解決當(dāng)前AI評判AI系統(tǒng)的三大問題：偏好倒置（AI法官的打分標(biāo)準(zhǔn)與人類專家相反）、置信區(qū)間失效（95%的置信區(qū)間實(shí)際覆蓋率接近0%）、以及離線策略評估的災(zāi)難性失敗。CJE通過校準(zhǔn)、權(quán)重穩(wěn)定和不確定性感知推理來解決這些問題。

Q2：使用CJE技術(shù)能節(jié)省多少評估成本？

A：實(shí)驗(yàn)結(jié)果顯示，CJE只需要5%的人工專家標(biāo)簽就能達(dá)到與完全人工評估相同的準(zhǔn)確率，成本降低了14倍。具體來說，以前需要數(shù)萬美元的大規(guī)模模型評估工作，現(xiàn)在只需要幾千美元就能完成，而且結(jié)果更加可靠。

Q3：普通用戶如何從CJE技術(shù)中受益？

A：對普通用戶來說，CJE意味著未來使用的AI產(chǎn)品將經(jīng)過更嚴(yán)格和科學(xué)的測試，質(zhì)量更有保障。不再會出現(xiàn)AI模型在評測中表現(xiàn)很好但實(shí)際使用體驗(yàn)很差的情況，因?yàn)镃JE確保了評估標(biāo)準(zhǔn)與真實(shí)用戶需求的一致性。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.