<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      北大清華聯合多校提出TrustJudge,讓LLM評估更值得信賴

      0
      分享至



      本文共同第一作者王一棟(北京大學)和宋昀澤(新加坡國立大學)主要從事大語言模型評估與對齊研究。通訊作者王存翔(清華大學)和葉蔚、張世琨(北京大學)分別在自然語言處理、軟件工程和知識推理等方向有長期積累。團隊成員來自北大、清華、南大、NUS、CMU、西湖大學、東南大學、東京科學大學等多所高校,長期關注 LLM 可信評估問題。

      讓 GPT-4 給兩篇文章打分,A 拿了 4 分、B 拿了 3 分。按常理 A 應該比 B 好吧?但換成成對比較,同一個模型卻說「B 更好」。更離譜的情況也有——A > B > C > A 的「石頭剪刀布」循環,連傳遞性都守不住。這事還真不少見。

      北京大學、清華大學等八所高校的研究團隊在ICLR 2026上提出了TrustJudge,一個基于概率的評估框架。核心想法不復雜:與其讓模型吐一個離散分數了事,不如把它內部的完整概率分布也用上。不用額外訓練,評估不一致性就降了一大截,準確率還跟著漲了。



      • 論文標題:TrustJudge: Inconsistencies of LLM-as-a-Judge and How to Alleviate Them
      • 作者:Yidong Wang*, Yunze Song*, Tingyuan Zhu, Xuanwang Zhang, Zhuohao Yu, Hao Chen, Chiyu Song, Qiufeng Wang, Zhen Wu, Xinyu Dai, Yue Zhang, Cunxiang Wang?, Wei Ye?, Shikun Zhang?
      • 單位:北京大學、清華大學、新加坡國立大學、南京大學、卡內基梅隆大學、西湖大學、東南大學、東京科學大學
      • 論文鏈接:https://arxiv.org/abs/2509.21117
      • 開源代碼:https://github.com/TrustJudge/TrustJudge

      01|問題有多嚴重?

      用大模型給其他模型當裁判,已經是評估界的標配——MT-Bench 用單項評分,AlpacaEval 用成對比較,RLHF/GRPO 做偏好標注。但這個裁判的兩種考法給出的結論,經常打架。

      TrustJudge 的作者做了系統測量,把問題量化成了兩類:

      評分-比較不一致(Score-Comparison Inconsistency)

      打分時 A 比 B 高,拉到一起比較時又說 B 好。用 Llama-3.1-70B 測試,不一致率 23.32%——差不多每四次評估就矛盾一次。

      成對傳遞性不一致(Pairwise Transitivity Inconsistency)

      成對比較出現循環偏好(A > B > C > A)或者等價矛盾(A = B = C 但 A ≠ C)。Llama-3.1-70B 上的不一致率是15.22%





      圖 1:左圖是 Llama-3 系列在 1,200 條指令上的評分熵分布,右圖是成對比較中兩種傳遞性錯誤的占比。

      02|問題出在哪?

      數據擺出來了,接下來的問題是:這兩類不一致的根源是什么?作者從信息論的角度做了歸因。

      離散評分丟信息

      5 分制打分,本質上是把模型心里的連續判斷硬塞進幾個整數格子里。比方說兩條回復質量分別是 3.8 和 4.2,5 分制下都成了 4 分,打分看不出差別。但拉到一起做比較,模型是感知得到這 0.4 差距的——矛盾就這么來了。

      作者還在理論上證了一條:存在兩個不同的概率分布,離散評分下完全相同,但信息熵不同。換句話說,離散化在結構上就一定會丟東西。

      模糊平局帶來傳遞性問題

      做成對比較時,模型對質量相近的回復經常給「平局」。但平局和平局不一樣——有的是模型真覺得半斤八兩,有的純粹是拿不準。這些「含糊的平局」在不同組合里不一致地冒出來,A = B、B = C、但 A ≠ C 的情況就出現了。

      03|TrustJudge 怎么做的?

      思路說白了就一句話:別只取模型吐出的那個離散答案,把背后的概率分布也用起來。框架分兩塊:

      分布敏感評分(Distribution-Sensitive Scoring)

      傳統做法是讓模型輸出一個分數然后直接采納。TrustJudge 不這樣干:

      • 把評分尺度從 5 分拉到 100 分,先把粒度給夠。
      • 對所有候選分數的 logits 做 softmax,得到一個完整的概率分布。
      • 算加權期望作為最終分數:



      效果就是:原來 5 分制下都是 4 分的兩條回復,現在一個 3.82、一個 4.17,差異保住了。

      跟 G-Eval 的區別在于,TrustJudge 用 softmax 歸一化確保概率和嚴格為 1,不會被非評分 token 干擾。

      似然感知聚合(Likelihood-Aware Aggregation)

      成對比較這邊,TrustJudge 給了兩種策略來打破平局:

      策略一:基于困惑度(PPL-Based)

      遇到平局時,分別算 A 在前和 B 在前兩種排列的困惑度,選困惑度低的那個方向的結果——模型讀起來更通順的排列,判斷往往更靠譜:



      策略二:雙向概率聚合

      把兩個方向的偏好概率加起來,取置信度最高的:



      由于是兩個方向聚合,位置偏差(position bias)也在這個過程中被抵消了。

      04|理論上也站得住

      上面的方法直覺上說得通,但有沒有更嚴格的保證?作者給出了形式化的理論證明:



      一句話概括:信息保留得更多了,判斷的不確定性降下去了。

      05|實驗結果

      實驗數據來自 MT-Bench(80 題)和 ArenaHard(500 題),裁判模型覆蓋 Llama-3 系列(3B / 8B / 70B)和 GPT-4o。

      主實驗



      表 1:所有模型上兩類不一致性都明顯下降,精確匹配率同步上升。其中 Llama-3.2-3B 的傳遞性不一致從 54.69% 直接降到 17.76%,落差接近 37 個點。





      圖 2:不同容忍度 δ 下的不一致性對比。TrustJudge(方塊 / 三角)在各個設置下都低于 Baseline(虛線)。

      消融實驗

      為了搞清楚每個組件的貢獻,作者做了逐項消融(這里額外加入了 GPT-3.5-Turbo 作為參考):



      表 2:逐個拆開看,softmax 歸一化和 100 分制對評分不一致各有貢獻;似然聚合和 PPL 方法對傳遞性不一致效果都很明顯,似然聚合整體略優。

      06|換個模型還管用嗎?

      上面的主實驗只用了 Llama-3 和 GPT-4o。一個自然的問題是:換成別的架構還有效嗎?

      管用。作者把實驗擴展到Qwen-2.5(7B / 14B / 32B)、Gemma-2(2B / 9B / 27B)、Llama-3(3B / 8B / 70B)、GPT四個家族、共 12 個變體。





      圖 3:四個模型家族上的不一致性對比。左圖為評分-比較不一致,右圖為傳遞性不一致,TrustJudge 在所有架構上都有改善。

      幾個值得注意的點:

      • 分布敏感評分的效果跟模型架構無關,都能降不一致性。
      • 加上似然感知聚合后,8B 模型的傳遞性甚至比未使用 TrustJudge 的 70B 模型更好。
      • 9B 的 Gemma 比 27B 的 Gemma 不一致性更低——不是越大越好。

      07|推理模型反而更不靠譜

      一個意外發現:專門練過推理能力的模型,做評估時反而更容易自相矛盾。



      DeepSeek-R1 蒸餾版的評分-比較不一致率58.75%,是同參數量 Llama 的將近兩倍??雌饋碓跀祵W數據上做強化訓練這件事,是以評估能力為代價的。

      不過 TrustJudge 在這么高的不一致基線上依然有效:CR 降了將近 10 個點,傳遞性不一致從 63.98% 壓到了 18.50%。

      08|拿來做 Reward 也好使

      除了評估,TrustJudge 還有一個實際用途:給強化學習提供獎勵信號。

      作者把它接到GRPO(Group Relative Policy Optimization)上訓練 Qwen2.5-7B-Instruct,訓練數據覆蓋摘要、數學推理、指令遵循等,一共 8,600 條。



      表 3:用 Baseline 獎勵訓練的模型在兩種協議下都沒超過原始模型(反而略降);用 TrustJudge 獎勵訓練的模型兩邊都漲了。



      圖 4:訓練過程中的獎勵變化。TrustJudge 的獎勵信號全程高于 Baseline。



      圖 5:驗證集上各任務的獎勵曲線,實線是 TrustJudge,虛線是 Baseline。改善不是靠單個任務拉的,是全面的。

      道理也好理解:評估越一致,獎勵信號噪聲越小,模型學得越準。

      09|光提高打分精度夠不夠?

      看完前面的實驗,可能會有人問:TrustJudge 里面既提高了評分粒度(5 分 → 100 分),又加了概率歸一化。那要是我只做前者,不做后者,行不行?



      圖 6:5 分、10 分、100 分三檔粒度下的不一致性變化。粒度越高不一致越低,但在同一粒度下 TrustJudge(虛線)始終低于 Baseline(實線)。

      結論是:提高粒度有幫助,但光靠粒度不夠。TrustJudge 贏在粒度提升 + 概率歸一化兩件事疊加到一起。

      10|小結

      TrustJudge 做的事情可以用兩句話講清楚:

      • 離散評分丟信息→ 改用分布敏感評分,把概率分布的信息保住。
      • 模糊平局壞傳遞性→ 改用似然感知聚合,讓模糊判定變得清晰。

      實際效果上,它不用訓練,開箱即用;跨 Llama、GPT、Qwen、Gemma 四個架構都有效;除了做評估,接上 GRPO 當獎勵信號也能用;而且有理論證明兜底。說到底,如果我們要讓大模型來當裁判,總得先確認這個裁判自己別前后矛盾才行。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      營救飛行員反轉變成國際笑話?美媒集體倒戈,內幕越扒越驚心

      營救飛行員反轉變成國際笑話?美媒集體倒戈,內幕越扒越驚心

      行者聊官
      2026-04-07 15:53:35
      “屎尿詩人”賈淺淺被調查,可別讓人失望哦!

      “屎尿詩人”賈淺淺被調查,可別讓人失望哦!

      大漠行舟
      2026-04-09 18:39:17
      俄羅斯三個月花光全年赤字,財政壓力全面爆發

      俄羅斯三個月花光全年赤字,財政壓力全面爆發

      桂系007
      2026-04-09 22:55:49
      砸28億!海南的七星級酒店,如今只是一座荒島,雜草叢生!

      砸28億!海南的七星級酒店,如今只是一座荒島,雜草叢生!

      GA環球建筑
      2026-04-09 20:24:00
      違規使用劣質螺栓!致13死3失聯!川青鐵路在建大橋重大垮塌事故原因公布

      違規使用劣質螺栓!致13死3失聯!川青鐵路在建大橋重大垮塌事故原因公布

      閃電新聞
      2026-04-09 14:10:58
      美國終于怕了,比稀土更致命的王牌終于出手了!萬斯:中國要冷靜

      美國終于怕了,比稀土更致命的王牌終于出手了!萬斯:中國要冷靜

      芳芳歷史燴
      2026-04-09 23:53:15
      安徽女童遇害,兇手娘家村民再曝猛料!從小被父母嬌慣,爭強好勝

      安徽女童遇害,兇手娘家村民再曝猛料!從小被父母嬌慣,爭強好勝

      社會日日鮮
      2026-04-09 05:45:18
      人都死了,才罰7.6萬?越看越不對勁

      人都死了,才罰7.6萬?越看越不對勁

      走讀新生
      2026-04-09 15:37:03
      黎巴嫩宣布全國哀悼

      黎巴嫩宣布全國哀悼

      南方都市報
      2026-04-09 09:24:03
      恩比德確診急性闌尾炎!在休城接受緊急手術 相似病例平均歇23天

      恩比德確診急性闌尾炎!在休城接受緊急手術 相似病例平均歇23天

      羅說NBA
      2026-04-10 05:46:36
      崩盤了!83分先生被圍剿!刷分代價!太痛了!

      崩盤了!83分先生被圍剿!刷分代價!太痛了!

      籃球盛世
      2026-04-09 14:17:22
      明星盛典上,礦泉水被膠水粘死,全場藝人拔到懷疑人生!

      明星盛典上,礦泉水被膠水粘死,全場藝人拔到懷疑人生!

      茶余飯好
      2026-04-09 11:03:46
      一夜暴漲8120億,美國再度突破芯片世界難題,中國還能追趕上嗎?

      一夜暴漲8120億,美國再度突破芯片世界難題,中國還能追趕上嗎?

      混沌錄
      2026-04-08 16:54:21
      伊朗最高領袖發表最新聲明,對和談提出三點主張

      伊朗最高領袖發表最新聲明,對和談提出三點主張

      界面新聞
      2026-04-10 07:09:43
      在過去的10年里,中國如何建立起龐大的天然氣儲備

      在過去的10年里,中國如何建立起龐大的天然氣儲備

      風向觀察
      2026-04-09 12:00:32
      中國博士過剩!每年11萬博士畢業,但高校機構坑位已經滿了

      中國博士過剩!每年11萬博士畢業,但高校機構坑位已經滿了

      六子吃涼粉
      2026-04-09 11:15:56
      傳光伏設備對美出口,被全面叫停!

      傳光伏設備對美出口,被全面叫停!

      趕碳號
      2026-04-09 23:27:22
      美伊臨時?;鸷?,面對善變的特朗普,新華社的一幅漫畫亮了

      美伊臨時停火后,面對善變的特朗普,新華社的一幅漫畫亮了

      策略述
      2026-04-09 15:02:08
      全紅嬋報警:辱罵她的記者全家移民跑路,隊友群里瘋狂背刺!太慘

      全紅嬋報警:辱罵她的記者全家移民跑路,隊友群里瘋狂背刺!太慘

      番外行
      2026-04-09 09:25:53
      震驚!網傳282群群主是上海經管學校2009屆,網友:必須繩之以法

      震驚!網傳282群群主是上海經管學校2009屆,網友:必須繩之以法

      火山詩話
      2026-04-10 06:20:37
      2026-04-10 09:15:00
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      12721文章數 142621關注度
      往期回顧 全部

      教育要聞

      不算大學學費,在美國養一個孩子要花多少錢?

      頭條要聞

      牛彈琴:巴基斯坦被以色列激怒了 這是一個不祥的信號

      頭條要聞

      牛彈琴:巴基斯坦被以色列激怒了 這是一個不祥的信號

      體育要聞

      8萬人面前心臟驟停 現在他還站在球場上

      娛樂要聞

      金莎官宣結婚 與老公孫丞瀟相差18歲

      財經要聞

      AI短劇"買臉"成風 肖像生意成灰色產業

      科技要聞

      程序員驚喜,每月100美元!OpenAI推新套餐

      汽車要聞

      文飛掌舵,給神行者帶來了什么?

      態度原創

      本地
      藝術
      家居
      公開課
      軍事航空

      本地新聞

      12噸巧克力有難,全網化身超級偵探添亂

      藝術要聞

      鄭麗文攜連勝武訪問大陸,連戰題字廈門大學引發熱議!

      家居要聞

      清新自然 復古風尚

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      黎真主黨發射火箭彈 回應以違反停火協議

      無障礙瀏覽 進入關懷版