谷歌研究揭老底：AI評測3人打分就能定生死，結(jié)果全是幻覺

2026-04-05 16:45:31　來源: 碼上閑敘

北京舉報

分享至

AI模型誰更強？人類評委一錘定音。但谷歌最新研究算了一筆賬：現(xiàn)在行業(yè)通行的3-5人打分制，可能正在批量制造不可靠的結(jié)論。

研究團隊來自谷歌研究院與羅切斯特理工學院，他們用模擬器跑了數(shù)千組實驗，發(fā)現(xiàn)要得到統(tǒng)計學上站得住腳的結(jié)果，單個測試樣本往往需要超過10名評委。更反直覺的是：總預算固定時，怎么分錢比有多少錢更重要。

一道選擇題：廣度還是深度？

研究者打了個比方。你開餐廳想摸底菜品口碑，方案A是請1000位客人各嘗一道菜，方案B是找20位老饕把50道菜全吃一遍。前者覆蓋面廣，后者信息密度高——你能知道哪道菜真的好吃，哪道只是碰運氣。

今天的AI評測幾乎一邊倒選A。測試集鋪得極大，每個樣本卻只撈3-5個評分，靠多數(shù)票強行壓出"正確答案"。這套做法有個致命盲區(qū)：它系統(tǒng)性地抹殺了人類意見的真實分歧。

分歧是常態(tài)。一句評論是否有毒，一個回復是否安全，不同背景的人本就看法不一。強行投票不僅浪費信息，還可能讓模型在"偽共識"上優(yōu)化，離真實人類偏好越來越遠。

模擬器里的真相

為了找到最優(yōu)配比，團隊搭建了一個能復現(xiàn)人類評分模式的模擬器。他們往里面喂了五個真實數(shù)據(jù)集，覆蓋毒性檢測、對話安全、跨文化冒犯評估等場景，然后控制變量讓"模型A"穩(wěn)定輸給"模型B"，測試在什么條件下能可靠地檢出這個差距。

結(jié)果讓現(xiàn)行標準很尷尬。1-5人評分的常規(guī)配置，模型對比的可重復性堪憂。要穩(wěn)定捕捉人類意見的真實分布，10人以上是更安全的起點。

但數(shù)字不是越大越好。實驗顯示，總標注量控制在約1000條時，只要分配得當，也能拿到可靠結(jié)論。反過來，預算再多，拆錯了比例照樣翻車。

關(guān)鍵洞察：沒有萬能公式。最優(yōu)策略完全取決于你在測什么。

測什么，決定怎么測

研究團隊拆解了三種常見評測目標，每種對應不同的資源配置邏輯。

第一類是準確率（Accuracy）——模型輸出與多數(shù)票是否一致。這時候"廣撒網(wǎng)"更劃算：測試樣本越多越好，每個樣本的評委可以少些。你的目標是覆蓋盡可能多的場景邊界。

第二類是校準度（Calibration）——模型對自己有多自信，與實際正確率是否匹配。這需要更深的采樣：樣本量可以壓縮，但每個樣本必須堆夠評委，才能摸清概率分布的真實形狀。

第三類最棘手：捕捉人類分歧本身。如果你關(guān)心的是"不同群體對這句話的 toxicity 評分方差有多大"，那每個樣本的評委數(shù)量要大幅加碼，樣本量反而可以收縮。

研究者用一張圖總結(jié)了這場權(quán)衡：橫軸是單個樣本的評委數(shù)，縱軸是總樣本量，不同目標的最優(yōu)落點散落各處。盲目抄作業(yè)的人，大概率會踩進錯誤配置的坑里。

一個被忽視的變量：誰在打這個分？

研究還觸及了更深層的麻煩。現(xiàn)有評測體系假設"評委"是個可互換的單元，但真實人類帶著各自的文化背景、價值取向和語境理解來干活。論文引用的一個數(shù)據(jù)集專門測量跨文化冒犯感知，結(jié)果顯示同一句話在不同群體間的分歧幅度，可能遠超模型之間的性能差距。

這意味著什么？當你用5個北美評委的多數(shù)票定義"安全回復"，模型學到的可能只是特定切片人群的偏好。把它部署到全球用戶面前，分歧不會消失，只是被推遲到了投訴和輿情里。

谷歌團隊沒有給出簡單的"改用X人"處方。他們的核心論點是：評測設計必須透明地暴露這些權(quán)衡，而不是用"3-5人"的行業(yè)慣例假裝問題不存在。

論文最后提到了一個未被充分探索的方向：動態(tài)采樣。與其事先固定評委數(shù)，不如根據(jù)樣本的分歧程度實時調(diào)整——爭議大的多投人，共識高的少浪費預算。這會讓評測系統(tǒng)復雜得多，但可能更接近"人類到底怎么想"的真相。

當各大實驗室忙著刷榜時，這項研究像一盆冷水：你優(yōu)化的那個數(shù)字，可能從一開始就是錯的。如果評測基準本身建立在脆弱的共識幻覺上，模型之間的勝負排名，又有多少參考價值？

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦

熱點推薦

免費無限用！谷歌上線了一款AI語音轉(zhuǎn)寫神器

智東西 2026-04-07 19:09:17
1 跟貼 1
哈薩比斯傳記里講了好多八卦啊

量子位 2026-04-07 16:45:21
0 跟貼 0

Agent的苦澀覺醒：智能正從語言走向經(jīng)驗

華爾街見聞官方 2026-03-02 09:43:30
8 跟貼 8

Claude爆火研究漏引華人團隊成果，已挨打立正道歉

量子位 2026-04-07 17:03:51
0 跟貼 0
一夜變天:GPT-Image-2流出,昔日王者Nano Banana Pro被拉下神壇？

機器之心Pro 2026-04-07 11:19:35
0 跟貼 0

壞了，我成AI的乙方了！Anthropic論文爆火，誰還敢無腦Copy？

新智元 2026-04-07 20:12:55
0 跟貼 0

邀請函｜ICLR 2026中稿先講，在這場預講會遇見你的學術(shù)同行

DeepTech深科技 2026-04-07 18:37:24
0 跟貼 0
AI用一晚睡眠數(shù)據(jù)預測多種疾病風險，準確率最高85%

DeepTech深科技 2026-04-07 19:08:11
0 跟貼 0

完球了，GPT-4o之母宣布離職OpenAI

量子位 2026-04-07 17:19:50
5 跟貼 5
領(lǐng)導執(zhí)迷不悟?qū)嶒炞呋鹑肽ВY(jié)果毀了一座城

呵呵剪輯 2026-04-06 10:33:43
1 跟貼 1
四島連接方案引爭議：從大陸視角看臺省統(tǒng)派折中論調(diào)的荒謬

獨夫之心 2026-04-07 03:06:50
29 跟貼 29
美國車評人測完銀河M9后，發(fā)現(xiàn)自家車企"被降維了"

固件更新中 2026-04-05 08:25:26
2 跟貼 2
小鵬汽車“灑了么”小程序上線可評測智駕舒適度

太平洋汽車 2026-04-07 15:42:38
0 跟貼 0
楊元慶，捐贈2億元！

證券時報 2026-04-06 22:44:23
883 跟貼 883
靜享優(yōu)雅動破鋒芒試駕2026款AMG CLE 53

車質(zhì)網(wǎng) 2026-04-06 07:14:03
0 跟貼 0
8日開考，穩(wěn)拿30分！鄭州中考理化生實驗滿分攻略→

大象新聞 2026-04-07 12:45:02
2 跟貼 2
魂師對決：SP+霍雨浩先遣評測報告！可以為他們倆默哀了么？

何二維一 2026-04-04 14:57:00
0 跟貼 0
誰還沒領(lǐng)？Stanley 噸噸杯和 Gilson 移液器一起帶回實驗室

生物學霸 2025-10-22 17:21:48
0 跟貼 0
科前生物：2025年度凈利潤約4.19億元，同比增加9.51%

每日經(jīng)濟新聞 2026-04-07 19:57:25
0 跟貼 0
奕境汽車核心管理團隊落定：汪俊君任董事長，曾清林任品牌總經(jīng)理

經(jīng)濟觀察報 2026-04-07 19:51:14
0 跟貼 0
瑞銀下調(diào)2026年標普500指數(shù)目標點位預計中東沖突將在數(shù)周內(nèi)緩和

財聯(lián)社 2026-04-07 19:57:16
0 跟貼 0
【美股盤前】布油突破110美元/桶；Anthropic與谷歌和博通達成千億美元芯片交易；SpaceX計劃6月初進行IPO路演；折疊屏iPhone遭遇工程

每日經(jīng)濟新聞 2026-04-07 17:38:09
0 跟貼 0
易中天，獲獎勵20萬元

極目新聞 2026-04-06 21:04:19
25944 跟貼 25944
他們?nèi)珕T6點下班，卻讓硅谷脊背發(fā)涼

獸樓處 2026-04-06 17:12:07
0 跟貼 0
「龍蝦之父」吐槽人類互聯(lián)網(wǎng)后，終于有人把這當個事兒辦了

機器之心Pro 2026-03-31 11:09:26
0 跟貼 0
評委老師們被一幅畫吸引了，畫風看起來很不一樣，網(wǎng)友：很像人民幣的風格

星沙時報 2026-04-06 17:19:46
4 跟貼 4
DeepSeek推理分裂出多重人格，越社交越聰明

量子位 2026-02-04 03:32:03
0 跟貼 0
陳麗華47歲倒追遲重瑞財富傳承披露：1兒2女均在富華

極目新聞 2026-04-07 12:39:33
2901 跟貼 2901
項立剛再撕莫言諾貝爾文學獎評委只有18人

層層迷霧 2026-04-07 14:39:09
0 跟貼 0
小孩登臺演魔術(shù)，評委笑不停！

潘殤旅行浪子 2026-04-04 00:14:29
1 跟貼 1
華爾街實地考察霍爾木茲，萬斯力主接受伊十點方案，巴推進最后協(xié)議

丁辰靈 2026-04-07 18:57:14
0 跟貼 0
“祖先給的特權(quán)”，河南網(wǎng)友稱祖墳在景區(qū)祭祖免票，景區(qū)回應：沒過檢票口，一般是附近住戶的祖墳

大風新聞 2026-04-06 15:06:12
2294 跟貼 2294
在極限環(huán)境中就需要使用極限策略

趣知小故事 2026-04-04 11:30:41
1 跟貼 1
毛新宇攜家人到楊開慧烈士陵園祭掃

政知新媒體 2026-04-05 08:48:13
2639 跟貼 2639
“虧大了”？浙江多個小區(qū)物業(yè)主動撤場，業(yè)主卻稱：錢花得冤，背后有筆算不攏的賬

環(huán)球網(wǎng)資訊 2026-04-07 14:42:45
1 跟貼 1
2026最新“長壽公式”出爐：近6萬人驗證做到這三點可延壽近10年

華人星光 2026-04-07 12:10:10
4 跟貼 4
趙心童創(chuàng)“三冠”新紀錄，英媒直呼：其統(tǒng)治力“令對手膽寒”

環(huán)球網(wǎng)資訊 2026-04-07 06:56:17
125 跟貼 125
國家繼續(xù)實施調(diào)控成品油價格適當調(diào)整

財聯(lián)社 2026-04-07 15:04:33
1125 跟貼 1125
廣州外賣騎手去年平均薪酬15萬，快遞員、貨車司機收入下降

南方都市報 2026-04-07 18:12:09
12 跟貼 12
紫牛頭條｜對話張雪師父“牙哥：賽車夢想托付張雪，我的夢想是為中國飛機出份力

揚子晚報 2026-04-06 22:26:58
177 跟貼 177

手機 / 數(shù)碼

房產(chǎn) / 家居

谷歌研究揭老底：AI評測3人打分就能定生死，結(jié)果全是幻覺

一道選擇題：廣度還是深度？

模擬器里的真相

測什么，決定怎么測

一個被忽視的變量：誰在打這個分？

滿嘴謊言！OpenAI奧特曼黑料大起底

英媒：伊朗最高領(lǐng)袖病重昏迷 無法參與任何國家決策

英媒：伊朗最高領(lǐng)袖病重昏迷 無法參與任何國家決策

官宣簽約“AI球員”，這支球隊被罵慘了...

女首富陳麗華離世 被曝生前已分好遺產(chǎn)

10萬億財政轉(zhuǎn)移支付，被誰拿走了？

不止是大 極狐首款MPV問道V9靜態(tài)體驗

態(tài)度原創(chuàng)

高校官宣：教師，沒有“非升即走”！

楊超越之后，全網(wǎng)頭像錦鯉的C位被她搶走了

春日登高正當時 濟南天橋這些登山好去處別錯過

跟著歌聲游安徽，聽古村回響

美軍營救飛行員出動155架飛機

英媒：伊朗最高領(lǐng)袖病重昏迷無法參與任何國家決策

英媒：伊朗最高領(lǐng)袖病重昏迷無法參與任何國家決策

女首富陳麗華離世被曝生前已分好遺產(chǎn)

不止是大極狐首款MPV問道V9靜態(tài)體驗

春日登高正當時濟南天橋這些登山好去處別錯過