![]()
AI模型誰更強?人類評委一錘定音。但谷歌最新研究算了一筆賬:現(xiàn)在行業(yè)通行的3-5人打分制,可能正在批量制造不可靠的結(jié)論。
研究團隊來自谷歌研究院與羅切斯特理工學院,他們用模擬器跑了數(shù)千組實驗,發(fā)現(xiàn)要得到統(tǒng)計學上站得住腳的結(jié)果,單個測試樣本往往需要超過10名評委。更反直覺的是:總預算固定時,怎么分錢比有多少錢更重要。
一道選擇題:廣度還是深度?
研究者打了個比方。你開餐廳想摸底菜品口碑,方案A是請1000位客人各嘗一道菜,方案B是找20位老饕把50道菜全吃一遍。前者覆蓋面廣,后者信息密度高——你能知道哪道菜真的好吃,哪道只是碰運氣。
今天的AI評測幾乎一邊倒選A。測試集鋪得極大,每個樣本卻只撈3-5個評分,靠多數(shù)票強行壓出"正確答案"。這套做法有個致命盲區(qū):它系統(tǒng)性地抹殺了人類意見的真實分歧。
分歧是常態(tài)。一句評論是否有毒,一個回復是否安全,不同背景的人本就看法不一。強行投票不僅浪費信息,還可能讓模型在"偽共識"上優(yōu)化,離真實人類偏好越來越遠。
模擬器里的真相
為了找到最優(yōu)配比,團隊搭建了一個能復現(xiàn)人類評分模式的模擬器。他們往里面喂了五個真實數(shù)據(jù)集,覆蓋毒性檢測、對話安全、跨文化冒犯評估等場景,然后控制變量讓"模型A"穩(wěn)定輸給"模型B",測試在什么條件下能可靠地檢出這個差距。
結(jié)果讓現(xiàn)行標準很尷尬。1-5人評分的常規(guī)配置,模型對比的可重復性堪憂。要穩(wěn)定捕捉人類意見的真實分布,10人以上是更安全的起點。
但數(shù)字不是越大越好。實驗顯示,總標注量控制在約1000條時,只要分配得當,也能拿到可靠結(jié)論。反過來,預算再多,拆錯了比例照樣翻車。
關(guān)鍵洞察:沒有萬能公式。最優(yōu)策略完全取決于你在測什么。
測什么,決定怎么測
研究團隊拆解了三種常見評測目標,每種對應不同的資源配置邏輯。
第一類是準確率(Accuracy)——模型輸出與多數(shù)票是否一致。這時候"廣撒網(wǎng)"更劃算:測試樣本越多越好,每個樣本的評委可以少些。你的目標是覆蓋盡可能多的場景邊界。
第二類是校準度(Calibration)——模型對自己有多自信,與實際正確率是否匹配。這需要更深的采樣:樣本量可以壓縮,但每個樣本必須堆夠評委,才能摸清概率分布的真實形狀。
第三類最棘手:捕捉人類分歧本身。如果你關(guān)心的是"不同群體對這句話的 toxicity 評分方差有多大",那每個樣本的評委數(shù)量要大幅加碼,樣本量反而可以收縮。
研究者用一張圖總結(jié)了這場權(quán)衡:橫軸是單個樣本的評委數(shù),縱軸是總樣本量,不同目標的最優(yōu)落點散落各處。盲目抄作業(yè)的人,大概率會踩進錯誤配置的坑里。
一個被忽視的變量:誰在打這個分?
研究還觸及了更深層的麻煩。現(xiàn)有評測體系假設"評委"是個可互換的單元,但真實人類帶著各自的文化背景、價值取向和語境理解來干活。論文引用的一個數(shù)據(jù)集專門測量跨文化冒犯感知,結(jié)果顯示同一句話在不同群體間的分歧幅度,可能遠超模型之間的性能差距。
這意味著什么?當你用5個北美評委的多數(shù)票定義"安全回復",模型學到的可能只是特定切片人群的偏好。把它部署到全球用戶面前,分歧不會消失,只是被推遲到了投訴和輿情里。
谷歌團隊沒有給出簡單的"改用X人"處方。他們的核心論點是:評測設計必須透明地暴露這些權(quán)衡,而不是用"3-5人"的行業(yè)慣例假裝問題不存在。
論文最后提到了一個未被充分探索的方向:動態(tài)采樣。與其事先固定評委數(shù),不如根據(jù)樣本的分歧程度實時調(diào)整——爭議大的多投人,共識高的少浪費預算。這會讓評測系統(tǒng)復雜得多,但可能更接近"人類到底怎么想"的真相。
當各大實驗室忙著刷榜時,這項研究像一盆冷水:你優(yōu)化的那個數(shù)字,可能從一開始就是錯的。如果評測基準本身建立在脆弱的共識幻覺上,模型之間的勝負排名,又有多少參考價值?
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.