<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      UC Davis發現:AI評分系統理解個人偏好偏差超20個百分點研究突破

      0
      分享至


      這項由加利福尼亞大學戴維斯分校(University of California, Davis)研究團隊完成的工作,以預印本形式于2026年4月8日發布在arXiv平臺,編號為arXiv:2604.07343v1,收錄于計算機科學·計算與語言(cs.CL)領域,目前正處于同行評審階段。

      你有沒有遇到過這樣的情況:向AI助手提問,它給出的回答在質量上無可挑剔,邏輯清晰、內容準確、語氣禮貌,但就是感覺"不對"——不是你真正想要的那種答案。也許你一向喜歡直接溝通、喜歡別人建議你主動和他人交流,但AI卻給了你一堆"自我調整"的建議,和你的性格完全背道而馳。這種微妙的"不對勁",正是這項研究試圖正面攻克的核心問題。

      AI系統的核心目標之一,是讓語言模型的行為與人類價值觀保持一致。為了做到這一點,研究者通常會訓練一個叫做"獎勵模型"的東西——可以把它理解為一位專職"品味評分員"。這位評分員的工作,是在AI生成多個候選回答之后,替人類挑出最好的那一個。這位評分員訓練得越準,AI最終給出的答案就越符合人類期望。問題在于,現有的這位"評分員"主要學的是"大眾口味"——什么是正確的、有用的、無害的——而對于每個人獨特的個人喜好,它幾乎是睜眼瞎。

      這項研究的核心貢獻,是構建了一個名為**Personalized RewardBench**(個性化獎勵模型基準測試)的評估工具,用來專門測量這位"評分員"究竟有多懂你這個具體的人。研究團隊在測試了目前最先進的一批AI評分系統之后,得出了一個讓人警醒的結論:即使是表現最好的系統,在理解個人偏好這件事上的正確率也不超過76%。換句話說,每四次評分中就有超過一次判斷錯了方向。而當研究者給系統提供完整的個人偏好線索后,理論上能達到的正確率接近99%。這中間超過20個百分點的差距,正是當前AI個性化能力的真實鴻溝。

      一、為什么"評分員"這么重要,而它又錯在哪里

      要理解這個問題,不妨用一個生活中的比喻來搭建整個理解框架。把AI訓練的過程想象成一家餐廳培養服務員的過程。餐廳雇了一位"品質督導",他的職責是在廚師端出多道菜之后,挑選出最好的那道送給顧客。這位督導經過多年訓練,非常擅長判斷一道菜的火候是否到位、擺盤是否精美、食材是否新鮮——這些都是"通用質量標準"。

      然而,餐廳的顧客各有不同。有人不吃辣,有人忌口蒜,有人希望分量大,有人則偏愛精致小份。當這位督導面對"哪道菜最好"這個問題時,他給的答案基于的是普遍意義上的烹飪水準,而不是這位具體顧客的口味檔案。結果就是,他送上去的菜在客觀上無可挑剔,但那位對蒜過敏的顧客可能一口都咽不下去。

      這個比喻精準地描述了當前AI"獎勵模型"的困境?,F有系統,無論是直接輸出分數的"評分型"系統,還是通過推理過程來做比較的"生成型"系統,都主要學會了判斷"這個回答在客觀質量上是否優秀",而非"這個回答是否符合這位用戶的個人偏好"。

      更關鍵的問題在于,現有的基準測試(也就是用來衡量這些評分員表現的"考卷")也存在同樣的盲區。它們通常通過選擇"質量更差的模型生成的答案"或者"人為注入錯誤的答案"來構造所謂的"錯誤選項",然后看評分員能不能挑出那個"質量更好的選項"。這種考卷考的其實是評分員能不能區分好壞,而不是能不能區分"適合你"和"不適合你"。

      更糟糕的是,這些考卷上的成績,往往無法準確預測這位"評分員"在真實工作場景中的表現。一個在考卷上得了高分的督導,放在真實的餐廳里,不見得就能讓每位顧客滿意——因為考卷根本沒有測他會不會關注顧客的個人口味。

      二、這張全新的"考卷"是怎么設計出來的

      為了解決上面這個根本性問題,研究團隊設計了一套全新的評估方式。用餐廳比喻來說,他們做的事情是:先詳細記錄每位顧客的歷史點餐記錄和個人喜好,然后針對每位顧客精心準備兩道菜——一道嚴格按照他的個人口味檔案來做,另一道則故意違背他的口味偏好但在客觀質量上同樣無懈可擊,最后考察督導能不能挑出那道真正符合這位顧客口味的菜。

      具體來說,研究團隊利用了一個叫做LaMP-QA的數據集作為原材料。這個數據集本身是一個"個性化問答"的測試集合,里面收錄了真實用戶提出的問題,以及每個用戶過去的歷史帖子和個人敘述。每道題目都附帶了一套"個人評分標準"——也就是這位用戶在回答這個問題時具體希望看到哪些方面的內容,這套標準由人工驗證,契合度評分高達4.9分(滿分5分),可靠性非常高。

      研究選取了三個"個人偏好差異最明顯"的領域:藝術與娛樂、生活方式與個人發展、社會與文化。之所以選這三個方向,是因為這些領域的問題沒有唯一正確答案,完全取決于個人的價值觀、經歷和喜好——這正是考驗個性化理解能力的最佳場景。

      為了構建每個用戶的個人檔案,團隊使用了一種叫做"檢索增強"的技術。簡單說,就是從用戶過去的大量歷史互動記錄中,自動找出最相關的10條,拼成一份"這個人是誰、他通常關心什么"的簡要畫像。

      在生成回答對的環節,團隊采用了一個關鍵的創新設計。"正確答案"由Google的Gemini-3-Flash模型在明確知曉用戶個人評分標準的情況下生成——相當于廚師拿到了顧客的口味檔案。"錯誤答案"則同樣由這個模型生成,但這次輸入的是"用戶明確不希望看到的內容方向"——相當于廚師被告知要刻意避開顧客喜歡的一切,但仍然可以做出客觀上不錯的菜。這樣一來,兩道菜的"通用質量"旗鼓相當,唯一的區別就在于是否符合這位顧客的個人口味。

      整套測試集完全由測試題目組成,沒有任何訓練數據混入其中。藝術與娛樂類包含767道題,生活方式類包含989道題,社會與文化類包含1074道題,每道題平均涉及4到5個具體的個人評分維度。

      三、人工驗證:這張考卷考的真的是"個人偏好"而非"質量高低"嗎

      設計出這套考卷之后,研究團隊需要回答一個關鍵問題:這兩道菜真的只有口味上的差異,而不是一道明顯比另一道做得好嗎?

      為此,團隊專門請了人工評審,對所有"正確答案"和"錯誤答案"從四個維度逐一打分。前三個維度衡量通用質量:事實準確性(信息是否正確無誤)、相關性與指令遵循(是否真正回答了問題)、有幫助性與無害性(是否真正有用且沒有不良內容)。第四個維度則衡量個性化契合度:這個回答是否真正滿足了這位用戶的個人評分標準。打分范圍從1分(完全不合格)到5分(完全滿足)。

      結果驗證了團隊的設計意圖。"正確答案"在三個通用質量維度上的得分分別是:事實準確性約4.94至4.99分,相關性約4.97至4.99分,有幫助性約4.89至4.97分。"錯誤答案"在這三個維度上同樣保持了相當高的水準:事實準確性約4.55至4.72分,相關性約4.50至4.63分,有幫助性約4.30至4.55分。兩類答案的通用質量差距非常有限,都處于"高質量"區間。

      然而在個性化契合度這一維度上,兩者出現了天壤之別。"正確答案"的個人評分標準契合度在4.84至4.93分之間,接近滿分。而"錯誤答案"則跌至1.44至1.49分,幾乎墊底。這個結果清楚地表明:這張考卷里的兩個選項,通用質量上半斤八兩,唯一的決定性差異就是有沒有滿足這位用戶的個人偏好。這正是這套測試想要測量的東西。

      四、現有的"評分員"們,成績究竟如何

      測試結果出來之后,整體畫面相當令人清醒。研究團隊測試了三大類共二十余個當前最先進的獎勵模型系統,涵蓋直接輸出數值分數的"標量型獎勵模型"、通過語言推理來比較選項的"生成型獎勵模型",以及專門針對個性化場景微調過的"個性化獎勵模型"。

      即使是表現最好的系統,Google的Gemini-3-Flash,也只在"生活方式與個人發展"這個類別里達到了75.94%的正確率,在"藝術與娛樂"類別里是72.36%,在"社會與文化"類別里是75.51%。GPT-5.1在這三個類別里分別是65.45%、70.88%和66.76%,Anthropic的Claude-Sonnet-4-6則是67.28%、70.68%和73.56%。

      在標量型獎勵模型這一類,internlm2-7b-reward的表現相對突出,在生活方式類達到了71.69%,在社會與文化類達到了74.95%。然而令人意外的是,參數量更大的internlm2-20b版本,在所有三個類別里都不如7b版本——這說明在個性化偏好理解這件事上,模型規模的擴大并不會自動帶來進步。類似的"越大越差"現象也出現在mR3系列的14B和8B版本之間。

      那些專門為個性化場景微調過的獎勵模型,表現同樣不盡如人意。Bradley-Terry方法在三個類別里分別是63.75%、66.84%和64.99%,PAL方法則更低,最差的情況下只有48.76%到49.34%,幾乎等同于隨機猜測的水平。

      與此形成鮮明對比的是,當研究者把真實的個人評分標準直接喂給Gemini-3-Flash,讓它作為一個知道所有個人偏好信息的"理想督導"來判斷時,正確率在三個類別里分別達到了97.78%、99.09%和98.60%——幾乎是滿分。這兩個數字之間超過20個百分點的巨大差距,既說明這套考卷本身的答案是清晰可辨的(不是題目太難或者本來就沒有正確答案),也說明現有系統的問題根本在于無法推斷和應用用戶的個人偏好。

      五、用戶檔案能幫上忙嗎,以及應該怎么用

      既然問題在于系統不了解用戶的個人偏好,一個自然的想法是:直接把用戶的歷史檔案塞給這些評分員,讓它們自己去讀,不就行了?

      實驗結果給出了一個出乎意料的答案:直接塞反而會讓情況變得更糟。研究團隊發現,在大部分測試模型上,把用戶的歷史檔案直接附加到輸入里,比完全不給檔案信息的情況下表現還要差。原因在于,這些評分員是在標準的"問題-回答"格式下訓練出來的,突然多了一大段"用戶歷史聊天記錄",對它們來說就是格式不匹配的噪聲,不僅沒有幫助,反而造成了干擾——這就好比一個從來沒讀過菜單的服務員,你突然扔給他一疊手寫的顧客日記,他只會更加手足無措。

      為了解決這個問題,研究團隊提出了一個兩步走的策略。第一步,先用一個專門訓練過的"翻譯官"(在論文里稱為"計劃器"),把用戶的歷史檔案轉化為結構化的個人評分標準——也就是把那疊手寫日記濃縮成一份簡潔的口味清單,列明"這位顧客喜歡什么、不喜歡什么"。第二步,再把這份口味清單交給評分員,讓它在這個清晰指引下進行評分。

      這個"先翻譯,再評分"的方案效果顯著。在Skywork、InternLM、RM-R1和Gemini這四個系列的模型上,使用這個方案之后,性能都有了明顯回升,大多數情況下不僅彌補了直接注入檔案帶來的損失,而且比完全不用檔案的基準情況還要好。這個結果表明,用戶檔案本身是有價值的信息,關鍵在于用正確的方式把它轉化成評分員能理解的格式。

      對于那些專門微調過的個性化獎勵模型,研究團隊也專門做了對比實驗。結果同樣有趣:參數量更小的Llama-3.2-3B模型,在加入用戶檔案之后,在生活方式類別里達到了71.99%,在社會與文化類別里達到了72.07%,明顯高于參數量更大的Llama-3.1-8B在同一場景下的67.04%和68.34%。這再次印證了一個結論:對于個性化理解這種能力,模型架構的適應性和數據效率比單純堆砌參數規模更重要。

      六、考卷上的成績能預測真實工作表現嗎

      一套評估工具的價值,最終取決于它能不能準確預測"被評估的系統在實際應用中表現如何"。這是這項研究投入大量精力驗證的另一個核心問題。

      研究團隊設計了兩種"真實工作場景"來檢驗這一點。第一種叫做Best-of-N(從N個中選最好的,簡稱BoN):讓一個較小的語言模型(Qwen2.5-0.5B-Instruct)針對每道題目生成16個不同的候選回答,然后讓被測的獎勵模型從中選出它認為最好的一個,最后用一個更強的大模型(Qwen2.5-32B-Instruct)按照用戶的個人評分標準來評判這個被選中的回答質量如何。第二種叫做PPO(近端策略優化),這是一種強化學習訓練方法:用被測的獎勵模型直接訓練那個較小的語言模型,讓它的行為朝著獎勵更高的方向調整,訓練完成后再評估這個被優化過的模型在回答問題時的表現。

      之所以使用較小的Qwen2.5-0.5B作為受訓模型,是一個刻意的實驗設計:它的基礎能力有限,所以最終表現的好壞主要取決于獎勵模型的引導質量,而不是模型本身的能力。

      評估指標方面,團隊使用了四種衡量排名一致性的方法。Spearman's ρ衡量整體排名的單調一致性,簡單說就是"考卷上排第一的系統,在實際工作里是不是也接近第一"。NDCG和Weighted τ則更關注頂部排名的準確性,也就是"最優秀的幾個系統有沒有被準確識別出來"。RBO衡量兩個排名列表從頂部開始的重疊程度。

      結果相當有說服力。Personalized RewardBench在BoN場景下的NDCG達到了0.9180,Weighted τ達到了0.3409,Spearman's ρ達到了0.2571。在PPO場景下,NDCG達到了0.9265,Weighted τ達到了0.4793,Spearman's ρ達到了0.3714。相比之下,對照基準PersonalRewardBench(來自Chatbot Arena的個性化版本)在BoN場景下的NDCG只有0.6586,Weighted τ甚至是負數(-0.0736),意味著它的排名結果與實際工作表現完全背道而馳——在考卷上排名高的系統,在實際工作中反而表現差。PRISM數據集的個性化版本也類似,Weighted τ僅有0.0170,基本等同于沒有預測價值。

      換句話說,用Personalized RewardBench的考卷成績來預測哪個評分員在實際工作中表現更好,準確度遠高于現有的其他測試方案。這才是一張好考卷真正應該做到的事情。

      說到底,這項研究揭示了當前AI對齊技術中一個被長期低估的盲區。目前的"品味評分員"們,在判斷"一個回答客觀上夠不夠好"這件事上已經相當熟練,但在判斷"這個回答有沒有真正滿足這位用戶的個人需求"時,仍然存在相當大的認知鴻溝。

      這個發現的意義并不局限于技術層面。當AI系統被越來越廣泛地應用于教育輔導、健康建議、生活決策等與個人深度相關的場景時,一個無法準確理解個人偏好的"評分員",可能會在訓練過程中系統性地引導AI產生那種"看起來很好但就是不對"的回答——通用質量合格,個性化體驗糟糕。

      研究團隊提出的基準測試工具已經開源,可以通過arXiv編號2604.07343查閱完整論文,數據集也在Huggingface平臺上公開,供研究者直接使用。正如研究者在論文中指出的,如何訓練出真正具備個性化理解能力的獎勵模型,仍然是一個大有可為的開放問題。畢竟,一位真正稱職的"品味評分員",不只是懂烹飪,還得真正認識每一位顧客。

      Q&A

      Q1:Personalized RewardBench是什么,和普通的獎勵模型基準測試有什么不同?

      A:Personalized RewardBench是由UC Davis團隊構建的一套評估工具,專門用來測試AI獎勵模型能否理解個人偏好。與普通基準測試不同,它構造的兩個候選答案在客觀質量上旗鼓相當,唯一的區別是一個滿足了用戶的個人評分標準,另一個則故意違背了這些標準。這樣的設計確保測試考察的是"有沒有讀懂這個人",而不是"能不能區分好壞"。經人工驗證,兩類答案在事實準確性、相關性和幫助性方面差異極小,只在個性化契合度上差距巨大。

      Q2:現有最先進的AI獎勵模型在個性化偏好理解上表現有多差?

      A:根據這項研究的測試,即使是表現最好的系統(Gemini-3-Flash),正確率也沒有超過76%,在藝術與娛樂類別里只有72.36%。而當研究者給系統提供完整的個人偏好標準作為參考時,理論上能達到的正確率接近99%。這意味著現有系統與理想狀態之間存在超過20個百分點的差距。更值得注意的是,模型參數量的增大并不能自動改善這種個性化理解能力,部分大參數模型反而不如小參數版本表現好。

      Q3:為什么直接把用戶歷史檔案喂給獎勵模型反而會讓效果變差?

      A:現有獎勵模型是在標準的"問題-回答"格式下訓練的,沒有處理用戶歷史檔案的能力。直接把大量歷史互動記錄附加到輸入中,會造成訓練格式與測試格式的嚴重不匹配,形成噪聲干擾。研究團隊發現更有效的做法是先用一個專門訓練過的"計劃器"模塊,把歷史檔案轉化為結構化的個人評分標準,再把這個清晰的口味清單交給獎勵模型。這種兩步走的方案在多個模型系列上都能穩定提升性能。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      1-0!綠軍32分大勝76人,雙探花合砍51分,兩隊整體實力差距很大

      1-0!綠軍32分大勝76人,雙探花合砍51分,兩隊整體實力差距很大

      老梁體育漫談
      2026-04-20 03:39:03
      邱國渭在大陸生活三十年,78年分批將家人遷往美國,盡顯堅韌執著

      邱國渭在大陸生活三十年,78年分批將家人遷往美國,盡顯堅韌執著

      嘮叨說歷史
      2026-04-01 10:40:04
      邱彪是如何帶隊贏球的,戰勝深圳隊不容易,山東高速男籃終于醒了

      邱彪是如何帶隊贏球的,戰勝深圳隊不容易,山東高速男籃終于醒了

      阿心文史
      2026-04-20 05:25:19
      女子拆快遞誤甩飛美工刀打到同事脖頸

      女子拆快遞誤甩飛美工刀打到同事脖頸

      新快報新聞
      2026-04-19 22:12:06
      一場3:1讓申花喜獲大發現,昔日廢柴已成中場猛人,伊萬沒看錯人

      一場3:1讓申花喜獲大發現,昔日廢柴已成中場猛人,伊萬沒看錯人

      零度眼看球
      2026-04-19 07:03:44
      “浩浩媽”新作被捆綁!表情嬌羞 身材太難頂

      “浩浩媽”新作被捆綁!表情嬌羞 身材太難頂

      游民星空
      2026-04-19 11:03:24
      CBA爆大冷!山東男籃逆轉聯賽第3,本土1分上雙,高詩巖缺席

      CBA爆大冷!山東男籃逆轉聯賽第3,本土1分上雙,高詩巖缺席

      許穩很機智
      2026-04-19 22:13:12
      峰回路轉!美伊第二輪談判20日登場,特朗普透露三大關鍵信息

      峰回路轉!美伊第二輪談判20日登場,特朗普透露三大關鍵信息

      說歷史的老牢
      2026-04-20 03:48:20
      八卦記者:姆巴佩與女友被拍到喝咖啡,兩人關系趨于穩定

      八卦記者:姆巴佩與女友被拍到喝咖啡,兩人關系趨于穩定

      科學發掘
      2026-04-20 01:14:12
      夫妻花1100元買下上海廢棄水塔住,16年后拆遷時倆人愣在原地

      夫妻花1100元買下上海廢棄水塔住,16年后拆遷時倆人愣在原地

      小郡主講故事
      2026-04-14 09:01:06
      日本爆冷奪冠!朝鮮U20女足全場0進球,球員賽后黑臉拒絕握手

      日本爆冷奪冠!朝鮮U20女足全場0進球,球員賽后黑臉拒絕握手

      談史論天地
      2026-04-19 13:52:15
      降價賣,叫停了....

      降價賣,叫停了....

      新浪財經
      2026-04-19 00:12:28
      旅游路上怎么全是大媽?大爺都去哪兒了?網友分析讓人爆笑到飆淚

      旅游路上怎么全是大媽?大爺都去哪兒了?網友分析讓人爆笑到飆淚

      西樓知趣雜談
      2026-04-18 15:31:29
      直接給島內孩子們看!這應該是鄭麗文從大陸帶回最珍貴禮物!

      直接給島內孩子們看!這應該是鄭麗文從大陸帶回最珍貴禮物!

      阿龍聊軍事
      2026-04-18 21:26:21
      閃光燈沒關的社死現場

      閃光燈沒關的社死現場

      晚風也遺憾
      2026-04-17 08:55:10
      轟25+13+11又刷四紀錄!約基奇擊潰森林狼雙塔 美記:無人能擋

      轟25+13+11又刷四紀錄!約基奇擊潰森林狼雙塔 美記:無人能擋

      顏小白的籃球夢
      2026-04-19 06:35:35
      女兒剛去世女婿就娶保姆,老人去保姆老家,卻意外發現女兒的秘密

      女兒剛去世女婿就娶保姆,老人去保姆老家,卻意外發現女兒的秘密

      楓紅染山徑
      2026-04-19 16:45:07
      國民黨內訌,前高層沖闖黨部斥責鄭麗文:你不配當主席,是個卒子

      國民黨內訌,前高層沖闖黨部斥責鄭麗文:你不配當主席,是個卒子

      面包夾知識
      2025-12-31 23:04:14
      734名美軍火線辭職,白宮陷入徹底恐慌,對伊封鎖淪為笑柄

      734名美軍火線辭職,白宮陷入徹底恐慌,對伊封鎖淪為笑柄

      凡知
      2026-04-19 16:30:29
      男人的生理需求能有多難忍?網友:我對我老公只有動物本能

      男人的生理需求能有多難忍?網友:我對我老公只有動物本能

      番外行
      2026-04-02 08:37:13
      2026-04-20 06:16:49
      科技行者 incentive-icons
      科技行者
      科技正在如何變革商業世界
      8048文章數 562關注度
      往期回顧 全部

      科技要聞

      50分26秒破人類紀錄!300臺機器人狂飆半馬

      頭條要聞

      特朗普:美艦武力攔截伊朗貨船 在機艙炸出一個洞

      頭條要聞

      特朗普:美艦武力攔截伊朗貨船 在機艙炸出一個洞

      體育要聞

      湖人1比0火箭:老詹比烏度卡像教練

      娛樂要聞

      何潤東漲粉百萬!內娛隔空掀桌第一人

      財經要聞

      華誼兄弟,8年虧光85億

      汽車要聞

      29分鐘大定破萬 極氪8X為什么這么多人買?

      態度原創

      數碼
      手機
      家居
      公開課
      軍事航空

      數碼要聞

      華為新機發布前瞻:闊折疊X Max+影像旗艦Pura 90,都沒懸念了

      手機要聞

      8.8英寸小鋼炮!REDMI K Pad 2核心配置揭曉

      家居要聞

      法式線條 時光靜淌

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      伊朗逼退美掃雷艇:美方求給15分鐘撤退

      無障礙瀏覽 進入關懷版