網易首頁 > 網易號 > 正文申請入駐

UC圣芭芭拉分校與亞馬遜LikeBench：AI助手"討喜度"評測基準

2025-12-25 21:50:35　來源: 科技行者

北京舉報

分享至

這項由加州大學圣芭芭拉分校的Md Awsafur Rahman與亞馬遜研究團隊共同開展的研究發表于2025年12月。有興趣深入了解的讀者可以通過arXiv:2512.13077查詢完整論文。研究團隊包括亞馬遜的Adam Gabrys、Doug Kang、Jingjing Sun、Tian Tan和Ashwin Chandramouli等資深研究員。

當你跟AI助手聊天時，有沒有感覺到有些回復讓人覺得很舒服，而有些卻讓人感到不自在？這就像跟朋友聊天和跟客服說話的區別一樣。目前的AI評估系統就像只關心學生的考試成績，卻忽略了他們是否受同學歡迎。現有的AI評估主要關注兩個方面：AI能否記住用戶告訴它的信息，以及能否在后續任務中正確運用這些信息。但這就像只看一個人是否有好記性和執行力，卻不關心這個人是否讓人愿意繼續交往。

研究團隊發現了一個關鍵問題：即使AI的記憶力很好，能準確回憶用戶的偏好并在任務中運用，但如果它的回應方式讓人感覺生硬、不合適，用戶仍然不會喜歡它。就像一個店員能準確記住你的購買歷史，但說話方式讓人不舒服，你還是不愿意再去那家店。這種"討人喜歡"的能力，研究團隊稱之為"likability"，是個性化AI系統中一個被嚴重忽視但極其重要的維度。

為了填補這個空白，研究團隊開發了LikeBench，這是第一個專門評估AI助手"討人喜歡"程度的綜合測試平臺。這個平臺就像是為AI助手設計的"魅力測試"，通過多輪對話來觀察AI是否能在交流中變得更受歡迎。與以往只看AI能否記住和執行的測試不同，LikeBench關注的是AI的回應是否讓用戶感到舒適、自然和愉快。

一、測試設計：七個維度衡量AI的"魅力指數"

LikeBench的設計就像是一個復合型的社交能力測試。研究團隊認為，AI的討人喜歡程度不是一個簡單的分數，而是由多個因素組成的復雜能力。他們將這種能力拆解為七個具體的維度，就像把"受歡迎"這個抽象概念分解成可以觀察和測量的具體行為。

情感適應能力是第一個維度，考察AI是否能識別并適應用戶的情緒狀態。當用戶興奮地說"我終于考上MIT了！"時，一個好的AI應該表現出相應的興奮，而不是冷冰冰地回復"那是一所很好的學校"。這就像朋友之間的互動，你的快樂需要得到對方的共鳴，你的沮喪需要得到對方的理解。

正式程度匹配是第二個維度，觀察AI是否能匹配用戶的說話風格。如果用戶說"lmao這電影太搞笑了"，AI最好也用相對輕松的語調回應，而不是用學術論文的口吻分析電影的藝術價值。這就像在不同場合穿合適的服裝一樣，跟朋友聊天時的隨意和在正式會議上的嚴肅應該是不同的。

知識適應能力是第三個維度，評估AI是否能根據用戶的背景調整解釋的深度。對博士生解釋量子物理時可以用專業術語，但對小學生就需要用更簡單的比喻。這就像一個好老師，會根據學生的水平調整教學方式，既不會過于簡化讓人覺得被小看，也不會過于復雜讓人聽不懂。

引用理解能力是第四個維度，檢驗AI是否能理解用戶提到的文化引用、梗或暗示。當用戶說"給這個多比一只襪子吧"時，AI需要理解這是《哈利波特》中的引用，表示想要自由。一個能接上這種梗的AI就像一個有共同語言的朋友，讓對話變得更有趣。

對話長度適配是第五個維度，考察AI的回復長度是否符合用戶的期望。有些人喜歡簡短直接的回答，有些人則希望得到詳細的解釋。當用戶只是簡單問候"嗨，最近怎么樣？"時，一個合適的回復應該是同樣簡短的問候，而不是一大段關于生活狀況的詳細匯報。

幽默匹配能力是第六個維度，評估AI使用幽默的時機和方式是否恰當。不是所有用戶都喜歡幽默，而喜歡幽默的用戶對幽默類型的偏好也不同。有些人喜歡雙關語，有些人喜歡自嘲，還有些人完全不希望AI開玩笑。

回調能力是第七個維度，觀察AI是否能在合適的時候提及之前對話中的個人細節。當用戶之前提到妻子Sarah在找工作時，AI在后續對話中能夠自然地問起"Sarah的求職進展如何？"就體現了這種能力。這就像老朋友見面時會關心你之前提到的事情，讓人感到被關注和重視。

二、模擬用戶：心理學支撐的虛擬角色

為了測試AI的表現，研究團隊需要創造出足夠真實和多樣的模擬用戶。傳統的評測通常使用簡單的用戶標簽，比如"外向"或"內向"，但這就像用"高"或"矮"來描述一個人的全部特征一樣粗糙。LikeBench采用了更加細致的方法，基于心理學研究構建了復雜的虛擬用戶角色。

每個模擬用戶都有35個詳細的性格特征，這些特征基于著名的"大五人格模型"以及其他心理學理論。大五人格模型包括開放性、責任心、外向性、親和力和神經質這五個主要維度，每個維度又被細分為6個具體方面。比如開放性不僅包括對新體驗的接受度，還包括想象力、藝術興趣、情感豐富度、冒險精神、智力好奇心和價值觀開放度等具體方面。

除了性格特征，每個虛擬用戶還有9個對話風格維度，包括直接程度、正式程度、偏好的回復長度、引用使用習慣、主動性偏好、澄清偏好、結構偏好、回顧偏好和反饋風格。這就像為每個人定制了一套獨特的交流"指紋"，確保測試的多樣性和真實性。

研究團隊特別設計了兩種類型的用戶：社交型和反社交型。社交型用戶就像那些外向、合作、情感表達豐富的人，他們的興趣往往與性格特征相符。反社交型用戶則更像那些分析型、目標導向、情感相對內斂的人，他們的興趣可能與性格特征沒有明顯關聯。這種設計確保了測試能夠覆蓋不同性格類型的用戶，更加貼近真實世界的多樣性。

每個虛擬用戶還有完整的背景故事，包括年齡、文化背景、經濟狀況、地理位置、興趣愛好、生活經歷等。這些背景不是隨機組合的，而是基于心理學原理設計的連貫人物畫像。就像小說中的人物一樣，每個虛擬用戶都有自己的動機、偏好和行為模式。

三、動態評測：跨會話的適應性觀察

LikeBench最創新的地方在于它不是一次性測試，而是跨越多個會話的動態評估。這就像觀察一段友誼的發展過程，而不是只看第一次見面的印象。每個用戶檔案需要經歷10個不同的對話會話，每個會話包含5輪交互，總共50輪對話。

每個會話都有隱藏的"先驗條件"，也就是對話的背景和目標。這些先驗條件只有模擬用戶知道，AI并不知道，就像現實生活中你不知道對方今天心情如何或有什么特殊需求。先驗條件可能是基于話題的（比如討論機器學習），基于場景的（比如剛看了一部搞笑電影想分享），基于目標的（比如同時想要旅行規劃和餐廳推薦），或者是引導式的（自然對話中包含特定元素）。

為了測試AI的適應性，研究團隊精心設計了會話之間的依賴關系。后面的會話會自然地引用前面會話中的內容，就像現實中朋友見面時會問起上次聊到的事情。比如第三個會話可能會提及第一個會話中的某個笑話，第五個會話可能會詢問第二個會話中給出建議的執行情況，第十個會話可能會回顧整個關系的發展歷程。

這種設計讓研究團隊能夠觀察AI是否具有真正的適應性。一個好的AI應該能夠在多次交互中逐漸了解用戶的偏好，并在后續對話中體現這種了解。這不僅包括記住事實信息，更重要的是學會用用戶喜歡的方式交流。

四、測試結果：記憶力好不等于受歡迎

研究團隊測試了五個當前最先進的AI模型：GPT-5、Claude 4 Sonnet、Claude 3.7 Sonnet、DeepSeek R1和Qwen3 235B。測試結果揭示了一個令人意外的發現：記憶力最好的AI并不是最受歡迎的。

GPT-5在綜合討人喜歡程度上獲得了最高分3.94分（滿分5分），成為最受歡迎的AI助手。Claude 4 Sonnet緊隨其后，獲得3.83分。但最令人驚訝的是DeepSeek R1的表現。盡管它的記憶準確率只有86%，平均每個用戶檔案只能記住17個事實，但它在討人喜歡程度上得到了3.67分，超過了記憶準確率高達93%、平均能記住43個事實的Qwen3（只得到2.87分）。

這個結果就像發現一個記憶力一般但很會聊天的朋友，比一個記憶力超強但說話無趣的人更受歡迎。這說明AI的個性化能力不能簡單地等同于信息記憶和執行能力，用戶的主觀體驗同樣重要。

在具體的討人喜歡維度上，各個AI模型表現出不同的特點。幽默匹配和正式程度匹配是所有模型都感到困難的維度，這反映了理解和適應用戶的幽默風格以及交流風格的復雜性。知識適應能力是表現最好的維度，大多數模型都能較好地根據對話內容調整解釋的深度。

有趣的是，GPT-5雖然在大部分維度上表現優秀，但在對話長度適配上卻落后于Claude 4 Sonnet。研究人員發現，GPT-5傾向于生成長而全面的回復，雖然展現了強大的知識適應能力，但當用戶偏好簡短交流時，這種詳盡的回應反而降低了用戶滿意度。這說明AI需要在展示能力和滿足用戶偏好之間找到平衡。

五、適應性表現：短期有效，長期乏力

LikeBench的動態評估還揭示了一個重要發現：大部分AI模型在短期交互中能夠適應用戶偏好，但在長期、復雜的對話中表現不穩定。

在前三個會話中，大多數模型都表現出了"蜜月期"的上升趨勢。Claude 3.7 Sonnet和DeepSeek R1甚至表現出近乎線性的提升，相關系數接近0.98。這說明在相對簡單、獨立的早期會話中，AI能夠較好地學習和適應用戶偏好。

但是從第三到第六個會話，所有模型都出現了下降趨勢。這個階段引入了跨會話協調、對話噪音和情感上更深層的詢問，大大增加了對話的復雜性。就像朋友關系從最初的客氣階段進入了需要處理復雜情況的階段，AI的表現開始出現問題。

在后期會話（第6-10個），各模型的表現軌跡開始分化，可預測性大幅下降。只有GPT-5表現出了強勁的反彈能力，改善率達到0.038。研究人員分析發現，GPT-5能夠利用其強大的長文本處理和多步推理能力，在這個階段重新校準用戶偏好，而其他模型要么繼續下降，要么只有輕微改善。

但即使是表現最好的GPT-5，其整體平均改善也只是勉強維持正數。這表明當前的AI系統雖然能在短序列中適應用戶偏好，但在擴展的、有噪音的交互中仍然脆弱。在實踐中，這意味著最佳表現的模型能夠避免在長對話中的明顯退化，但要在擴展的、類似真實世界的交流中保持高度的討人喜歡程度，仍然是一個未解決的挑戰。

六、記憶類型分析：顯式與隱式的差異

研究團隊還深入分析了AI模型在處理不同類型記憶時的表現差異。他們將用戶分享的信息分為顯式記憶和隱式記憶兩類。顯式記憶是用戶直接陳述的事實，比如"我是一名教師"或"我住在西雅圖"。隱式記憶則是從用戶行為、偏好或對話模式中推斷出的信息，比如"偏好隨意交流"或"似乎懂技術"。

GPT-5在這個分析中再次表現突出，它提取的用戶事實數量最多，而且大部分是顯式事實。它采用保守策略，只有在高度確信時才推斷隱式信息，結果其隱式記憶的準確率達到了98%。這就像一個謹慎的朋友，只在確定的時候才對你的想法進行推測，因此很少出錯。

相比之下，Qwen3在推斷隱式記憶方面更加積極主動，通常提取的隱式記憶數量在所有模型中最多，但這種積極性帶來了準確性的代價，隱式記憶準確率為93%。這就像一個熱心但有時過度解讀的朋友，會對你的話進行很多推測，有時候猜對了，有時候會誤解你的意思。

更重要的是，研究發現GPT-5不僅記憶能力強，而且幾乎完全利用了提取到的記憶。它在對話中使用了80-100%的顯式記憶和幾乎100%的隱式記憶，有些用戶檔案在需要時甚至引用了超過15個隱式事實。這表明有效的個性化不僅需要準確回憶相關信息，還需要熟練地、根據具體情境使用顯式和隱式用戶知識。

七、用戶類型差異：社交型與反社交型的對比

LikeBench的另一個重要發現是不同用戶類型對AI表現的影響。研究團隊設計的社交型用戶是那些情感合作、表達豐富的角色，他們的興趣與性格特征高度相關。反社交型用戶則是分析導向、情感相對冷靜的角色，他們的興趣刻意與性格特征解耦，以增加不可預測性。

最強的AI系統（GPT-5和Claude 4 Sonnet）在兩種用戶類型上都表現出了顯著的穩定性，中位數相似且四分位距緊密。這表明它們的策略能夠從合作型用戶遷移到冷靜型用戶，不會因為用戶的性格差異而出現明顯的表現波動。

有趣的是，不同模型對用戶類型的偏好并不一致。DeepSeek R1在反社交型用戶上表現更好，Claude 3.7 Sonnet在這類用戶上表現下降，而Qwen3雖然整體得分最低但在反社交型用戶上縮小了差距。這種不對稱性證實了性格特征——即用戶如何進行交流（語調、情感立場、話語紀律）——比話題對齊更能驅動討人喜歡程度。將興趣與特征解耦確實改變了難度，但并不主導結果。

八、實驗改進嘗試：動態用戶畫像

研究團隊還嘗試了一種改進方法：動態用戶畫像。他們觀察到，隨著對話的進行，模型很難追蹤和遵守用戶偏好，顯著信號容易被累積的上下文和偏離主題的噪音沖淡。為了緩解這種漂移，他們引入了顯式的、逐輪的推斷偏好追蹤。

在動態用戶畫像模式下，模型在每輪對話后都會提取和更新一個簡潔的偏好摘要，涵蓋性格維度（如健談vs保守、分析深度偏好、幽默偏好）和對話風格模式（如直接程度、正式程度、對話長度）。"動態"是從模型角度來說的：LikeBench中的真實用戶角色是固定的，但模型必須從對話證據中推斷出不斷演化的近似值。

這種改進為表現最好的兩個模型帶來了收益：GPT-5從3.939提升到4.055（提升2.95%），Claude 4 Sonnet從3.828提升到3.914（提升2.25%）。但其他模型并沒有從中受益。這些結果表明，輕量級的、基于模式引導的偏好追蹤可以通過減少跨會話的校準錯誤來明顯增強感知的討人喜歡程度。

九、研究意義：從技術指標到用戶體驗

這項研究的意義遠超出了AI技術本身。它首次系統性地證明了一個重要觀點：AI系統的個性化能力不能簡單地用記憶準確性和任務執行能力來衡量。用戶的主觀體驗——即AI是否讓人感到舒適、自然和愉快——是一個獨立且重要的評估維度。

這個發現對AI產品開發有著重要的指導意義。許多AI系統的開發者可能過分關注提高記憶能力和任務準確性，卻忽略了用戶的情感體驗。但正如這項研究所顯示的，一個記憶力稍差但交流方式更自然的AI，可能比一個記憶完美但交流僵硬的AI更受用戶歡迎。

LikeBench提供的七維度評估框架也為AI系統的改進指明了具體方向。開發者可以針對情感適應、正式程度匹配、知識適應等具體維度進行優化，而不是盲目地提升整體性能。這就像醫生可以針對患者的具體癥狀開藥，而不是只給通用的補藥。

研究還揭示了當前AI系統的一個普遍局限性：它們在短期交互中表現良好，但難以維持長期的高質量交流。這提醒我們，真正的AI個性化不僅需要在單次對話中表現出色，更需要在長期的、復雜的交互中保持一致性。這對于那些希望AI成為長期伴侶或助手的應用場景尤其重要。

說到底，這項研究提醒我們，AI的最終目標不應該只是變得更聰明，而是變得更人性化。在追求技術突破的同時，我們不能忘記技術服務于人的根本宗旨。一個真正成功的AI助手，應該既能記住你說過的話，也能理解你沒說出口的需求，既能完成你交代的任務，也能讓你在交流中感到舒適和愉快。

LikeBench為這個目標提供了一個重要的測量工具。通過它，我們可以更準確地評估AI系統的用戶體驗質量，推動AI技術向著更加人性化、更加貼心的方向發展。對于普通用戶來說，這意味著未來的AI助手將不僅更能干，也更可愛。對于整個AI行業來說，這開啟了一個新的競爭維度：不僅要比拼技術能力，更要比拼用戶體驗和情感連接能力。

Q&A

Q1：LikeBench是什么？

A：LikeBench是由UC圣芭芭拉分校和亞馬遜聯合開發的AI評估系統，專門測試AI助手的"討人喜歡"程度。它通過七個維度（情感適應、正式程度匹配、知識適應、引用理解、對話長度適配、幽默匹配、回調能力）來評估AI在多輪對話中是否能讓用戶感到舒適和愉快。

Q2：為什么記憶力好的AI不一定更受歡迎？

A：研究發現，DeepSeek R1雖然記憶準確率只有86%，但討人喜歡程度超過了記憶準確率93%的Qwen3。這說明AI的個性化能力不等于記憶能力，用戶更關心AI的交流方式是否自然、是否能適應自己的情緒和偏好，而不僅僅是它能否準確記住事實信息。

Q3：LikeBench如何測試AI的適應性？

A：LikeBench設計了跨越10個會話的動態測試，每個會話有5輪對話。后續會話會自然引用前面的內容，就像朋友間的連續交流。通過觀察AI在長期交互中的表現變化，研究團隊發現大多數AI在短期內能適應用戶偏好，但在長期復雜對話中表現不穩定。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.