ConvApparel：量化并彌合用戶模擬器的真實(shí)性差距

2026-04-10 22:00:09　來源: 至頂頭條

北京舉報

分享至

我們推出了ConvApparel——一個全新的人機(jī)對話數(shù)據(jù)集，以及一套用于量化大語言模型用戶模擬器"真實(shí)性差距"的綜合評估框架，旨在提升對話智能體的訓(xùn)練效果。

現(xiàn)代對話式AI智能體通常能夠處理復(fù)雜的多輪任務(wù)，例如主動提問以澄清用戶意圖，以及為用戶提供主動幫助。然而，面對較長的交互過程，這類系統(tǒng)往往表現(xiàn)不佳，容易忽略限制條件或給出無關(guān)緊要的回復(fù)。持續(xù)改進(jìn)這些系統(tǒng)需要不斷訓(xùn)練和反饋，但依賴真人測試這一"黃金標(biāo)準(zhǔn)"成本高昂、耗時較長，且難以大規(guī)模推廣。

作為一種可擴(kuò)展的替代方案，AI研究社區(qū)越來越多地轉(zhuǎn)向用戶模擬器——即明確指示其扮演人類用戶角色的大語言模型智能體。然而，現(xiàn)代基于大語言模型的模擬器仍然存在明顯的真實(shí)性差距：它們往往表現(xiàn)出異常的耐心，或具備不符合實(shí)際的、近乎百科全書式的領(lǐng)域知識。這就好比飛行員使用飛行模擬器訓(xùn)練：最好的模擬器應(yīng)盡可能真實(shí)，包含不可預(yù)測的天氣、突如其來的陣風(fēng)，甚至偶爾發(fā)生的鳥擊事故。要彌合大語言模型用戶模擬器的真實(shí)性差距，首先需要將其量化。

在我們近期發(fā)布的論文中，我們介紹了ConvApparel——一個專為此目標(biāo)設(shè)計的人機(jī)對話新數(shù)據(jù)集。ConvApparel能夠揭示當(dāng)前用戶模擬中隱藏的缺陷，并為構(gòu)建值得信賴的AI測試工具提供可行路徑。為了捕捉從滿意到極度不滿的完整人類行為譜系，我們采用了一種獨(dú)特的雙智能體數(shù)據(jù)收集協(xié)議：參與者被隨機(jī)分配至一個樂于助人的"好"智能體，或一個故意表現(xiàn)不佳的"壞"智能體。這一實(shí)驗設(shè)置結(jié)合了三支柱驗證策略——群體級統(tǒng)計、人類相似度評分以及反事實(shí)驗證——使我們能夠超越簡單的表層模仿。

基于大語言模型的用戶模擬器往往表現(xiàn)出與真實(shí)人類交互系統(tǒng)性偏差的行為，例如過度冗長、缺乏一致的角色設(shè)定、無法表達(dá)連貫的偏好、知識儲備不切實(shí)際，以及缺乏合理的耐心底線。由于大多數(shù)大語言模型在訓(xùn)練時的目標(biāo)是成為出色的助手，因此當(dāng)它們被要求扮演容易沮喪、并非完美的人類用戶時，表現(xiàn)不佳也就不足為奇。如果我們僅用這些不真實(shí)的模擬器來訓(xùn)練對話智能體，那么它們在面對真實(shí)用戶時極有可能失敗。

利用真實(shí)用戶行為來訓(xùn)練模擬器是一種有效的方法。然而，一個真正真實(shí)的模擬器不僅應(yīng)反映訓(xùn)練數(shù)據(jù)中的行為，還應(yīng)能對未見過的新情境（例如新的對話智能體策略）做出合理反應(yīng)。這一點(diǎn)至關(guān)重要，因為模擬器的主要目標(biāo)之一是幫助改進(jìn)智能體，其中通常包括對與訓(xùn)練數(shù)據(jù)差異顯著的新智能體進(jìn)行實(shí)驗。一個過度擬合訓(xùn)練數(shù)據(jù)的模擬器，對于測試全新的、未經(jīng)驗證的AI智能體毫無用處。這引出了一個關(guān)鍵的方法論挑戰(zhàn)：我們?nèi)绾螠y試模擬器的適應(yīng)能力？

為解決這一問題，我們引入了反事實(shí)驗證的概念：如果模擬用戶遇到一個令人沮喪的系統(tǒng)——與它在訓(xùn)練中接觸過的那些友好系統(tǒng)截然不同——它會作何反應(yīng)？通過評估模擬器在面對意外出現(xiàn)的"壞"對話智能體時的表現(xiàn)，我們可以判斷它們是否真正學(xué)會了合理的人類行為，還是只是在盲目重復(fù)訓(xùn)練模式。

反事實(shí)驗證旨在測試用戶模擬器面對分布外的助手行為時，能否做出真實(shí)的適應(yīng)性反應(yīng)。

對話推薦系統(tǒng)（CRS）是對話式AI智能體最具前景的應(yīng)用場景之一，在這類系統(tǒng)中，AI智能體充當(dāng)復(fù)雜的決策支持工具，能夠進(jìn)行深度推理并提供個性化指導(dǎo)。為了建立CRS中人類行為的基準(zhǔn)，并實(shí)現(xiàn)上述反事實(shí)驗證，我們構(gòu)建了ConvApparel數(shù)據(jù)集——該數(shù)據(jù)集包含4000余條人機(jī)多輪對話（共計近15000輪），聚焦于服裝購物領(lǐng)域。

ConvApparel的獨(dú)特之處在于其雙智能體數(shù)據(jù)收集協(xié)議。參與者并不知情，他們的購物請求被隨機(jī)分配至兩種截然不同的AI推薦系統(tǒng)之一：一個表現(xiàn)良好的"好"智能體和一個故意設(shè)計為表現(xiàn)不佳的"壞"智能體。這一雙智能體實(shí)驗設(shè)計是ConvApparel的核心特色，它提供了兩種不同的受控環(huán)境，捕捉了從愉悅到極度不滿的廣泛用戶體驗。此外，ConvApparel還包含細(xì)粒度的逐輪標(biāo)注。我們要求參與者在每輪對話結(jié)束后，回顧并報告自己的內(nèi)心狀態(tài)，包括滿意度、沮喪感和購買意愿，從而提供了一份罕見的第一人稱用戶體驗真值數(shù)據(jù)集，為驗證實(shí)驗設(shè)置和模擬行為提供了重要依據(jù)。

基于這一豐富數(shù)據(jù)集，我們建立了一套由三大支柱構(gòu)成的綜合數(shù)據(jù)驅(qū)動框架，用于評估模擬器的逼真度，并對三種模擬器進(jìn)行了比較：提示式模擬器（Prompted）、上下文學(xué)習(xí)模擬器（ICL）以及監(jiān)督微調(diào)模擬器（SFT）。

群體級統(tǒng)計對齊：將真實(shí)用戶與模擬交互在總體行為分布（如話語長度）上進(jìn)行比較。

人類相似度評分：為捕捉細(xì)微的風(fēng)格差異，我們訓(xùn)練了一個自動判別器，基于人類與模擬對話的混合數(shù)據(jù)，輸出一個反映對話"人類感"的單一概率評分。

人類相似度評分（HLS）利用訓(xùn)練好的判別器，檢測真實(shí)對話與合成對話之間細(xì)微的風(fēng)格差異。

反事實(shí)驗證：利用雙智能體數(shù)據(jù)，我們僅基于與"好"智能體的對話來訓(xùn)練模擬器，再讓其與未見過的"壞"智能體進(jìn)行交互。高逼真度的模擬器應(yīng)能自然地做出調(diào)整，在沮喪感上呈現(xiàn)出與真實(shí)人類相似的顯著上升，以及滿意度的明顯下降。

ConvApparel框架將雙智能體數(shù)據(jù)收集協(xié)議與三支柱驗證策略相結(jié)合，有效衡量模擬器的真實(shí)性。

我們將三支柱評估框架應(yīng)用于三種基于Gemini模型系列構(gòu)建的大語言模型用戶模擬器：一是提示式模擬器，僅依賴高層次行為指令，無需專項訓(xùn)練；二是上下文學(xué)習(xí)（ICL）模擬器，利用檢索增強(qiáng)生成技術(shù)，在每一輪交互中為模型提供來自ConvApparel的語義相似人類對話示例；三是監(jiān)督微調(diào)（SFT）模擬器，通過直接在ConvApparel人機(jī)對話記錄上對Gemini 2.5 Flash模型進(jìn)行微調(diào)，使其行為與目標(biāo)人群高度對齊。

每種模擬器各生成600條對話，其中300條與"好"智能體交互，300條與"壞"智能體交互，以便與人類基準(zhǔn)進(jìn)行對比。

為保障研究的倫理完整性，我們對所有參與者保持完全透明，并給予公平報酬。評估人員均為簽署了知情同意書的付費(fèi)承包商，所獲薪酬高于其所在國家的生活工資標(biāo)準(zhǔn)。此外，我們明確要求參與者以真實(shí)購買意愿使用推薦系統(tǒng)，并告知所有參與者，他們正在與一個仍處于開發(fā)階段的實(shí)驗性原型進(jìn)行交互，并特別說明該系統(tǒng)可能存在表現(xiàn)欠佳的情況。

我們的實(shí)驗得出了若干重要發(fā)現(xiàn)：

在人類相似度評分方面，經(jīng)過訓(xùn)練的判別器能夠以極高的置信度將幾乎所有模擬對話識別為合成內(nèi)容。即便是我們最優(yōu)秀的SFT模型，仍會產(chǎn)生細(xì)微的人工痕跡——例如無懈可擊的語法和過于規(guī)律的輪次切換——從而暴露出其"合成"本質(zhì)。

在群體級測試中，數(shù)據(jù)驅(qū)動型模擬器（ICL和SFT）的表現(xiàn)始終優(yōu)于簡單的提示式基線，在話語長度和推薦接受率等行為分布上與人類高度吻合；然而，嚴(yán)格的統(tǒng)計檢驗顯示，即便是這些較優(yōu)的模擬器，仍存在持續(xù)的真實(shí)性差距。

在與令人沮喪的"壞"智能體交互時，提示式基線基本無法適應(yīng)，行為依然異常禮貌和耐心。而數(shù)據(jù)驅(qū)動型的ICL和SFT模擬器則表現(xiàn)出了出色的分布外泛化能力。盡管從未在訓(xùn)練數(shù)據(jù)中見過"壞"智能體，它們?nèi)阅苷鎸?shí)地調(diào)整自身行為，表現(xiàn)出明顯更高的模擬沮喪感與拒絕傾向。

構(gòu)建可靠的用戶模擬器是開發(fā)下一代健壯、有益且高效對話AI的基礎(chǔ)性工作。我們的研究表明，盡管基于大語言模型的用戶模擬器前景廣闊，但盲目依賴它們存在重大風(fēng)險。"真實(shí)性差距"依然存在，若將AI智能體優(yōu)化為僅取悅于不真實(shí)的模擬器，可能會損害其在真實(shí)世界中的實(shí)際表現(xiàn)。

通過引入ConvApparel數(shù)據(jù)集和三支柱驗證框架，我們?yōu)檠芯可鐓^(qū)提供了嚴(yán)格衡量并最終彌合這一差距所需的工具。反事實(shí)驗證證明，我們必須超越表層模仿，確保模擬器能夠真實(shí)地適應(yīng)新穎的對話動態(tài)。我們誠邀研究人員和開發(fā)者探索ConvApparel數(shù)據(jù)集，并利用我們的框架，為對話AI的未來構(gòu)建可靠的合成用戶。

盡管我們的實(shí)驗表明數(shù)據(jù)驅(qū)動型模擬器遠(yuǎn)優(yōu)于提示式模擬器，但創(chuàng)建高度真實(shí)的人工用戶仍是一項尚未完全解決的挑戰(zhàn)。我們的框架能夠有效衡量真實(shí)性差距，但要確定訓(xùn)練出健壯對話智能體所需的精確逼真度閾值，目前仍是一個開放性問題。

未來的工作應(yīng)聚焦于利用這些高逼真度模擬器從零開始訓(xùn)練和優(yōu)化CRS智能體，并衡量其在真實(shí)世界中的最終表現(xiàn)。打通這一完整閉環(huán)，將使我們最終能夠量化構(gòu)建有效、用戶就緒的AI系統(tǒng)所需的"人類相似度"程度。

本研究由以下合著者共同完成：Krisztian Balog、Avi Caciularu、Guy Tennenholtz、Jihwan Jeong、Amir Globerson 和 Craig Boutilier。

Q&A

Q1：ConvApparel數(shù)據(jù)集是什么，有什么特別之處？

A：ConvApparel是一個包含4000余條人機(jī)多輪對話（近15000輪）的服裝購物領(lǐng)域數(shù)據(jù)集。其最大特色是采用雙智能體數(shù)據(jù)收集協(xié)議：參與者在不知情的情況下，被隨機(jī)分配與"好"智能體或"壞"智能體交互，從而捕捉從滿意到極度不滿的完整用戶行為譜系，并配有逐輪的滿意度、沮喪感等細(xì)粒度標(biāo)注。

Q2：什么是用戶模擬器的"真實(shí)性差距"，為什么重要？

A：真實(shí)性差距指的是大語言模型用戶模擬器的行為與真實(shí)人類用戶之間的系統(tǒng)性偏差，例如過度冗長、異常耐心、知識儲備不切實(shí)際等。如果用不真實(shí)的模擬器來訓(xùn)練對話AI智能體，該智能體在面對真實(shí)用戶時可能表現(xiàn)不佳，因此量化并彌合這一差距對提升AI實(shí)際應(yīng)用效果至關(guān)重要。

Q3：反事實(shí)驗證是什么，如何檢驗?zāi)M器質(zhì)量？

A：反事實(shí)驗證是一種評估方法，讓僅在"好"智能體對話上訓(xùn)練的模擬器去與從未見過的"壞"智能體交互，測試其能否真實(shí)地表現(xiàn)出沮喪感上升和滿意度下降。若模擬器能做出與真實(shí)人類相似的適應(yīng)性反應(yīng)，說明它真正學(xué)會了人類行為，而非僅僅記憶訓(xùn)練數(shù)據(jù)中的模式。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.