<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      ConvApparel:量化并彌合用戶模擬器的真實(shí)性差距

      0
      分享至


      我們推出了ConvApparel——一個全新的人機(jī)對話數(shù)據(jù)集,以及一套用于量化大語言模型用戶模擬器"真實(shí)性差距"的綜合評估框架,旨在提升對話智能體的訓(xùn)練效果。

      現(xiàn)代對話式AI智能體通常能夠處理復(fù)雜的多輪任務(wù),例如主動提問以澄清用戶意圖,以及為用戶提供主動幫助。然而,面對較長的交互過程,這類系統(tǒng)往往表現(xiàn)不佳,容易忽略限制條件或給出無關(guān)緊要的回復(fù)。持續(xù)改進(jìn)這些系統(tǒng)需要不斷訓(xùn)練和反饋,但依賴真人測試這一"黃金標(biāo)準(zhǔn)"成本高昂、耗時較長,且難以大規(guī)模推廣。

      作為一種可擴(kuò)展的替代方案,AI研究社區(qū)越來越多地轉(zhuǎn)向用戶模擬器——即明確指示其扮演人類用戶角色的大語言模型智能體。然而,現(xiàn)代基于大語言模型的模擬器仍然存在明顯的真實(shí)性差距:它們往往表現(xiàn)出異常的耐心,或具備不符合實(shí)際的、近乎百科全書式的領(lǐng)域知識。這就好比飛行員使用飛行模擬器訓(xùn)練:最好的模擬器應(yīng)盡可能真實(shí),包含不可預(yù)測的天氣、突如其來的陣風(fēng),甚至偶爾發(fā)生的鳥擊事故。要彌合大語言模型用戶模擬器的真實(shí)性差距,首先需要將其量化。

      在我們近期發(fā)布的論文中,我們介紹了ConvApparel——一個專為此目標(biāo)設(shè)計的人機(jī)對話新數(shù)據(jù)集。ConvApparel能夠揭示當(dāng)前用戶模擬中隱藏的缺陷,并為構(gòu)建值得信賴的AI測試工具提供可行路徑。為了捕捉從滿意到極度不滿的完整人類行為譜系,我們采用了一種獨(dú)特的雙智能體數(shù)據(jù)收集協(xié)議:參與者被隨機(jī)分配至一個樂于助人的"好"智能體,或一個故意表現(xiàn)不佳的"壞"智能體。這一實(shí)驗設(shè)置結(jié)合了三支柱驗證策略——群體級統(tǒng)計、人類相似度評分以及反事實(shí)驗證——使我們能夠超越簡單的表層模仿。

      基于大語言模型的用戶模擬器往往表現(xiàn)出與真實(shí)人類交互系統(tǒng)性偏差的行為,例如過度冗長、缺乏一致的角色設(shè)定、無法表達(dá)連貫的偏好、知識儲備不切實(shí)際,以及缺乏合理的耐心底線。由于大多數(shù)大語言模型在訓(xùn)練時的目標(biāo)是成為出色的助手,因此當(dāng)它們被要求扮演容易沮喪、并非完美的人類用戶時,表現(xiàn)不佳也就不足為奇。如果我們僅用這些不真實(shí)的模擬器來訓(xùn)練對話智能體,那么它們在面對真實(shí)用戶時極有可能失敗。

      利用真實(shí)用戶行為來訓(xùn)練模擬器是一種有效的方法。然而,一個真正真實(shí)的模擬器不僅應(yīng)反映訓(xùn)練數(shù)據(jù)中的行為,還應(yīng)能對未見過的新情境(例如新的對話智能體策略)做出合理反應(yīng)。這一點(diǎn)至關(guān)重要,因為模擬器的主要目標(biāo)之一是幫助改進(jìn)智能體,其中通常包括對與訓(xùn)練數(shù)據(jù)差異顯著的新智能體進(jìn)行實(shí)驗。一個過度擬合訓(xùn)練數(shù)據(jù)的模擬器,對于測試全新的、未經(jīng)驗證的AI智能體毫無用處。這引出了一個關(guān)鍵的方法論挑戰(zhàn):我們?nèi)绾螠y試模擬器的適應(yīng)能力?

      為解決這一問題,我們引入了反事實(shí)驗證的概念:如果模擬用戶遇到一個令人沮喪的系統(tǒng)——與它在訓(xùn)練中接觸過的那些友好系統(tǒng)截然不同——它會作何反應(yīng)?通過評估模擬器在面對意外出現(xiàn)的"壞"對話智能體時的表現(xiàn),我們可以判斷它們是否真正學(xué)會了合理的人類行為,還是只是在盲目重復(fù)訓(xùn)練模式。

      反事實(shí)驗證旨在測試用戶模擬器面對分布外的助手行為時,能否做出真實(shí)的適應(yīng)性反應(yīng)。

      對話推薦系統(tǒng)(CRS)是對話式AI智能體最具前景的應(yīng)用場景之一,在這類系統(tǒng)中,AI智能體充當(dāng)復(fù)雜的決策支持工具,能夠進(jìn)行深度推理并提供個性化指導(dǎo)。為了建立CRS中人類行為的基準(zhǔn),并實(shí)現(xiàn)上述反事實(shí)驗證,我們構(gòu)建了ConvApparel數(shù)據(jù)集——該數(shù)據(jù)集包含4000余條人機(jī)多輪對話(共計近15000輪),聚焦于服裝購物領(lǐng)域。

      ConvApparel的獨(dú)特之處在于其雙智能體數(shù)據(jù)收集協(xié)議。參與者并不知情,他們的購物請求被隨機(jī)分配至兩種截然不同的AI推薦系統(tǒng)之一:一個表現(xiàn)良好的"好"智能體和一個故意設(shè)計為表現(xiàn)不佳的"壞"智能體。這一雙智能體實(shí)驗設(shè)計是ConvApparel的核心特色,它提供了兩種不同的受控環(huán)境,捕捉了從愉悅到極度不滿的廣泛用戶體驗。此外,ConvApparel還包含細(xì)粒度的逐輪標(biāo)注。我們要求參與者在每輪對話結(jié)束后,回顧并報告自己的內(nèi)心狀態(tài),包括滿意度、沮喪感和購買意愿,從而提供了一份罕見的第一人稱用戶體驗真值數(shù)據(jù)集,為驗證實(shí)驗設(shè)置和模擬行為提供了重要依據(jù)。

      基于這一豐富數(shù)據(jù)集,我們建立了一套由三大支柱構(gòu)成的綜合數(shù)據(jù)驅(qū)動框架,用于評估模擬器的逼真度,并對三種模擬器進(jìn)行了比較:提示式模擬器(Prompted)、上下文學(xué)習(xí)模擬器(ICL)以及監(jiān)督微調(diào)模擬器(SFT)。

      群體級統(tǒng)計對齊:將真實(shí)用戶與模擬交互在總體行為分布(如話語長度)上進(jìn)行比較。

      人類相似度評分:為捕捉細(xì)微的風(fēng)格差異,我們訓(xùn)練了一個自動判別器,基于人類與模擬對話的混合數(shù)據(jù),輸出一個反映對話"人類感"的單一概率評分。

      人類相似度評分(HLS)利用訓(xùn)練好的判別器,檢測真實(shí)對話與合成對話之間細(xì)微的風(fēng)格差異。

      反事實(shí)驗證:利用雙智能體數(shù)據(jù),我們僅基于與"好"智能體的對話來訓(xùn)練模擬器,再讓其與未見過的"壞"智能體進(jìn)行交互。高逼真度的模擬器應(yīng)能自然地做出調(diào)整,在沮喪感上呈現(xiàn)出與真實(shí)人類相似的顯著上升,以及滿意度的明顯下降。

      ConvApparel框架將雙智能體數(shù)據(jù)收集協(xié)議與三支柱驗證策略相結(jié)合,有效衡量模擬器的真實(shí)性。

      我們將三支柱評估框架應(yīng)用于三種基于Gemini模型系列構(gòu)建的大語言模型用戶模擬器:一是提示式模擬器,僅依賴高層次行為指令,無需專項訓(xùn)練;二是上下文學(xué)習(xí)(ICL)模擬器,利用檢索增強(qiáng)生成技術(shù),在每一輪交互中為模型提供來自ConvApparel的語義相似人類對話示例;三是監(jiān)督微調(diào)(SFT)模擬器,通過直接在ConvApparel人機(jī)對話記錄上對Gemini 2.5 Flash模型進(jìn)行微調(diào),使其行為與目標(biāo)人群高度對齊。

      每種模擬器各生成600條對話,其中300條與"好"智能體交互,300條與"壞"智能體交互,以便與人類基準(zhǔn)進(jìn)行對比。

      為保障研究的倫理完整性,我們對所有參與者保持完全透明,并給予公平報酬。評估人員均為簽署了知情同意書的付費(fèi)承包商,所獲薪酬高于其所在國家的生活工資標(biāo)準(zhǔn)。此外,我們明確要求參與者以真實(shí)購買意愿使用推薦系統(tǒng),并告知所有參與者,他們正在與一個仍處于開發(fā)階段的實(shí)驗性原型進(jìn)行交互,并特別說明該系統(tǒng)可能存在表現(xiàn)欠佳的情況。

      我們的實(shí)驗得出了若干重要發(fā)現(xiàn):

      在人類相似度評分方面,經(jīng)過訓(xùn)練的判別器能夠以極高的置信度將幾乎所有模擬對話識別為合成內(nèi)容。即便是我們最優(yōu)秀的SFT模型,仍會產(chǎn)生細(xì)微的人工痕跡——例如無懈可擊的語法和過于規(guī)律的輪次切換——從而暴露出其"合成"本質(zhì)。

      在群體級測試中,數(shù)據(jù)驅(qū)動型模擬器(ICL和SFT)的表現(xiàn)始終優(yōu)于簡單的提示式基線,在話語長度和推薦接受率等行為分布上與人類高度吻合;然而,嚴(yán)格的統(tǒng)計檢驗顯示,即便是這些較優(yōu)的模擬器,仍存在持續(xù)的真實(shí)性差距。

      在與令人沮喪的"壞"智能體交互時,提示式基線基本無法適應(yīng),行為依然異常禮貌和耐心。而數(shù)據(jù)驅(qū)動型的ICL和SFT模擬器則表現(xiàn)出了出色的分布外泛化能力。盡管從未在訓(xùn)練數(shù)據(jù)中見過"壞"智能體,它們?nèi)阅苷鎸?shí)地調(diào)整自身行為,表現(xiàn)出明顯更高的模擬沮喪感與拒絕傾向。

      構(gòu)建可靠的用戶模擬器是開發(fā)下一代健壯、有益且高效對話AI的基礎(chǔ)性工作。我們的研究表明,盡管基于大語言模型的用戶模擬器前景廣闊,但盲目依賴它們存在重大風(fēng)險。"真實(shí)性差距"依然存在,若將AI智能體優(yōu)化為僅取悅于不真實(shí)的模擬器,可能會損害其在真實(shí)世界中的實(shí)際表現(xiàn)。

      通過引入ConvApparel數(shù)據(jù)集和三支柱驗證框架,我們?yōu)檠芯可鐓^(qū)提供了嚴(yán)格衡量并最終彌合這一差距所需的工具。反事實(shí)驗證證明,我們必須超越表層模仿,確保模擬器能夠真實(shí)地適應(yīng)新穎的對話動態(tài)。我們誠邀研究人員和開發(fā)者探索ConvApparel數(shù)據(jù)集,并利用我們的框架,為對話AI的未來構(gòu)建可靠的合成用戶。

      盡管我們的實(shí)驗表明數(shù)據(jù)驅(qū)動型模擬器遠(yuǎn)優(yōu)于提示式模擬器,但創(chuàng)建高度真實(shí)的人工用戶仍是一項尚未完全解決的挑戰(zhàn)。我們的框架能夠有效衡量真實(shí)性差距,但要確定訓(xùn)練出健壯對話智能體所需的精確逼真度閾值,目前仍是一個開放性問題。

      未來的工作應(yīng)聚焦于利用這些高逼真度模擬器從零開始訓(xùn)練和優(yōu)化CRS智能體,并衡量其在真實(shí)世界中的最終表現(xiàn)。打通這一完整閉環(huán),將使我們最終能夠量化構(gòu)建有效、用戶就緒的AI系統(tǒng)所需的"人類相似度"程度。

      本研究由以下合著者共同完成:Krisztian Balog、Avi Caciularu、Guy Tennenholtz、Jihwan Jeong、Amir Globerson 和 Craig Boutilier。

      Q&A

      Q1:ConvApparel數(shù)據(jù)集是什么,有什么特別之處?

      A:ConvApparel是一個包含4000余條人機(jī)多輪對話(近15000輪)的服裝購物領(lǐng)域數(shù)據(jù)集。其最大特色是采用雙智能體數(shù)據(jù)收集協(xié)議:參與者在不知情的情況下,被隨機(jī)分配與"好"智能體或"壞"智能體交互,從而捕捉從滿意到極度不滿的完整用戶行為譜系,并配有逐輪的滿意度、沮喪感等細(xì)粒度標(biāo)注。

      Q2:什么是用戶模擬器的"真實(shí)性差距",為什么重要?

      A:真實(shí)性差距指的是大語言模型用戶模擬器的行為與真實(shí)人類用戶之間的系統(tǒng)性偏差,例如過度冗長、異常耐心、知識儲備不切實(shí)際等。如果用不真實(shí)的模擬器來訓(xùn)練對話AI智能體,該智能體在面對真實(shí)用戶時可能表現(xiàn)不佳,因此量化并彌合這一差距對提升AI實(shí)際應(yīng)用效果至關(guān)重要。

      Q3:反事實(shí)驗證是什么,如何檢驗?zāi)M器質(zhì)量?

      A:反事實(shí)驗證是一種評估方法,讓僅在"好"智能體對話上訓(xùn)練的模擬器去與從未見過的"壞"智能體交互,測試其能否真實(shí)地表現(xiàn)出沮喪感上升和滿意度下降。若模擬器能做出與真實(shí)人類相似的適應(yīng)性反應(yīng),說明它真正學(xué)會了人類行為,而非僅僅記憶訓(xùn)練數(shù)據(jù)中的模式。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      訪陸第4天,鄭麗文見到最想見的人!閉門會談1小時,大陸4點(diǎn)建議

      訪陸第4天,鄭麗文見到最想見的人!閉門會談1小時,大陸4點(diǎn)建議

      墜入二次元的海洋
      2026-04-11 04:19:10
      你敢拖船,我就動手!菲軍已做開戰(zhàn)準(zhǔn)備,中國強(qiáng)拖菲艦就是導(dǎo)火索?

      你敢拖船,我就動手!菲軍已做開戰(zhàn)準(zhǔn)備,中國強(qiáng)拖菲艦就是導(dǎo)火索?

      明月史說
      2026-04-11 00:18:27
      高市攤牌了,東京降級對華關(guān)系,并通告全球:中國欠日本兩筆賬

      高市攤牌了,東京降級對華關(guān)系,并通告全球:中國欠日本兩筆賬

      近史博覽
      2026-04-11 01:09:05
      陪玩陪睡都是毛毛雨!王思聰前女友曝“丑聞”,王家徹底坐不住了

      陪玩陪睡都是毛毛雨!王思聰前女友曝“丑聞”,王家徹底坐不住了

      一窺究竟
      2026-04-10 04:24:44
      長公主被家暴流產(chǎn)了

      長公主被家暴流產(chǎn)了

      毒舌扒姨太
      2026-04-08 22:29:19
      1公里“開出”5000元車費(fèi)?上海警方:20名網(wǎng)約車司機(jī)落網(wǎng)

      1公里“開出”5000元車費(fèi)?上海警方:20名網(wǎng)約車司機(jī)落網(wǎng)

      新民晚報
      2026-04-10 15:51:04
      綠營將“追殺”鄭麗文,爆料稱高層交代不放過一人,直到達(dá)成目的

      綠營將“追殺”鄭麗文,爆料稱高層交代不放過一人,直到達(dá)成目的

      諦聽骨語本尊
      2026-04-10 18:30:15
      欣旺達(dá)成為特斯拉供應(yīng)商!

      欣旺達(dá)成為特斯拉供應(yīng)商!

      電動知家
      2026-04-10 09:22:44
      網(wǎng)上大量的自媒體,你們已經(jīng)變成伊朗宣傳部中國分部了么?

      網(wǎng)上大量的自媒體,你們已經(jīng)變成伊朗宣傳部中國分部了么?

      世界圈
      2026-04-10 13:15:02
      花200元買水果被罵吃死你,懷孕妻子心寒不欲生子,已入冷靜期!

      花200元買水果被罵吃死你,懷孕妻子心寒不欲生子,已入冷靜期!

      川渝視覺
      2026-04-10 15:59:55
      中國學(xué)霸赴美淪為妓女,嫁給白人賭鬼,說美國是世界上最棒的國家

      中國學(xué)霸赴美淪為妓女,嫁給白人賭鬼,說美國是世界上最棒的國家

      蕭鮖記錄風(fēng)土人情
      2026-04-09 19:33:39
      震驚!老師下班買杯奶茶,竟被家長深夜追責(zé),一段聊天記錄炸鍋了

      震驚!老師下班買杯奶茶,竟被家長深夜追責(zé),一段聊天記錄炸鍋了

      火山詩話
      2026-04-08 07:24:29
      民進(jìn)黨,極有可能在下一屆臺灣地區(qū)選舉后,成為長期一家獨(dú)大政黨

      民進(jìn)黨,極有可能在下一屆臺灣地區(qū)選舉后,成為長期一家獨(dú)大政黨

      李橑在北漂
      2026-04-02 10:22:26
      我只堅持:“左倍量抄底,右倍量逃頂”,幾乎吃掉全部持倉漲幅!

      我只堅持:“左倍量抄底,右倍量逃頂”,幾乎吃掉全部持倉漲幅!

      股經(jīng)縱橫談
      2026-04-10 17:19:16
      可能創(chuàng)下50萬元級新銷量記錄,蔚來ES9,領(lǐng)先同行1年?

      可能創(chuàng)下50萬元級新銷量記錄,蔚來ES9,領(lǐng)先同行1年?

      路咖汽車
      2026-04-10 15:49:47
      33歲男子4年前車禍身亡,近90萬賠償家屬僅拿到30萬,肇事車買的是“安全統(tǒng)籌”導(dǎo)致維權(quán)難

      33歲男子4年前車禍身亡,近90萬賠償家屬僅拿到30萬,肇事車買的是“安全統(tǒng)籌”導(dǎo)致維權(quán)難

      大風(fēng)新聞
      2026-04-10 23:07:04
      金價大反轉(zhuǎn)

      金價大反轉(zhuǎn)

      新浪財經(jīng)
      2026-04-10 18:52:09
      “我女兒敢這樣,腿給砸斷”,寶媽曬2個女兒出門,裝束讓人怒了

      “我女兒敢這樣,腿給砸斷”,寶媽曬2個女兒出門,裝束讓人怒了

      蝴蝶花雨話教育
      2026-04-10 13:01:09
      宋慶齡愛女隋永清離世,常年煙不離手,68歲結(jié)局令人痛心

      宋慶齡愛女隋永清離世,常年煙不離手,68歲結(jié)局令人痛心

      TVB的四小花
      2026-02-28 11:30:39
      中國通用技術(shù)(集團(tuán))原總經(jīng)理助理李克全接受監(jiān)察調(diào)查

      中國通用技術(shù)(集團(tuán))原總經(jīng)理助理李克全接受監(jiān)察調(diào)查

      界面新聞
      2026-04-10 10:01:37
      2026-04-11 07:11:00
      至頂頭條 incentive-icons
      至頂頭條
      記錄和推動數(shù)字化創(chuàng)新
      17586文章數(shù) 49697關(guān)注度
      往期回顧 全部

      科技要聞

      馬斯克狂發(fā)大火箭也養(yǎng)不起AI 年虧50億美元

      頭條要聞

      73歲騎友抄近路摔倒身亡 女兒:賠償問題無法達(dá)成共識

      頭條要聞

      73歲騎友抄近路摔倒身亡 女兒:賠償問題無法達(dá)成共識

      體育要聞

      17歲賺了一百萬美元,25歲被CBA裁員

      娛樂要聞

      黃景瑜王玉雯否認(rèn)戀情!聚會細(xì)節(jié)被扒

      財經(jīng)要聞

      李強(qiáng)主持召開經(jīng)濟(jì)形勢專家和企業(yè)家座談會

      汽車要聞

      搭載第二代刀片電池及閃充技術(shù) 騰勢N8L閃充版預(yù)售35萬起

      態(tài)度原創(chuàng)

      藝術(shù)
      手機(jī)
      數(shù)碼
      房產(chǎn)
      親子

      藝術(shù)要聞

      曾熙『仿思翁山水冊』

      手機(jī)要聞

      折疊屏iPhone還沒發(fā),假開箱視頻已經(jīng)騙過一大片人!

      數(shù)碼要聞

      聯(lián)想推出2026款來酷斗戰(zhàn)者“戰(zhàn)7000”筆記本,7699元起

      房產(chǎn)要聞

      28條新規(guī)落地!好房子,終于有了“廣州標(biāo)準(zhǔn)”!

      親子要聞

      時間會融化所有尖銳,只剩平靜

      無障礙瀏覽 進(jìn)入關(guān)懷版