<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      DeepSeek、Gemini誰更能提供情感支持?趣丸×北大來了波動態評估

      0
      分享至



      近日,由趣丸科技與北京大學軟件工程國家工程研究中心共同發表的《Detecting Emotional Dynamic Trajectories: An Evaluation Framework for Emotional Support in Language Models(檢測情感動態軌跡:大語言模型情感支持的評估框架)》論文,獲 AAAI 2026 錄用。

      AAAI 由國際人工智能促進協會(Association for the Advancement of Artificial Intelligence, AAAI)主辦,是人工智能領域極具影響力的國際頂級學術會議之一,也是中國計算機學會(CCF)推薦的 A 類國際學術會議,在全球學術界和工業界具有廣泛影響力。

      本屆會議共收到來自世界各地的投稿摘要 31000 篇,最終錄用 4167 篇,錄用率僅為 17.6%,創歷史新低。

      研究背景

      情感支持是人類與人工智能交互的核心能力,現有的大語言模型(LLMs)評估往往依賴于簡短、靜態的對話,未能捕捉到情感支持的動態和長期性質。

      對于大語言模型情感能力的評價是做好自研的關鍵,團隊分析了情感支持對話(ESC)目前現狀和存在的問題。隨著大語言模型的進步,ESC 已從情緒識別和生成擴展到包括更廣泛的以人為中心的任務,例如角色扮演、心理陪伴以及隨意聊天。開發有效的情緒支持不僅能減少負面情緒,還能通過持續、高質量的互動幫助維持積極的情緒狀態。

      因此,團隊提出了一套全新的、檢測情感動態軌跡的評估框架(簡稱 ETrajEval),用于更加科學、系統地評估大語言模型在長期對話中提供情感支持的能力。



      • 論文地址:https://arxiv.org/abs/2511.09003v1
      • 項目代碼:https://github.com/QuwanAI/ETrajEval

      核心貢獻

      現有的評估方法增進了我們對語言學習模型情感能力的理解,但這些方法存在兩個主要局限性:

      1. 缺乏長期和動態的互動。
      2. 過分強調以模型為中心的響應質量。

      為了更好地評估 LLMs 的情感支持能力,團隊采用以用戶為中心的視角,關注用戶在整個交互過程中的情感軌跡。如果一個模型能夠持續改善并穩定用戶的情緒狀態,則認為該模型具有情感支持能力。

      基于心理學理論,團隊提出的框架解決了以下關鍵問題。

      1. 構建了一個包含 328 個交互環境,以及環境中可能出現的影響人類情緒變化的 1152 個干擾事件,以模擬真實的情緒變化,并評估模型在不斷演變的情境下的適應性。
      2. 利用基于心理學理論的情緒調節策略(例如情境選擇和認知重評)來約束模型響應,從而鼓勵符合已驗證治療原則的支持性行為。
      3. 模擬了涉及重復情緒干擾的長期動態交互。用戶的情緒軌跡被建模為一階馬爾可夫過程,并應用因果調整的情緒估計來實現對情緒狀態的無偏追蹤。

      基于此框架,團隊提出了三個軌跡層面的指標:平均情緒水平 (BEL)、情緒軌跡波動 (ETV) 和情緒質心位置 (ECP)。這些指標共同表征了用戶情緒狀態的動態變化,并可作為評估情緒波動和穩定性的指標。

      這些組件共同構成了一個動態評估框架,該框架由三大支柱組成:評估環境、動態交互和基于情感軌跡的指標



      本文的主要貢獻如下:

      1. 評估建模:提出了一種動態、長期的評估框架,該框架使用馬爾可夫過程和因果調整估計來跟蹤用戶的情感軌跡。它引入了三個軌跡級指標(BEL、ETV 和 ECP),并包含了完整的理論論證。
      2. 數據集:構建了一個包含 328 個情緒情境和 1152 個干擾事件的大規模基準,并使用來自心理學的已驗證的情緒調節策略來約束模型響應。
      3. 實驗驗證:通過對各類當前業界領先的模型進行廣泛評估,發現它們在長期情感支持能力方面存在顯著差異。本評估方法為開發更具情感支持的模型提供了可操作的見解。

      實驗與分析





      BEL 的結果揭示了以下幾個關鍵發現:

      首先,頂級的開源模型和閉源模型在整體情感支持能力方面沒有顯著差異;

      其次,專門為角色扮演設計的模型在維持用戶積極情緒狀態方面并未優于通用型語言學習模型 (LLM)。

      第三,模型在英語對話中展現出比中文對話中顯著更強的長期情感支持能力,大多數模型都能幫助用戶在英語對話中維持更高的平均情緒水平。

      最后,在具體策略應用方面,模型在根據用戶狀態動態調整英語對話策略方面存在不足;相反,在中文對話中,模型引導用戶改變外部環境以改善情緒的策略應用明顯較弱。

      (一)情緒質心位置可視化

      團隊通過比較不同 LLM 的情感質心(根據經驗轉移模型計算得出的預期情感位置),進一步分析了它們的情感引導能力。M 如圖所示,橫軸(Cx) 代表軌跡的整體情緒積極性,而縱軸(Cy?Cx)捕捉了回合間的情緒集中度或一致性。



      上圖結果顯示模型之間存在明顯差異:表現最佳的模型,特別是那些 BEL 和 ETV 得分高的模型,均表現出較高的性能。

      這些數值表明,模型在引導用戶達到積極穩定的情緒狀態方面具有強大的能力。相比之下,質心值較低的模型要么無法維持積極的情緒發展進程,要么用戶情緒軌跡波動性更大。

      值得注意的是,一些針對英語指令進行調整的模型(例如 ChatGPT-4o-Latest、kimi-K2-Preview)的質心定位優于其對應的中文模型,這表明不同語言的預訓練和對齊方式在情緒調節策略上存在差異。

      (二)情緒軌跡可視化

      為了更直觀地理解本文提出的評估框架,團隊針對三種情緒干擾程度(0、1 和 3 次干擾事件)進行了可視化分析。

      下圖揭示了以下幾點:(1)ETV 得分較高的模型能更有效地幫助用戶從低落的情緒狀態中恢復,這印證了團隊之前的論斷。(2)在沒有干擾事件的情況下,這些模型可以在相對較短的時間內將用戶的情緒恢復到中性水平。(3)多次干擾事件會降低情緒恢復的速度;然而,具有更強情緒支持能力的模型對這類干擾表現出更強的抵抗力。



      (三)基于因果增強的情感修正估計



      為了評估本文情感識別模型與人類感知的一致性并驗證所提出的估計校準方法,團隊構建了一個人工標注的多輪對話數據集。該數據集包含近 2000 個中英文多輪對話,這些對話選自 Daily Dialog 和 CPED 語料庫。

      團隊邀請了三位專家標注員,在現有標注的基礎上,對這些對話中每一輪的情感進行二元標注。詳情請參考附錄。如表 3 所示,團隊的研究結果主要體現在兩個方面:

      首先,對比實驗表明,團隊提出的估計校準方法能夠有效降低混雜因素的影響,從而提升模型的情感識別能力。應用本文提出的無偏估計方法后,不同模型的情感識別性能均得到提升。值得注意的是,與其他現有模型相比,本文的方法達到了目前最先進的水平。

      其次,本文的評估模型結合校準方法,與人類判斷具有高度一致性,在中文對話上的準確率達到 75%,在英文對話上的準確率達到 90%。

      總結

      本文提出了一種情感動態軌跡分析框架,用于評估語言模型的情感支持能力。該框架的核心在于模擬真實的用戶 - 模型交互過程,通過構建背景上下文、引入多策略約束以及融入事件驅動的擾動來引導交互。

      團隊從三個角度設計了動態軌跡分析的評價指標,并利用因果推斷來校準評估結果。實驗結果表明,本文方法能夠更全面、多維度地評估模型的情感支持能力,且與人類評估結果高度一致。

      團隊還帶來了其他幾個關聯開源項目,歡迎交流與體驗:

      測評體系和框架:PQAEF

      • https://github.com/QuwanAI/PQAEF

      情感陪伴能力測評基準和數據集:MoodBench

      • https://github.com/QuwanAI/MoodBench
      • https://huggingface.co/datasets/Quwan/MoodBench
      • https://www.modelscope.cn/datasets/QuwanAI/MoodBench

      趣丸開天情感陪伴大模型(8b)

      • https://modelscope.cn/models/QuwanAI/quwan-ktian-8b-0922/summary
      • https://huggingface.co/Quwan/quwan-ktian-8b-0922

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      哇塞!曹駿舒暢官宣喜訊,藍盈瑩已難追上他們步伐

      哇塞!曹駿舒暢官宣喜訊,藍盈瑩已難追上他們步伐

      鑫鑫愛吃糖
      2025-12-17 18:30:51
      柬軍不給洪森家族拼命?丟棄上百萬美元我國第五代導彈:成群逃跑

      柬軍不給洪森家族拼命?丟棄上百萬美元我國第五代導彈:成群逃跑

      科普100克克
      2025-12-16 16:27:58
      向華強77歲壽宴好簡樸!喝六瓶洋酒沒鮑魚龍蝦,向佑未露面引爭議

      向華強77歲壽宴好簡樸!喝六瓶洋酒沒鮑魚龍蝦,向佑未露面引爭議

      娛圈小愚
      2025-12-18 10:32:53
      咱們不打算繼續等下去了,王毅外長直言:我們有權對日本進行清算

      咱們不打算繼續等下去了,王毅外長直言:我們有權對日本進行清算

      扶蘇聊歷史
      2025-12-17 15:24:00
      烏法馬克思主義小組成員遭重判 最長刑期22年送嚴管監獄

      烏法馬克思主義小組成員遭重判 最長刑期22年送嚴管監獄

      老馬拉車莫少裝
      2025-12-17 15:45:26
      德媒:德總理擬動用俄央行在德凍結資產援烏

      德媒:德總理擬動用俄央行在德凍結資產援烏

      新華社
      2025-12-19 04:00:04
      張雨綺“換臉”引熱議:面相全變了,讓人差點認不出來

      張雨綺“換臉”引熱議:面相全變了,讓人差點認不出來

      公子麥少
      2025-12-18 20:13:37
      國家文物局:正在查“8800萬藏品被拍賣”,南京博物館“遺漏”?

      國家文物局:正在查“8800萬藏品被拍賣”,南京博物館“遺漏”?

      奇思妙想草葉君
      2025-12-18 23:51:37
      19分鐘傷退!曼城天才慘變玻璃人 對陣紐卡驚艷一擊或成永遠回憶

      19分鐘傷退!曼城天才慘變玻璃人 對陣紐卡驚艷一擊或成永遠回憶

      雪狼侃體育
      2025-12-18 14:15:44
      活久見!真要開倒車了:手機、電腦的內存,明年會變小了

      活久見!真要開倒車了:手機、電腦的內存,明年會變小了

      互聯網.亂侃秀
      2025-12-16 11:56:53
      熱搜第一!業內曝陳曉陳妍希離婚原因,玩的花,冷暴力,很不簡單

      熱搜第一!業內曝陳曉陳妍希離婚原因,玩的花,冷暴力,很不簡單

      叨嘮
      2025-12-19 04:43:35
      孟晚舟也沒想到,央劇《老舅》播出僅2天,姚安娜竟實現口碑逆轉

      孟晚舟也沒想到,央劇《老舅》播出僅2天,姚安娜竟實現口碑逆轉

      觀察鑒娛
      2025-12-18 09:47:35
      魏建軍炮轟一體化壓鑄,理想負責人逐條反駁

      魏建軍炮轟一體化壓鑄,理想負責人逐條反駁

      鳳凰網財經
      2025-12-18 15:25:07
      七旬老人燒瓷50年無人問津,孫子隨手送岳父,岳父看后:不敢收

      七旬老人燒瓷50年無人問津,孫子隨手送岳父,岳父看后:不敢收

      溫情郵局
      2025-12-01 15:19:48
      回顧64歲大媽不自愛,一月住院6次,兒女得知后無人去看望

      回顧64歲大媽不自愛,一月住院6次,兒女得知后無人去看望

      就一點
      2025-12-19 00:00:29
      拉夫羅夫立下大功,揪出了普京身邊“內鬼”,特朗普這次不打自招

      拉夫羅夫立下大功,揪出了普京身邊“內鬼”,特朗普這次不打自招

      領悟看世界
      2025-12-19 01:40:59
      醫學生:不是臨床死于2025,而是整個醫療系統開始崩盤了

      醫學生:不是臨床死于2025,而是整個醫療系統開始崩盤了

      書中自有顏如玉
      2025-12-17 14:12:07
      南博盜賣國寶級文物!失蹤5件寶藏黑幕重重!新書記能否理舊賬?

      南博盜賣國寶級文物!失蹤5件寶藏黑幕重重!新書記能否理舊賬?

      大江看潮
      2025-12-18 21:39:11
      千億半導體設備龍頭,重要收購!股票停牌

      千億半導體設備龍頭,重要收購!股票停牌

      中國基金報
      2025-12-18 22:29:00
      大瓜!曝李湘前夫李厚霖被抓,兄妹受牽連,開直播還數10億債務

      大瓜!曝李湘前夫李厚霖被抓,兄妹受牽連,開直播還數10億債務

      丁丁鯉史紀
      2025-12-18 15:27:31
      2025-12-19 05:47:00
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      11950文章數 142513關注度
      往期回顧 全部

      科技要聞

      2025新一代人工智能創業大賽總決賽收官

      頭條要聞

      iPhone內存用完就壞了嗎 蘋果客服回應

      頭條要聞

      iPhone內存用完就壞了嗎 蘋果客服回應

      體育要聞

      紐約尼克斯,板正的球隊

      娛樂要聞

      絲芭放大招了!實名舉報鞠婧祎經濟犯罪

      財經要聞

      尹艷林:呼吁加快2.5億新市民落戶進程

      汽車要聞

      在零下30℃的考場里 凡爾賽C5 X和508L拿到了"穩"的證明

      態度原創

      數碼
      教育
      親子
      房產
      公開課

      數碼要聞

      LG新一代車用屏下攝像頭將亮相CES 2026,畫質達非屏下產品99%

      教育要聞

      新文科適合誰學?揭秘3類人成就跨界精英!

      親子要聞

      這些兒童常用藥,有娃的家庭趕緊備起來

      房產要聞

      搶藏瘋潮!封關時代,??陧斏萃跽▔狠S,傳世資產即刻登場!

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 汽车| 亚洲日产韩国一二三四区| 成人AV无码一区二区三区| 国产XXX| 三级91| 无码人妻AⅤ一区二区三区用会员| 亚洲最新无码中文字幕久久| 26uuu另类亚洲欧美日本| 欧美大胆老熟妇乱子伦视频| Av一区二区三区| 阿克苏市| 99国产精品99久久久久久| 国产精品久久久久久爽爽爽床戏 | 亚洲熟女豪乳视频| 亚洲制服人妻| 亚洲免费观看在线视频| 中文字幕在线日韩一区| 亚洲熟女性视频| 日韩熟女AV| 2020精品国产自在现线看| 亚洲综合精品第一页| 岛国一区| 亚洲伊人影院| 99精品无码一区二区| 毛片网站在线观看| 91.www| 国产性色av高清在线观看| 免费无码又爽又刺激高潮的视频| 麻豆一区二区中文字幕| 沿河| 欧美视频网站www色| 午夜国产精品福利一二| 欧美福利一区| 亚洲一卡二卡精久久| 无套内谢孕妇毛片免费看看 | 中文字幕精品人妻| 色欲二区| 亚洲码欧美码一区二区三区| 亚洲国产一区二区三区最新| 五月丁香六月| 欧美一区二区三区性视频|