<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      首個用戶生活「長程模擬器」!LifeSim 重新定義大模型個性化評測

      0
      分享至



      近年來,大語言模型(Large Language Model,LLM)在個性化智能助手任務上取得了快速進展,通用 AI 助手的愿景也變得越來越可實現。然而,現有針對個性化助手的評測基準,仍然與真實世界中的用戶-助手交互存在明顯脫節,其局限性主要體現在兩個方面:

      • 復雜外部環境:真實用戶需求并不是脫離環境獨立產生的,而是會受到時間、地點、天氣、生活事件等復雜外部情境的共同影響;
      • 動態用戶認知:用戶意圖往往受到長期偏好、個性特征、近期經歷和當前心理狀態的共同塑造。

      由于真實長期用戶交互數據受到隱私與倫理限制,長時間、跨場景的公開數據極為稀缺,這也使得現有評測難以真正逼近現實中的個性化助手使用場景。

      針對這些挑戰,來自復旦大學、上海創智學院的研究人員提出 LifeSim,一個面向個性化助手評測的長程用戶生活模擬框架。LifeSim 同時建模用戶內部認知過程與外部物理環境,生成連貫的生活軌跡、事件序列與多輪交互行為;在此基礎上,研究團隊進一步構建了 LifeSim-Eval,用于系統評測模型在長期個性化交互中的能力邊界。



      • 論文標題:LifeSim: Long-Horizon User Life Simulator for Personalized Assistant Evaluation
      • 論文地址:https://arxiv.org/abs/2603.12152
      • GitHub 地址:https://github.com/dfy37/lifesim
      • Demo 鏈接:http://fudan-disc.com/lifesim/



      圖 1:基于長程時空上下文的個人 AI 助手。用戶行為會隨外部環境動態演化,同時又體現出穩定的個人特質。要實現有效響應,模型需要在適配當前上下文的同時,利用交互歷史推斷用戶狀態,從而動態調整自身策略。

      融合 BDI 理論的模擬框架:LifeSim

      LifeSim 是面向長期個性化助手評測的用戶生活模擬框架,核心由四部分組成:用戶畫像、基于信念-愿望-意圖(Belief-Desire-Intention,BDI)的認知引擎、基于環境約束的事件引擎、用戶行為引擎。



      圖 2:LifeSim 框架概覽。針對每個目標用戶,其用戶畫像包含人口統計學屬性、人格特質與長期偏好,這些要素共同構成長期信念狀態?;?BDI 模型的認知引擎與事件引擎相結合,將主觀信念狀態與物理環境進行融合,共同生成用戶意圖。隨后,用戶行為引擎通過對記憶感知、情緒推理與行為選擇進行建模,生成對話內容。

      為支持用戶多樣性,LifeSim 構建百萬級用戶畫像池,每個畫像包含人口統計學屬性、基于大五人格的特質及長期偏好。基于 BDI 模型的認知引擎用于模擬用戶內部認知,其中:

      • 信念:涵蓋長期畫像與短期情境認知;
      • 欲望:是當前激發的需求,由真實用戶需求庫匹配而來;
      • 意圖:是最終形成的行動傾向,具體通過結合用戶畫像、近期經歷及當前環境生成合理意圖。

      事件引擎以真實出行軌跡為基礎,融入時間、地點等環境因素,根據用戶狀態生成連貫生活事件,讓用戶需求自然涌現。用戶行為引擎則模擬多輪交互表現,綜合考慮記憶、情緒與行為選擇,生成的回復兼具畫像一致性、上下文相關性與自然度。自動與人工評測驗證了行為引擎的有效性。



      表 1:基于不同模型基座的用戶行為引擎在四個維度上的性能表現。

      更貼近真實世界的評測環境:LifeSim-Eval

      基于 LifeSim,LifeSim-Eval 被提出用于評測長期個性化助手場景下的模型核心能力。區別于傳統評測,其更關注三點:

      • 模型能否識別并滿足顯隱性意圖。其中顯性意圖為用戶直接表達的需求,隱性意圖需結合畫像、場景與偏好推斷;
      • 能否重建用戶畫像;
      • 回復是否符合用戶畫像并保持一致。

      LifeSim-Eval 利用 LifeSim 構建 120 個用戶、1200 個評測場景,覆蓋 8 個常見生活領域,并設置兩種評測模式:

      • 單場景模式:僅基于當前場景,與 LifeSim 中的模擬用戶完成多輪對話(最多 20 輪);
      • 長時程模式:需結合歷史交互響應當前場景。

      核心評測指標包括意圖識別、意圖完成度、偏好重建、畫像對齊,以及回復的自然度與連貫性。

      實驗結果與關鍵發現

      論文在多類主流 LLM 上進行了系統評測,涵蓋 GPT-5、GPT-4o、Claude Sonnet 4.5,以及 DeepSeek-V3.2、Qwen、Llama、gpt-oss 等多個開源 / 閉源模型。實驗揭示出以下幾個核心結論:

      • 顯性意圖較強,隱性意圖明顯更難

      在單場景設置中,大多數模型在顯性意圖識別上表現較好,但在隱性意圖識別上普遍存在超過 20 分的性能差距。這說明當前模型已經較擅長處理用戶直接表達的需求,但對于需要結合上下文和用戶狀態推斷出的潛在需求,能力仍明顯不足。



      表 2:主流模型在 LifeSim-Eval 上的評測結果。

      • 長程對話會進一步放大隱性意圖處理難度

      在長時程設置中,模型對顯性意圖的完成率相對穩定,但對隱性意圖的完成能力明顯更弱,且會隨著歷史長度增加而進一步下降。這表明現有模型雖然能夠在長上下文中維持對表層任務的處理能力,但一旦需要基于長期證據進行用戶狀態與偏好推理,就會出現明顯退化。



      圖 3:不同助手模型的長時序意圖完成性能。熱力圖展示了意圖完成度(I.C.)得分隨對話長度的變化情況。

      • 簡單記憶機制收益有限

      論文進一步測試了畫像記憶機制:在每個場景后,讓模型總結或更新用戶偏好。結果顯示,雖然這種做法對用戶偏好的重建有一定幫助,但整體收益并不穩定,甚至有些模型幾乎沒有提升。這說明長期個性化能力的瓶頸并不只是「記不住」,更在于模型是否具備穩定的長期偏好推理能力。



      圖 4:用戶偏好還原性能隨場景數量增長的變化。

      不同意圖類型和主題上的表現并不均衡



      不同意圖類型下的模型相對性能。



      不同意圖主題下的模型相對性能。

      針對不同意圖類別和主題的實驗結果顯示:在以顯式、任務驅動需求為主的場景,與需要隱式、情感推理的場景之間,模型在顯隱性意圖任務的性能存在明顯差異。這種異質性表明,當前模型在不同服務領域的魯棒性參差不齊,需要我們在個性化助手設計中進行更細粒度的優化。

      • 模型存在三類典型問題

      通過案例分析,論文總結出當前模型在長期個性化助手任務中常見的三類問題:

      • 推理僵化:模型容易固守最初的解決路徑,面對用戶新增約束時缺乏動態調整;
      • 主動追問不足:即便關鍵信息尚不明確,模型也常直接給出建議,而不是主動澄清用戶需求;
      • 用戶畫像利用不足:雖然擁有正確的用戶畫像,但模型不能真正把它們融入回復策略中。



      表 3:各模型的主動詢問占比與僵化推理占比

      總結

      本研究提出了 LifeSim 與 LifeSim-Eval,系統性地將個性化助手評測從靜態、短上下文任務擴展到面向長期用戶生活軌跡的動態交互場景。與傳統基準相比,LifeSim 不僅同時建模用戶認知狀態與物理環境,還進一步引入顯性 / 隱性意圖區分和長程交互設定,從而更真實地刻畫個性化助手在現實生活中的使用挑戰。

      實驗結果表明,當前主流 LLM 雖然已經能夠較好地處理顯性需求,但在隱性意圖識別、用戶偏好重建和長程用戶理解方面仍然存在顯著短板。此外,LifeSim 也提供了接近真實場景的個性化助手模擬環境,也為個性化數據合成提供新途徑。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      西方眼紅了!科威特豪擲300億,將國運全盤托付,指名只要中國干

      西方眼紅了!科威特豪擲300億,將國運全盤托付,指名只要中國干

      閱識
      2026-04-10 10:02:18
      粗獷,讀cū kuàng,還是cū guǎng?這里面有學問!別錯讀丟人!

      粗獷,讀cū kuàng,還是cū guǎng?這里面有學問!別錯讀丟人!

      未央看點
      2026-04-11 00:22:23
      導彈生產技術轉讓給中國!只因三次雪中送炭,美俄看了也“眼紅“

      導彈生產技術轉讓給中國!只因三次雪中送炭,美俄看了也“眼紅“

      芳芳歷史燴
      2026-04-10 20:53:57
      聯盟第1,聯盟第2,聯盟第3!常規賽將收官,聯盟卻遇到棘手難題

      聯盟第1,聯盟第2,聯盟第3!常規賽將收官,聯盟卻遇到棘手難題

      老梁體育漫談
      2026-04-11 00:03:11
      才播4集,就穩居全國收視第一,央視這回又押對寶了!

      才播4集,就穩居全國收視第一,央視這回又押對寶了!

      觀察鑒娛
      2026-04-10 09:38:16
      英媒稱俄軍艦護送受制裁油輪通過英吉利海峽 克宮回應:俄有權自衛防范“海盜行為”

      英媒稱俄軍艦護送受制裁油輪通過英吉利海峽 克宮回應:俄有權自衛防范“海盜行為”

      財聯社
      2026-04-09 19:20:04
      新生代主持李瑜,綠裙赤足展玉足,這清純性感誰頂得???

      新生代主持李瑜,綠裙赤足展玉足,這清純性感誰頂得???

      娛樂領航家
      2026-04-10 21:30:03
      科學家首次見證“猩猩帝國內戰”:首領重傷身亡后群體分裂,兩大幫派血腥殘殺

      科學家首次見證“猩猩帝國內戰”:首領重傷身亡后群體分裂,兩大幫派血腥殘殺

      紅星新聞
      2026-04-10 18:13:29
      三國臭名昭著的4個名人,結果被小說洗白,搖身一變成了正面人物

      三國臭名昭著的4個名人,結果被小說洗白,搖身一變成了正面人物

      銘記歷史呀
      2026-04-07 15:47:12
      蕭旭岑:大陸參訪行程正在推進,返臺后島內官司最終走向如何

      蕭旭岑:大陸參訪行程正在推進,返臺后島內官司最終走向如何

      藍色海邊
      2026-04-10 16:29:55
      外交部10字定調鄭麗文訪陸,白巖松預判果然應驗

      外交部10字定調鄭麗文訪陸,白巖松預判果然應驗

      起喜電影
      2026-04-11 08:39:02
      碎三觀!杭州一院長關燈猥褻女經理被舉報,妻子稱是“國外習慣”

      碎三觀!杭州一院長關燈猥褻女經理被舉報,妻子稱是“國外習慣”

      火山詩話
      2026-04-10 11:45:42
      北京首鋼拒絕輸球!全力擊敗上海隊,麥基對位懷特塞德,央視直播

      北京首鋼拒絕輸球!全力擊敗上海隊,麥基對位懷特塞德,央視直播

      體壇瞎白話
      2026-04-11 08:54:30
      德國總理:絕不允許以色列軍事行動破壞中東和平進程

      德國總理:絕不允許以色列軍事行動破壞中東和平進程

      環球網資訊
      2026-04-10 09:09:08
      令人失望!遼籃神射,29歲,35分鐘0分0板0助,烏戈還是放棄他吧

      令人失望!遼籃神射,29歲,35分鐘0分0板0助,烏戈還是放棄他吧

      萌蘭聊個球
      2026-04-11 09:07:52
      曼聯舊將離世一年,妻子用冷凍胚胎神奇懷孕:他早有預言!

      曼聯舊將離世一年,妻子用冷凍胚胎神奇懷孕:他早有預言!

      仰臥撐FTUer
      2026-04-10 22:26:05
      美股深夜巨震,半導體、存儲股爆發,英特爾周漲近24%,原油期貨大跌,美伊談判今日舉行

      美股深夜巨震,半導體、存儲股爆發,英特爾周漲近24%,原油期貨大跌,美伊談判今日舉行

      21世紀經濟報道
      2026-04-11 07:16:10
      汽柴油“由漲變跌”,大降超0.63元/升,4月21日油價調整,大降中

      汽柴油“由漲變跌”,大降超0.63元/升,4月21日油價調整,大降中

      油價早知道
      2026-04-11 01:24:26
      不用ETC了!5月1日高速新規落地,手機綁車牌全國暢行更省錢

      不用ETC了!5月1日高速新規落地,手機綁車牌全國暢行更省錢

      復轉這些年
      2026-04-09 11:35:16
      江蘇一男子稱還款5年一直未見合同,提前還款才發現房貸利率從3.8%變成8.7%,銀行客服:正抓緊核實,會妥善處理

      江蘇一男子稱還款5年一直未見合同,提前還款才發現房貸利率從3.8%變成8.7%,銀行客服:正抓緊核實,會妥善處理

      大象新聞
      2026-04-10 20:44:05
      2026-04-11 10:07:00
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      12729文章數 142621關注度
      往期回顧 全部

      科技要聞

      三星中國被曝大調整:黑白電、顯示器淡出市場

      頭條要聞

      牛彈琴:伊朗很悲壯 向美國提高了"要價"

      頭條要聞

      牛彈琴:伊朗很悲壯 向美國提高了"要價"

      體育要聞

      17歲賺了一百萬美元,25歲被CBA裁員

      娛樂要聞

      黃景瑜王玉雯否認戀情!聚會細節被扒

      財經要聞

      從日本翻身看:這次誰能扛住高油價?

      汽車要聞

      煥新極氪007/007GT上市 限時19.39萬起

      態度原創

      健康
      房產
      教育
      數碼
      時尚

      干細胞抗衰4大誤區,90%的人都中招

      房產要聞

      28條新規落地!好房子,終于有了“廣州標準”!

      教育要聞

      “窮到吃豆豉,還生呢?”農村家長曬5兒3女,大兒子眼神好可怕

      數碼要聞

      聯想推出2026款來酷斗戰者“戰7000”筆記本,7699元起

      推廣中獎名單-更新至2026年3月31日推廣

      無障礙瀏覽 進入關懷版