<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      大模型「有心了」:首個情感大模型Echo-N1,32B勝過200B

      0
      分享至



      機器之心報道

      機器之心編輯部

      長期以來,大模型圈流傳著一個詛咒:LLM 懂微積分、會寫 Python,但在情感這件事上,它們?nèi)恰钢蹦小埂?/p>

      即使是 GPT-4,在面對人類細膩的情感崩潰時,往往也只能吐出 “多喝熱水”、“別難過,一切都會好起來的” 這種正確的廢話。原因很簡單:「情商」沒有標準答案,傳統(tǒng)的強化學習(RL)根本無從下手。

      但今天,這個詛咒被打破了。

      近日,來自 NatureSelect(自然選擇)的研究團隊 Team Echo發(fā)布了首個情感大模型 Echo-N1,提出了一套全新的「情感模型訓練方法」,成功將 RL 用在了不可驗證的主觀情感領域。

      結(jié)果相當震撼:

      • 僅 32B 參數(shù)的 Echo-N1,在多輪情感陪伴任務中勝率(Success Rate)達到 46.7%。作為對比,擁有千億參數(shù)量的商業(yè)模型 Doubao 1.5 Character,勝率僅為 13.3%。
      • 相比基座模型(Qwen3-32B)0% 的成功率,經(jīng)過 RL 后性能直接起飛,對模型的共情模式帶來了質(zhì)變。
      • 團隊首度提出了「共情的心理物理模型」(EPM),把玄學的「共情」變成了可計算的「物理做功」。



      • 論文標題:Echo-N1: Affective RL Frontier
      • 論文鏈接:https://arxiv.org/pdf/2512.00344v1

      為什么你的 AI 對象總是「聊天終結(jié)者」?

      在數(shù)學和代碼領域,RLHF(基于人類反饋的強化學習)之所以好用,是因為答案非黑即白。但在情感陪伴中,真誠和冒犯、玩笑和油膩,往往只有一線之隔。

      現(xiàn)有的模型(尤其是開源模型)普遍存在三大問題:

      1.無法量化: 用戶一句 「I'm fine」 背后可能藏著崩潰、無奈甚至拒絕溝通,傳統(tǒng)的標量獎勵根本無法有效捕捉這種細微的情緒信號。

      2.Reward Hacking: 模型為了拿高分自然學會了堆砌華麗辭藻,經(jīng)常說些不痛不癢的美麗的廢話,對緩解用戶情緒不僅毫無幫助,甚至可能適得其反。

      3.評測失真: 通過基于 SOTA 閉源模型(GPT-4,Claude-4.5-sonnet,Gemini-2.5-pro)的打分研究不難發(fā)現(xiàn),這些模型自己都分不清什么樣的表達屬于「像人」、什么樣的屬于「像 AI」。

      為了解決這些問題,Team Echo決定推翻現(xiàn)有的 RL 范式,給 AI 裝上一顆真正的「心」

      核心技術:給 RL 裝上「讀心術」



      獎勵模型:告別「打分」,開始「寫評語」

      團隊意識到,僅依賴標量獎勵(Scalar Reward)的信息維度過于單一。

      情感是流動的、細膩的,簡單的數(shù)值反饋難以捕捉用戶在交互中的細膩情感變化,無法有效引導策略模型(Policy Model)對用戶情緒做出合適的共情反饋。

      受 O1、R1 等架構(gòu)在復雜推理任務上成功的啟發(fā),團隊的思考是:情感感知雖然主觀,但本質(zhì)上依然是基于上下文的復雜推理過程,只是思維模式與理科任務有所不同。

      因此,Echo-N1 創(chuàng)新性地提出了生成式獎勵模型(Generative Reward Model)。團隊將思維鏈(CoT)的杠桿效應遷移至獎勵端 —— 獎勵模型在輸出結(jié)果前,必須先生成一段邏輯嚴密的情感推理路徑。在該路徑下,模型需要先對用戶畫像進行深度側(cè)寫,再基于此推導出 “什么樣的回答能引發(fā)共鳴”。通過將隱性的情感判斷過程顯化,模型的判別精度顯著提升,從而實現(xiàn)對策略模型更精細、更準確的反饋引導。

      在這一框架下,團隊通過 RL 訓練了兩種生成式獎勵模型:

      • Humanlike Reward(擬人度獎勵): 旨在消除 “助手味”。它具備上下文感知(Context-aware)能力,能敏銳識別并懲罰那些邏輯不通、或為了湊字數(shù)而生成的 “幻覺” 內(nèi)容,確保回復邏輯自洽且具備「活人感」。
      • Empathy Reward(共情獎勵): 旨在實現(xiàn) User-specific 的深度共情。先根據(jù)歷史上文來推斷用戶的潛在畫像(User Context Mining),再判斷回復是否符合人類認知、情感、動機三種最本質(zhì)的共情需求。由于人類偏好的多樣性,團隊提出了一種「從公理推定理」的新穎范式:將普世價值觀視為 “公理”,將千人千面的個性化需求視為 “定理”,由此出發(fā)設計了一套共情偏好數(shù)據(jù)合成框架。為了校驗自動化管線生成數(shù)據(jù)的可靠性,團隊引入了「人機回環(huán)」驗證機制,通過讓原始標注員對模型推演的用戶畫像與回復策略進行一致性校驗,確保了合成數(shù)據(jù)在 “客觀準確” 與 “主觀共情” 上的高度統(tǒng)一。

      為保證生成式獎勵模型的情感推理路徑的準確性,團隊在訓練中額外引入了過程性獎勵(Process Reward)引導推理路徑的修正。此外,針對 RL 中常見的 Reward Hacking 問題,團隊采用了離散化獎勵(Discrete Rewards)參考答案錨定(Reference Anchoring)的策略。不追求分數(shù)的絕對值膨脹,而是通過與 Reference 對比進行相對優(yōu)劣排序。實驗表明,這些策略相比 Scalar Reward 極大提升了訓練策略模型的穩(wěn)定性。



      評測革命:當「AI 共情」變成可計算的物理模型

      大模型訓練的下半場,靜態(tài)刷榜已經(jīng)沒有意義,未來的決勝關鍵在于「動態(tài)交互」。尤其在情感陪伴這條終極賽道上,現(xiàn)有的 “真空式刷分評測” 根本無法衡量 AI 在長程、復雜的心理博弈中的真實表現(xiàn)。

      為了打破空白和僵局,NatureSelect(自然選擇)的研究團隊首先解決了一個根本性的科學難題:

      如何客觀量化「共情」與「療愈」?

      EPM 情感物理模型 —— 給 “共情” 一把科學標尺

      為了量化對話中復雜的心理博弈,Team Echo 以物理學定律為啟發(fā),結(jié)合認知科學和心理物理法,打造了一套全新的機器共情科學標尺 —— 將抽象的心理療愈,轉(zhuǎn)化為可計算的物理過程。

      • 心理勢能 (Potential Energy): 用戶的痛苦與情緒阻抗不再是模糊的形容詞,而被建模為有待克服的心理「阻力」或高位的「負勢能」。
      • 做功 (Work): AI 的每一次回復,本質(zhì)上都是在對用戶的心理場「施加作用力」,試圖推動其狀態(tài)向良性躍遷。有效共情就是有效做功。
      • 矢量空間 (Vector Space): 這種復雜的作用力被精準分解到可計算的 MDEP 三維心理空間 —— 認知重構(gòu)(C)、情感共鳴(A)、主動賦能(P)。

      有了 EPM,共情效果不再是主觀猜測,而是可視化追蹤的能量軌跡和可計算的物理功

      擬人化認知沙盒 —— 一場關于心智計算的大戲

      人類真實的共情對話,是人類大腦多重認知模塊協(xié)同運作的結(jié)果 ——實時的思考推理、鮮活的情緒反應、聯(lián)想性的記憶檢索,缺一不可。為了讓 AI 真正像人一樣思考和交流,Team Echo 進一步打造了一個 “擬人化認知沙盒”。這是一個由模擬人類 “中央執(zhí)行腦區(qū)” 所統(tǒng)籌的多智能體協(xié)作系統(tǒng),旨在共同演繹出有血有肉的真實互動。

      這個多智能體系統(tǒng)最引人注目的地方,在于其動態(tài)、簡潔、基于環(huán)境反饋的 Function Call 機制。整個系統(tǒng)是一個敏銳的幕后大腦,時刻捕捉著對話中的心理變化和深層情感流動 —— 它會根據(jù)現(xiàn)場情景靈活推理決策、調(diào)配記憶資源、激活特定故事;還能根據(jù)互動反饋,即時調(diào)整策略重點,掌控對話節(jié)奏和結(jié)束時機,確保每一輪交流都充滿新鮮感和挑戰(zhàn)性。憑借這種智能且不可預測的調(diào)度能力,沙盒測試得以真正實現(xiàn)多輪鮮活的復雜心智模擬。

      殘酷的大考:基座模型全面崩塌

      有了這套殘酷而真實的擬人化認知沙盒,我們終于可以對 AI 進行一場前所未有的 “社會共情能力的大考”。

      結(jié)果令人震驚,卻也在意料之中。

      在覆蓋 30 個高難度心理場景的壓力測試下,未經(jīng) post-train 的基座模型 (Qwen3-32B) 全面崩塌,通過率為驚人的 0%。更具揭示性的是 EPM 3D 軌跡圖:基座模型陷入無序的的隨機游走和病態(tài)收斂,它的軌跡幾乎全部指向了負能量區(qū)域 —— 不僅無法提供情感支持,反而讓用戶滋生了更負面的情緒和心理阻抗,在錯誤的道路上越走越遠。

      即便是千億參數(shù)級別的商業(yè)模型Doubao 1.5 Character,在這場嚴苛的測試中也顯得力不從心,成功率僅為13.3%

      這些數(shù)據(jù)充分證明:真實的共情能力,絕非單純堆砌參數(shù)就能涌現(xiàn),它需要專門的、科學的訓練范式



      Echo-N1 的崛起:畫像對齊,溫柔堅定「做功」

      在基座模型全面潰敗的背景下,經(jīng)過情感強化學習 (Affective RL)訓練的Echo-N1 模型,實現(xiàn)了顛覆性的跨越。在同樣的測試中,Echo-N1 的軌跡發(fā)生了根本性的逆轉(zhuǎn),它同時學會了多種畫像對齊的策略,不僅能敏銳地捕捉用戶的情緒落差,還能一步步把用戶從負面泥潭里拉出來,推向良性的心理狀態(tài)。



      在這場殘酷的沙盒大考中,Team Echo 反而拒絕以單一成敗論英雄,而是深入到 “方向?qū)R率” 與 “有效能量投影” 等多維量化指標,透視模型共情策略的真實質(zhì)量與做功效率。

      為了實現(xiàn)物理基準與人文體驗的雙重互證,他們進一步引入 NEE(Narrative & Experience Evaluator) 機制,組織 GPT-4o、Claude-3.5 等頂尖 SOTA 模型專家團進行盲測審視。最終,將嚴謹?shù)奈锢砹炕笜伺c深度的人文體驗評分融為一體,形成證據(jù)閉環(huán):Echo-N1 斬獲了 73.54 分的綜合高分,遠超商業(yè)模型 Doubao 的 42.95 分和基座模型的 29.66 分,有力證明了其在科學精度與人文溫度上的雙重跨越。



      邁向「有溫度」的 AGI

      Echo-N1 的誕生證明:AI 的「情商」并非無法量化,它本質(zhì)上是可以被數(shù)學建模、被 RL 優(yōu)化的硬核能力

      這項研究不僅讓 32B 小模型擁有了越級挑戰(zhàn)千億參數(shù)模型的共情能力,更重要的是,它為 RL 在主觀、不可驗證領域的應用打開了一種新的可能。

      也許很快,你的 AI 伴侶不再只會說些無用的話、冷冰冰地列 To-Do List,而是那個與你超級對齊、能陪你一起面對這個世界不確定性的「靈魂伴侶」。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      太尷尬!某單位一把手調(diào)離,在群里發(fā)臨別感言,整整2天無人回應

      太尷尬!某單位一把手調(diào)離,在群里發(fā)臨別感言,整整2天無人回應

      火山詩話
      2025-08-08 15:17:30
      仇英《江南春》之謎要早日查清,這關乎文博機構(gòu)的公信力|鋒面評論

      仇英《江南春》之謎要早日查清,這關乎文博機構(gòu)的公信力|鋒面評論

      上觀新聞
      2025-12-18 12:27:05
      哈佛研究發(fā)現(xiàn):情緒不好,不是性格問題,是生理問題。

      哈佛研究發(fā)現(xiàn):情緒不好,不是性格問題,是生理問題。

      小卿情感說
      2025-12-01 23:21:49
      花費1億請趙本山代言,成本2毛騙農(nóng)戶200億,創(chuàng)始人被判無期徒刑

      花費1億請趙本山代言,成本2毛騙農(nóng)戶200億,創(chuàng)始人被判無期徒刑

      法老不說教
      2025-12-17 20:08:06
      CCTV5直播,廣東男籃PK廣州龍獅,杜鋒斗法米歇爾,鹿死誰手?

      CCTV5直播,廣東男籃PK廣州龍獅,杜鋒斗法米歇爾,鹿死誰手?

      體壇小快靈
      2025-12-18 16:07:14
      聰明反被聰明誤!本想為女兒鋪路的李湘,卻栽在了何超瓊手里

      聰明反被聰明誤!本想為女兒鋪路的李湘,卻栽在了何超瓊手里

      觀察鑒娛
      2025-12-18 09:43:05
      中央定調(diào),延遲退休實施!男職工2026年1月和5月退休,哪種領的多

      中央定調(diào),延遲退休實施!男職工2026年1月和5月退休,哪種領的多

      八斗小先生
      2025-12-18 14:49:44
      結(jié)束了!朱拉尼宣布重磅消息,敘利亞人狂歡:終于不用提心吊膽了

      結(jié)束了!朱拉尼宣布重磅消息,敘利亞人狂歡:終于不用提心吊膽了

      沈言論
      2025-12-15 16:15:03
      今晚,珠海全市夜查!

      今晚,珠海全市夜查!

      珠海發(fā)布
      2025-12-18 09:41:05
      哈佛大學驚奇發(fā)現(xiàn):壽命和晚飯有關!晚飯吃的越多,活的就越久?

      哈佛大學驚奇發(fā)現(xiàn):壽命和晚飯有關!晚飯吃的越多,活的就越久?

      阿捤武器裝備科普
      2025-12-16 19:00:35
      龍虎局 3:飯店火拼

      龍虎局 3:飯店火拼

      金昔說故事
      2025-12-18 16:25:13
      歷史開了個玩笑,第一個倒下的不是烏克蘭,而是百年中立的瑞士

      歷史開了個玩笑,第一個倒下的不是烏克蘭,而是百年中立的瑞士

      壹知眠羊
      2025-12-15 07:11:38
      A股,兩個利空信號傳來,明天,或?qū)⒂瓉碜儽P大跳水!

      A股,兩個利空信號傳來,明天,或?qū)⒂瓉碜儽P大跳水!

      夜深愛雜談
      2025-12-18 16:46:32
      她靠一部劇吃一輩子,二婚嫁小6歲窮小子,如今丈夫紅到讓人嫉妒

      她靠一部劇吃一輩子,二婚嫁小6歲窮小子,如今丈夫紅到讓人嫉妒

      白面書誏
      2025-12-16 18:30:25
      絲芭傳媒發(fā)“最后告知”:藝人鞠婧祎涉嫌嚴重經(jīng)濟犯罪,將擇日全網(wǎng)公開實名舉報!她剛被曝1.39億元收入,還有每月25萬元固定工資

      絲芭傳媒發(fā)“最后告知”:藝人鞠婧祎涉嫌嚴重經(jīng)濟犯罪,將擇日全網(wǎng)公開實名舉報!她剛被曝1.39億元收入,還有每月25萬元固定工資

      每日經(jīng)濟新聞
      2025-12-18 14:49:08
      中日聯(lián)合國激烈交鋒,日本拒絕認錯,中方再下通牒,要求撤回言論

      中日聯(lián)合國激烈交鋒,日本拒絕認錯,中方再下通牒,要求撤回言論

      起喜電影
      2025-12-18 14:53:49
      高市早苗連續(xù)2天喊話中國,承認自己該反思,希望與中方高層對話

      高市早苗連續(xù)2天喊話中國,承認自己該反思,希望與中方高層對話

      南宮一二
      2025-12-18 13:20:50
      轟22+7奪連勝!中國男籃18歲2米03新星留美爆發(fā):手握4所大學邀約

      轟22+7奪連勝!中國男籃18歲2米03新星留美爆發(fā):手握4所大學邀約

      李喜林籃球絕殺
      2025-12-18 13:38:53
      因商業(yè)環(huán)境惡化,瓜迪奧拉即將永久關閉在曼市開了7年的餐廳

      因商業(yè)環(huán)境惡化,瓜迪奧拉即將永久關閉在曼市開了7年的餐廳

      懂球帝
      2025-12-18 06:43:09
      江蘇一中學原黨總支書記、校長侵吞“校園餐”,9人被處理

      江蘇一中學原黨總支書記、校長侵吞“校園餐”,9人被處理

      環(huán)球網(wǎng)資訊
      2025-12-18 09:25:03
      2025-12-18 18:04:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業(yè)的人工智能媒體
      11947文章數(shù) 142512關注度
      往期回顧 全部

      科技要聞

      2025新一代人工智能創(chuàng)業(yè)大賽

      頭條要聞

      南京博物院稱受贈5幅畫被鑒定為"假" 捐贈者后人回應

      頭條要聞

      南京博物院稱受贈5幅畫被鑒定為"假" 捐贈者后人回應

      體育要聞

      巴黎首奪世界級冠軍 加冕6冠王比肩巴薩拜仁

      娛樂要聞

      絲芭放大招了!實名舉報鞠婧祎經(jīng)濟犯罪

      財經(jīng)要聞

      尹艷林:呼吁加快2.5億新市民落戶進程

      汽車要聞

      在零下30℃的考場里 凡爾賽C5 X和508L拿到了"穩(wěn)"的證明

      態(tài)度原創(chuàng)

      家居
      教育
      數(shù)碼
      公開課
      軍事航空

      家居要聞

      高端私宅 理想隱居圣地

      教育要聞

      有料青年 | 主打吃魚!上海食品專業(yè)位列第一的竟然是上海海洋大學

      數(shù)碼要聞

      PConline 2025智臻科技獎|年度智臻產(chǎn)品:羅技GPW4小狗電競鼠標

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      福建艦入列后首過臺海 臺方談為何"甲板上沒有艦載機"

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 亚洲最大有声小说AV网| 色吊丝免费视频| 午夜福利理论片高清在线| 18禁网站免费无遮挡无码中文| 欧美性猛交xxxx乱大交极品| 广东少妇大战黑人34厘米视频| 99麻豆| 中文字幕熟女| 人妻无码久久| 久久99国内精品自在现线| 中文字幕不卡在线播放| 乱伦A片| 日本女V片| 久久99精品国产99久久6男男| 中文字幕被公侵犯的漂亮人妻| 少妇宾馆粉嫩10p| 欧美+国产+无码+麻豆| 国产精品丝袜黑色高跟鞋| 日本免费一区二区三区在线播放 | 亚州看片| 综合成人亚洲| 国产一区二区亚洲精品| 光棍天堂在线手机播放免费| 亚洲色网导航| 欧美色日本| 国产又色又爽又黄刺激视频| 亚洲成在人线AⅤ中文字幕| 久久草网站| 综合一区亚洲| 国精产品一区一区三区有限公司| 男女性高爱潮免费网站| 富婆熟妇熟女二区三区| 无码人妻丰满熟妇奶水区码| 国产麻豆剧果冻传媒星空视频 | 亚洲一区av无码专区在线观看| 欧美国产综合欧美视频| 精品无码国产污污污免费| 娇小另类XXXHD| 国产乱人偷精品人妻a片| 亚洲va国产va天堂va久久| 亚洲AV无码一二区三区在线播放|