<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      告別復雜提示詞!螞蟻新方式讓AI自動理解你的個性化需求

      0
      分享至

      AntResearchNLP團隊 投稿
      量子位 | 公眾號 QbitAI

      相信大家都有這樣一個體驗。

      跟AI無論什么對話,感覺都是說空話套話。





      有時候為了讓AI懂自己,許多用戶甚至不得不學習復雜的“提示詞技巧”,手動編寫長長的指令,像是在給AI做“崗前培訓”。



      那么如何實現高情商AI?螞蟻通用人工智能研究中心自然語言處理實驗室提出了一個叫AlignXplore的方法——

      通過強化學習,AlignXplore能夠通過深度思考從用戶行為中歸納出他/她的偏好,并且這種對人類偏好的洞察可以隨著用戶行為的變化而動態更新。

      更有趣的是,當把歸納好的偏好描述遷移到一個下游對齊模型時,能夠讓這個模型的個性化對齊能力得到顯著提升。



      如何讓AI真正懂你?

      如何讓AI真正“懂”你?我們需要讓AI從一個“規則執行者”進化成一個“模式發現者”。

      這意味著,它要掌握一種被認為是人類智慧核心的能力——歸納推理(Inductive Reasoning)。


      △“千人一面”的對齊方式無法滿足用戶多樣的個性化需求,紅字藍

      事實上,AI早已對演繹推理(Deductive Reasoning)駕輕就熟,具備令人驚嘆的數學解題和代碼編寫能力。

      你給它一個確定的前提(如“求解二次方程 ax2+bx+c=0”)和一套不變的規則(求根公式),它就能通過一步步嚴密的邏輯推演,給出一個唯一、可驗證的正確答案。這是一個典型的“自上而下”(Top-Down)的過程:從普適的公理或規則出發,推導出一個具體的、必然的結論。 在這個世界里,沒有模糊地帶,只有對與錯。

      而歸納推理則完全相反,它是一個自下而上(Bottom-Up)的過程:它沒有預設的“個人說明書”。它的“線索”就是你的每一個行為: 你追問了什么問題,說明你關心什么;你跳過了哪個回答,說明你不喜歡什么風格;你對哪個笑話點了贊,暴露了你的幽默感。它的“任務”就是從這些海量的、碎片化的行為數據中,提煉出專屬于你的互動模式與偏好規律。通過歸納推理,AI有潛力成為你的“知心姐姐”,主動拼湊出一個完整的你。

      舉個例子,讓我們來扮演一次AI知心姐姐,看看它是如何通過兩次看似無關的對話,就精準捕捉到你的“潛臺詞”的:

      • 第一次交互:你問“什么是人工智能?它在商業和生活中是怎么用的?”。AI會立刻開始在幕后推理你的偏好:“你可能對AI技術有特別的興趣,但似乎更關心實際應用,也許是商業導向”。
      • 第二次交互:你想學習冥想,在兩個候選回答中,你選擇了提供具體步驟的那個,而不是闡述冥想哲學的回答。AI會立刻更新它對你偏好的理解:“你的偏好是獲取能解決眼前需求的、務實的指導,而不是理論探討。”

      這種漸進式的學習和優化,讓AI的“記憶”不再短暫。隨著一次次的交互,它會不斷收集新的線索,驗證并修正之前的假設,對你的“人物畫像”進行一次又一次的精修。最終,它不再是被動回答問題的機器,而是在主動地、持續地學習和理解你是誰。

      這,就是我們通向真正個性化AI的第一步。

      AlignXplore

      AlignXplore的訓練包括兩個階段。



      第一階段:冷啟動訓練(Cold-start Training)——拜師學藝

      研究團隊首先引入一個更強大的AI作為“導師模型”



      。這個導師會生成大量高質量的“教學案例”。對于每個用戶的行為信號集合





      會生成多組候選的推理鏈r和相應的偏好描述d利用獎勵函數R(r,d)進行篩選來獲取高質量數據



      。通過在



      上進行SFT,實現偏好歸納模型的冷啟動。



      其中



      代表可能存在的歷史偏好,而G是為每個實例生成的候選樣本數量。這里獎勵函數定義為:



      其中,



      是下游大語言模型R對回復的偏好打分函數。這個通用的獎勵框架可以被實例化為兩種具體的獎勵函數,用于模型的訓練與評估:

      1、



      (基于偏好判斷的獎勵)

      R作為一個偏好判斷模型,直接評估在給定推斷出的偏好d后 “





      更好”的概率,最大化與用戶真實偏好的一致性:





      提供了更穩定和有效的訓練信號,是AlignXplore在訓練和評估中采用的核心獎勵函數。

      2、



      (基于生成概率的獎勵)

      R作為一個回復生成模型,衡量在加入偏好描述d前后,模型生成較優回復



      與生成較差回復



      間的對數概率差值是否有提升:



      第二階段:強化學習(Reinforcement Learning)——實戰修行

      在這一階段,采用GRPO算法訓練,模型會針對用戶的行為,嘗試生成多種不同的推理路徑和偏好結論



      。隨后,系統會根據這些結論的準確性給予“獎勵”或“懲罰”。通過這種不斷的試錯和優化,模型學會了如何將初步的分析提煉成更精準、更具指導性的判斷。

      優化策略定義如下:



      流式偏好推斷機制

      AlignXplore模型支持流式偏好推斷機制,即不再需要反復回看用戶冗長的歷史記錄,而是像處理一條源源不斷的數據流一樣,實時、增量地更新對用戶的理解——就像它在之前的例子中發現用戶“務實導向”的風格一樣。

      這種“流式”設計帶來的好處是顯而易見的:

      首先,它大大提高了生成效率;

      其次,它極為靈活,當用戶從休閑模式切換到工作狀態時,它能迅速迭代出一個新的“工作版”偏好,而不是固執地用舊眼光看用戶。這才是真正能跟上用戶節奏的動態進化系統。

      實驗結果

      在域內測試集AlignX_test和域外測試集P-Soups上,AlignXplore模型在個性化對齊任務上取得了顯著的成功,相較于基座模型DeepSeek-R1-Distill-Qwen-7B平均提升了15.49%。


      △AlignXplore與各種推理/非推理模型在域內外數據集上的表現

      更重要的是,它展現了強大的綜合能力:

      高效性: 即使互動歷史變得非常長,流式推理機制也能保持穩定的響應速度和準確率,不會像傳統方法那樣需要每次編碼所有行為信號致使越來越慢。


      △隨著互動的進行,流式推理機制下的響應速度和準確率都保持穩定

      泛化能力:它不僅能處理特定的反饋數據,還能從用戶發布的帖子user-generated content (UGC)等不同形式的內容中學習,并且其推斷出的偏好也能成功地應用于與訓練時不同的下游模型,包括QwQ-32B、DeepSeek-R1-671B等。


      △泛化性實驗

      魯棒性:即使用戶的偏好發生改變甚至反轉,AlignXplore也能靈活適應,不會產生劇烈的效果波動。


      △即便反轉初始行為信號的偏好,流式推理機制也能讓模型靈活調整

      總結

      該工作第一作者為人大高瓴一年級博士生李嘉楠,目前在螞蟻實習;螞蟻通用人工智能研究中心自然語言處理實驗室關健、武威為共同第一作者、通訊作者。

      AlignXplore是大模型個性化路上的一個全新的嘗試。在SOTA結果的背后,這項研究其實有很多思考:

      • 在智力上限被一波又一波推高的當下,如何規模化訓練大模型“情商”是一個沒有得到足夠關注卻又十分重要的問題。畢竟誰會拒絕一個既聰明又有溫度的AI呢?
      • 深度思考下的長思維鏈是大模型智能能力的主要推動力。深度思考本身消耗巨大,那么如果只用來刷分,是不是有點浪費呢?相比于結果,推理過程中產生的知識是不是更有價值呢?AlignXplore可以看作是推理知識在用戶理解領域進行遷移應用的一個嘗試。畢竟相對于艱深的數學知識,用戶理解知識更容易被看懂,也更容易落地。
      • 如果客觀問題都很快會被AI解決,那么主觀問題該怎么辦呢?這個世界上到底是客觀問題多還是主觀問題多呢?無論如何,研究團隊認為個性化是通往主觀世界的一條重要通道,而AlignXplore是在這條通道上的一次大膽嘗試。期待未來有更多相關研究能夠涌現。

      — 完 —

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      林彪帶走所有王牌,只給他留下3000殘兵,8年后,他讓整個日本陸軍懷疑人生

      林彪帶走所有王牌,只給他留下3000殘兵,8年后,他讓整個日本陸軍懷疑人生

      寄史言志
      2025-12-16 22:45:14
      知名演員官宣:已退出美國國籍,正式成為中國公民!

      知名演員官宣:已退出美國國籍,正式成為中國公民!

      草莓解說體育
      2025-12-17 10:08:45
      “藏”了那么多年,原來她就是于和偉的老婆,娶一賢妻旺三代

      “藏”了那么多年,原來她就是于和偉的老婆,娶一賢妻旺三代

      珺瑤婉史
      2025-12-16 19:45:07
      高市早苗妄稱臺灣問題應通過對話和平解決,國臺辦答澎湃

      高市早苗妄稱臺灣問題應通過對話和平解決,國臺辦答澎湃

      澎湃新聞
      2025-12-17 10:52:26
      被網友家的“暖氣片用法”驚到了!打開思路后,比地暖還要香

      被網友家的“暖氣片用法”驚到了!打開思路后,比地暖還要香

      裝修秀
      2025-12-08 11:35:03
      硬扛中國39天,高市終于改口:承認自己說錯話,中國會原諒她嗎?

      硬扛中國39天,高市終于改口:承認自己說錯話,中國會原諒她嗎?

      軍機Talk
      2025-12-17 14:32:58
      黎智英遭裁決,美國大魚被供出,30國勢力同時冒頭,逼中方放人?

      黎智英遭裁決,美國大魚被供出,30國勢力同時冒頭,逼中方放人?

      博覽歷史
      2025-12-16 18:19:52
      轟動全國的游戲軍費貪污案,欠鋪路民工80,沒有萬

      轟動全國的游戲軍費貪污案,欠鋪路民工80,沒有萬

      遠方青木
      2025-12-16 23:38:18
      大衣哥跳樓身亡、趙本山靈堂、宋佳知三當三,現在造謠越來越離譜

      大衣哥跳樓身亡、趙本山靈堂、宋佳知三當三,現在造謠越來越離譜

      好賢觀史記
      2025-12-17 09:12:04
      一毛都沒多拿,奇兵助尼克斯圓夢NBA杯冠軍,3個月前差點就被交易

      一毛都沒多拿,奇兵助尼克斯圓夢NBA杯冠軍,3個月前差點就被交易

      拾叁懂球
      2025-12-17 19:41:33
      濟南供暖管道爆裂,熱水噴出十多米高,3萬余平方米采暖受到影響

      濟南供暖管道爆裂,熱水噴出十多米高,3萬余平方米采暖受到影響

      都市快報橙柿互動
      2025-12-17 18:01:58
      太痛心!20億打造的望仙谷燒沒了半條命?3年歸零的營收誰來扛?

      太痛心!20億打造的望仙谷燒沒了半條命?3年歸零的營收誰來扛?

      老特有話說
      2025-12-15 22:27:32
      忠告!四種“垃圾食品”已公布,燕麥排第二,第一名很多人都喜歡

      忠告!四種“垃圾食品”已公布,燕麥排第二,第一名很多人都喜歡

      小舟談歷史
      2025-10-17 09:33:31
      14 億泡沫炸裂:金條、法拉利被拍賣后,王麗坤“豪門生活”曝光

      14 億泡沫炸裂:金條、法拉利被拍賣后,王麗坤“豪門生活”曝光

      未曾青梅
      2025-12-09 22:31:16
      2026款奔馳GLS上市 售價96.8-139.82萬元

      2026款奔馳GLS上市 售價96.8-139.82萬元

      車質網
      2025-12-17 09:26:12
      “每天回家我都想吐!”整整3年,因頂樓住戶一個操作,廣東一小區整棟樓業主直呼“苦不堪言”,多方最新回應

      “每天回家我都想吐!”整整3年,因頂樓住戶一個操作,廣東一小區整棟樓業主直呼“苦不堪言”,多方最新回應

      環球網資訊
      2025-12-17 07:32:29
      難怪高市如此狂妄,至少50萬日本間諜在華活動,國安部果斷出手

      難怪高市如此狂妄,至少50萬日本間諜在華活動,國安部果斷出手

      博覽歷史
      2025-12-16 18:56:52
      2026年春節可能要冷清過了!不是不想熱鬧,是真的累到沒力氣折騰

      2026年春節可能要冷清過了!不是不想熱鬧,是真的累到沒力氣折騰

      南權先生
      2025-12-16 16:26:19
      G聯賽場均16+9!楊瀚森已比周琦最佳賽季更強 回世預賽還不亂殺?

      G聯賽場均16+9!楊瀚森已比周琦最佳賽季更強 回世預賽還不亂殺?

      顏小白的籃球夢
      2025-12-17 18:22:28
      重慶談判時,蔣介石提出讓毛澤東當省長,毛主席問:去哪個省?

      重慶談判時,蔣介石提出讓毛澤東當省長,毛主席問:去哪個省?

      老范談史
      2025-11-28 10:34:33
      2025-12-17 21:19:00
      量子位 incentive-icons
      量子位
      追蹤人工智能動態
      11868文章數 176338關注度
      往期回顧 全部

      科技要聞

      特斯拉值1.6萬億靠畫餅 Waymo值千億靠跑單

      頭條要聞

      美方威脅歐盟:點名了 別逼我動手

      頭條要聞

      美方威脅歐盟:點名了 別逼我動手

      體育要聞

      短短一年,從爭冠到0勝墊底...

      娛樂要聞

      狗仔曝熱播劇姐弟戀真談了???

      財經要聞

      重磅信號!收入分配制度或迎重大突破

      汽車要聞

      一車多動力+雙姿態 長城歐拉5上市 限時9.18萬元起

      態度原創

      房產
      本地
      親子
      游戲
      公開課

      房產要聞

      封關前夕!豪庭銘苑超前交付,敬呈海口生活新范本

      本地新聞

      云游安徽|踏過戰壕與石板,讀一部活的淮北史

      親子要聞

      想讓孩子猛長個,家長一定要多給孩子吃這5道長高菜

      獵魂世界:少女比比東技能信息匯總!第七大中毒流派正式降臨!

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 新昌县| 国产午夜大地久久| 国产精品一区二区三乱码| 国产一码二码三码区别| 亚洲精品日| 亚洲天堂av 在线| 全国最大成人网| 欧美性大战xxxxx久久久| 国产97在线?|?日韩| www亚洲精品| 麻豆果冻传媒精品| 精品国产三级在线观看| 人妻内射视频麻豆| 精品国产品香蕉在线| 国产日韩精品一区在线不卡| 欧美啊v| 狼人久久综合| 好吊妞无缓冲视频观看| 国产精品一区二区av片| 男女动图视频网站在线播放| 永城市| 正在播放酒店约少妇高潮| 国产亚洲视频免费播放| 亚洲最大在线| 人妻丝袜一区| 人妻内射一区二区在线视频| 久久久久亚洲av成人网址| 深爱色情网| 亚洲国产精品成人无?久久精品| 99re热视频这里只精品| 一级做a爰片在线播放| 91在线公开视频| 欧美怡春院| 亚洲熟女少妇一区二区| 亚洲高清WWW色好看美女| 1024国产基地| 99精品国产一区二区三区2021| 亚洲老妈激情一区二区三区| 牛牛AV| 亚洲国产专区| 女人被狂躁到高潮视频免费软件|