網易首頁 > 網易號 > 正文申請入駐

告別復雜提示詞！螞蟻新方式讓AI自動理解你的個性化需求

2025-08-03 22:24:31　來源: 量子位

北京舉報

分享至

AntResearchNLP團隊投稿
量子位 | 公眾號 QbitAI

相信大家都有這樣一個體驗。

跟AI無論什么對話，感覺都是說空話套話。

有時候為了讓AI懂自己，許多用戶甚至不得不學習復雜的“提示詞技巧”，手動編寫長長的指令，像是在給AI做“崗前培訓”。

那么如何實現高情商AI？螞蟻通用人工智能研究中心自然語言處理實驗室提出了一個叫AlignXplore的方法——

通過強化學習，AlignXplore能夠通過深度思考從用戶行為中歸納出他/她的偏好，并且這種對人類偏好的洞察可以隨著用戶行為的變化而動態更新。

更有趣的是，當把歸納好的偏好描述遷移到一個下游對齊模型時，能夠讓這個模型的個性化對齊能力得到顯著提升。

如何讓AI真正懂你？

如何讓AI真正“懂”你？我們需要讓AI從一個“規則執行者”進化成一個“模式發現者”。

這意味著，它要掌握一種被認為是人類智慧核心的能力——歸納推理（Inductive Reasoning）。

△“千人一面”的對齊方式無法滿足用戶多樣的個性化需求，紅字藍

事實上，AI早已對演繹推理（Deductive Reasoning）駕輕就熟，具備令人驚嘆的數學解題和代碼編寫能力。

你給它一個確定的前提（如“求解二次方程 ax2+bx+c=0”）和一套不變的規則（求根公式），它就能通過一步步嚴密的邏輯推演，給出一個唯一、可驗證的正確答案。這是一個典型的“自上而下”（Top-Down）的過程：從普適的公理或規則出發，推導出一個具體的、必然的結論。在這個世界里，沒有模糊地帶，只有對與錯。

而歸納推理則完全相反，它是一個自下而上（Bottom-Up）的過程：它沒有預設的“個人說明書”。它的“線索”就是你的每一個行為：你追問了什么問題，說明你關心什么；你跳過了哪個回答，說明你不喜歡什么風格；你對哪個笑話點了贊，暴露了你的幽默感。它的“任務”就是從這些海量的、碎片化的行為數據中，提煉出專屬于你的互動模式與偏好規律。通過歸納推理，AI有潛力成為你的“知心姐姐”，主動拼湊出一個完整的你。

舉個例子，讓我們來扮演一次AI知心姐姐，看看它是如何通過兩次看似無關的對話，就精準捕捉到你的“潛臺詞”的：

第一次交互：你問“什么是人工智能？它在商業和生活中是怎么用的？”。AI會立刻開始在幕后推理你的偏好：“你可能對AI技術有特別的興趣，但似乎更關心實際應用，也許是商業導向”。
第二次交互：你想學習冥想，在兩個候選回答中，你選擇了提供具體步驟的那個，而不是闡述冥想哲學的回答。AI會立刻更新它對你偏好的理解：“你的偏好是獲取能解決眼前需求的、務實的指導，而不是理論探討。”

這種漸進式的學習和優化，讓AI的“記憶”不再短暫。隨著一次次的交互，它會不斷收集新的線索，驗證并修正之前的假設，對你的“人物畫像”進行一次又一次的精修。最終，它不再是被動回答問題的機器，而是在主動地、持續地學習和理解你是誰。

這，就是我們通向真正個性化AI的第一步。

AlignXplore

AlignXplore的訓練包括兩個階段。

第一階段：冷啟動訓練（Cold-start Training）——拜師學藝

研究團隊首先引入一個更強大的AI作為“導師模型”

。這個導師會生成大量高質量的“教學案例”。對于每個用戶的行為信號集合

會生成多組候選的推理鏈r和相應的偏好描述d利用獎勵函數R（r，d）進行篩選來獲取高質量數據

。通過在

上進行SFT，實現偏好歸納模型的冷啟動。

其中

代表可能存在的歷史偏好，而G是為每個實例生成的候選樣本數量。這里獎勵函數定義為：

其中，

是下游大語言模型R對回復的偏好打分函數。這個通用的獎勵框架可以被實例化為兩種具體的獎勵函數，用于模型的訓練與評估：

1、

（基于偏好判斷的獎勵）

R作為一個偏好判斷模型，直接評估在給定推斷出的偏好d后 “

更好”的概率，最大化與用戶真實偏好的一致性：

提供了更穩定和有效的訓練信號，是AlignXplore在訓練和評估中采用的核心獎勵函數。

2、

（基于生成概率的獎勵）

R作為一個回復生成模型，衡量在加入偏好描述d前后，模型生成較優回復

與生成較差回復

間的對數概率差值是否有提升：

第二階段：強化學習（Reinforcement Learning）——實戰修行

在這一階段，采用GRPO算法訓練，模型會針對用戶的行為，嘗試生成多種不同的推理路徑和偏好結論

。隨后，系統會根據這些結論的準確性給予“獎勵”或“懲罰”。通過這種不斷的試錯和優化，模型學會了如何將初步的分析提煉成更精準、更具指導性的判斷。

優化策略定義如下：

流式偏好推斷機制

AlignXplore模型支持流式偏好推斷機制，即不再需要反復回看用戶冗長的歷史記錄，而是像處理一條源源不斷的數據流一樣，實時、增量地更新對用戶的理解——就像它在之前的例子中發現用戶“務實導向”的風格一樣。

這種“流式”設計帶來的好處是顯而易見的：

首先，它大大提高了生成效率；

其次，它極為靈活，當用戶從休閑模式切換到工作狀態時，它能迅速迭代出一個新的“工作版”偏好，而不是固執地用舊眼光看用戶。這才是真正能跟上用戶節奏的動態進化系統。

實驗結果

在域內測試集AlignX_test和域外測試集P-Soups上，AlignXplore模型在個性化對齊任務上取得了顯著的成功，相較于基座模型DeepSeek-R1-Distill-Qwen-7B平均提升了15.49%。

△AlignXplore與各種推理/非推理模型在域內外數據集上的表現

更重要的是，它展現了強大的綜合能力：

高效性：即使互動歷史變得非常長，流式推理機制也能保持穩定的響應速度和準確率，不會像傳統方法那樣需要每次編碼所有行為信號致使越來越慢。

△隨著互動的進行，流式推理機制下的響應速度和準確率都保持穩定

泛化能力：它不僅能處理特定的反饋數據，還能從用戶發布的帖子user-generated content (UGC)等不同形式的內容中學習，并且其推斷出的偏好也能成功地應用于與訓練時不同的下游模型，包括QwQ-32B、DeepSeek-R1-671B等。

△泛化性實驗

魯棒性：即使用戶的偏好發生改變甚至反轉，AlignXplore也能靈活適應，不會產生劇烈的效果波動。

△即便反轉初始行為信號的偏好，流式推理機制也能讓模型靈活調整

總結

該工作第一作者為人大高瓴一年級博士生李嘉楠，目前在螞蟻實習；螞蟻通用人工智能研究中心自然語言處理實驗室關健、武威為共同第一作者、通訊作者。

AlignXplore是大模型個性化路上的一個全新的嘗試。在SOTA結果的背后，這項研究其實有很多思考：

在智力上限被一波又一波推高的當下，如何規模化訓練大模型“情商”是一個沒有得到足夠關注卻又十分重要的問題。畢竟誰會拒絕一個既聰明又有溫度的AI呢？
深度思考下的長思維鏈是大模型智能能力的主要推動力。深度思考本身消耗巨大，那么如果只用來刷分，是不是有點浪費呢？相比于結果，推理過程中產生的知識是不是更有價值呢？AlignXplore可以看作是推理知識在用戶理解領域進行遷移應用的一個嘗試。畢竟相對于艱深的數學知識，用戶理解知識更容易被看懂，也更容易落地。
如果客觀問題都很快會被AI解決，那么主觀問題該怎么辦呢？這個世界上到底是客觀問題多還是主觀問題多呢？無論如何，研究團隊認為個性化是通往主觀世界的一條重要通道，而AlignXplore是在這條通道上的一次大膽嘗試。期待未來有更多相關研究能夠涌現。

— 完 —

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.