![]()
這項由清華大學廖崇華和阿里巴巴達摩院王珂等研究人員共同完成的突破性研究發(fā)表于2024年12月,論文編號為arXiv:2512.09756v1。有興趣深入了解的讀者可以通過該編號查詢完整論文。
當前的人工智能角色扮演就像是一位演員在舞臺上表演,需要同時掌握多種相互沖突的技能。這位"AI演員"必須能夠理解復雜的對話指令,展現(xiàn)特定角色的專業(yè)知識,還要保持一致的語言風格。聽起來就像是要求一個人在跳舞的同時背詩,還要做數(shù)學題一樣困難。
現(xiàn)有的訓練方法就像是用老式的教學方法來訓練這樣的"多面手"。一種方法叫做監(jiān)督微調(diào),就像是給學生提供標準答案讓他們死記硬背。雖然學生能快速學會表面的套路,但遇到新情況就不知所措,而且回答變得千篇一律,缺乏靈活性。另一種方法叫做強化學習,就像是給學生設(shè)置一個總成績目標,但這種方法往往顧此失彼,提高了某個方面的能力卻損害了其他方面。
研究團隊面臨的核心問題是:如何讓AI在角色扮演時既能遵循復雜指令,又能展現(xiàn)專業(yè)知識,同時還保持獨特的語言風格?這就像是訓練一位完美的演員,他需要在同一場表演中既是莎士比亞戲劇的主角,又是脫口秀演員,還要是學術(shù)講座的專家。
為了解決這個難題,研究團隊開發(fā)了一種名為MOA(多目標對齊)的全新訓練框架。這套方法的精妙之處在于,它不再試圖用一個簡單的評分系統(tǒng)來衡量AI的整體表現(xiàn),而是像一位經(jīng)驗豐富的導演一樣,分別關(guān)注表演的不同維度,并智能地決定在每個訓練階段應(yīng)該重點提升哪個方面。
整個MOA框架就像是一個精心設(shè)計的訓練營,包含了三個核心組件。第一個組件叫做多目標優(yōu)化策略,它就像是一位智慧的教練,能夠動態(tài)識別當前最需要改進的技能維度作為"支點維度"。當教練發(fā)現(xiàn)學員在某個方面進步最快時,就會集中訓練這個方面,同時巧妙地過濾掉那些在這個維度表現(xiàn)差但在其他維度表現(xiàn)好的"干擾樣本"。這樣做避免了模型在優(yōu)化某個維度時被其他維度的高分誤導,就像是在練習鋼琴時不被其他樂器的聲音分散注意力。
第二個組件是思維增強的生成策略,這個方法的靈感來自于人類在角色扮演時的思考過程。就像演員在說臺詞之前會在心中快速思考角色的動機和背景一樣,研究團隊讓AI在生成回應(yīng)之前先進行一段內(nèi)在思考。這段思考包括角色的情感反應(yīng)、知識背景、目標動機等,然后再基于這些思考生成最終的回應(yīng)。這種方法顯著提升了角色扮演的質(zhì)量和一致性。
第三個組件叫做離策略指導,這是為了解決訓練過程中可能出現(xiàn)的"作弊"行為。由于評判標準來自其他AI模型,有時系統(tǒng)可能學會一些投機取巧的方法來獲得高分,比如生成冗長但實際上沒有太多價值的回答。為了避免這種情況,研究團隊在訓練過程中混入了一些來自頂級模型的高質(zhì)量樣本,就像在學習過程中加入了標桿案例,幫助模型保持正確的優(yōu)化方向。
研究團隊的實驗結(jié)果相當令人振奮。他們在兩個業(yè)內(nèi)認可的角色扮演評測基準上進行了全面測試。第一個叫做PersonaGym,它評估AI在五個不同維度的表現(xiàn):預(yù)期行動、語言習慣、角色一致性、毒性控制和行動解釋。第二個叫做RoleMRC,它從知識范圍、風格合規(guī)性、嵌套指令跟隨、多輪指令跟隨和指令優(yōu)先級五個方面進行評估。
實驗結(jié)果顯示,使用MOA訓練的8B參數(shù)模型在多個維度上都能夠匹敵甚至超越GPT-4o和Claude這樣的頂級模型。特別值得一提的是,在RoleMRC基準測試中,MOA訓練的模型相比GPT-4o取得了21%的性能提升。這意味著一個相對較小的模型經(jīng)過巧妙的訓練后,竟然能夠在某些方面超越體量更大的頂級模型。
MOA方法的核心創(chuàng)新在于其多目標優(yōu)化策略。傳統(tǒng)的方法就像是用一把尺子來衡量學生的綜合能力,而MOA更像是一位經(jīng)驗豐富的老師,會根據(jù)學生當前的學習狀態(tài)動態(tài)調(diào)整教學重點。具體來說,MOA會觀察每個技能維度的進步趨勢,識別出當前進步最快的維度作為優(yōu)化重點。這種做法的理論基礎(chǔ)是課程學習的思想,即優(yōu)先學習較容易掌握的技能,再逐步攻克更困難的技能。
在技術(shù)實現(xiàn)上,MOA采用了一種巧妙的權(quán)重分配機制。它首先計算每個維度當前的平均獎勵與歷史趨勢的差值,這個差值反映了該維度的當前改進潛力。然后通過softmax函數(shù)將這些差值轉(zhuǎn)換為概率權(quán)重,權(quán)重越高的維度說明當前越值得重點優(yōu)化。這種動態(tài)權(quán)重分配確保了訓練資源總是投入到最有效果的地方。
為了進一步提升訓練效果,MOA還引入了沖突樣本消除機制。這個機制的工作原理就像是一位嚴格的考官,會識別并剔除那些在重點維度表現(xiàn)不佳但在其他維度得分較高的"混淆樣本"。通過這種方式,模型能夠更專注地學習當前最重要的技能,避免被不相關(guān)的信息干擾。
思維增強策略的設(shè)計也非常精妙。研究團隊發(fā)現(xiàn),當AI在生成回應(yīng)之前先進行一段結(jié)構(gòu)化的思考時,最終的回應(yīng)質(zhì)量會顯著提升。這段思考包括四個層次:首先是情感反應(yīng)層面,AI會思考角色在當前情境下應(yīng)該有什么樣的情感狀態(tài);接著是知識背景層面,AI會調(diào)用角色相關(guān)的專業(yè)知識和經(jīng)驗;然后是目標動機層面,AI會考慮角色的行動目標和深層動機;最后是策略規(guī)劃層面,AI會制定具體的回應(yīng)策略。
這種思維過程的引入不僅提升了回應(yīng)的質(zhì)量,還增強了角色的一致性和可信度。實驗數(shù)據(jù)顯示,使用思維增強策略的模型在幾乎所有維度上都比不使用該策略的模型表現(xiàn)更好。特別是在角色一致性和語言風格方面,改進效果尤為明顯。
離策略指導機制的加入則解決了強化學習中常見的獎勵操控問題。在訓練過程中,模型有時會學會一些表面上能獲得高分但實際質(zhì)量不高的策略,比如生成過長的回答來展示知識,即使這些信息可能是冗余的。通過在訓練數(shù)據(jù)中混入高質(zhì)量的標桿樣本,模型能夠?qū)W到更好的優(yōu)化方向,避免陷入這種局部最優(yōu)的陷阱。
研究團隊還進行了詳盡的消融實驗來驗證各個組件的有效性。實驗結(jié)果顯示,多目標優(yōu)化策略貢獻了最大的性能提升,思維增強策略在角色一致性方面效果顯著,而離策略指導則在避免獎勵操控方面發(fā)揮了關(guān)鍵作用。三個組件的協(xié)同作用使得整個系統(tǒng)的性能遠超傳統(tǒng)方法。
值得一提的是,MOA方法展現(xiàn)出了良好的可擴展性。研究團隊在不同規(guī)模的模型上(從1.7B到8B參數(shù))都驗證了MOA的有效性,并且發(fā)現(xiàn)這種方法可以與不同的基礎(chǔ)強化學習算法結(jié)合使用,包括GRPO和RLOO等。這種靈活性使得MOA能夠廣泛應(yīng)用于各種實際場景。
從技術(shù)角度來看,MOA方法的創(chuàng)新性主要體現(xiàn)在三個方面。首先是動態(tài)維度選擇策略,這是首次在角色扮演訓練中引入課程學習的思想,通過智能化的維度調(diào)度來提升訓練效率。其次是結(jié)構(gòu)化思維生成,這種方法模擬了人類角色扮演時的認知過程,為AI角色扮演提供了更堅實的理論基礎(chǔ)。最后是多樣化的訓練策略組合,通過巧妙地結(jié)合在線學習和離線指導,MOA在保持訓練穩(wěn)定性的同時實現(xiàn)了性能的顯著提升。
實驗結(jié)果還揭示了一些有趣的發(fā)現(xiàn)。例如,研究團隊發(fā)現(xiàn)單純的監(jiān)督微調(diào)雖然能夠快速達到一定的性能水平,但很快就會遇到瓶頸,難以進一步提升。而傳統(tǒng)的強化學習方法雖然理論上能夠持續(xù)優(yōu)化,但在實際應(yīng)用中往往不夠穩(wěn)定,容易出現(xiàn)某些維度性能下降的情況。相比之下,MOA方法既保持了訓練的穩(wěn)定性,又實現(xiàn)了持續(xù)的性能改進。
另一個重要發(fā)現(xiàn)是思維生成對角色扮演質(zhì)量的重要影響。實驗數(shù)據(jù)顯示,使用思維增強策略的模型不僅在客觀評測中表現(xiàn)更好,在主觀評價中也更容易獲得用戶的認可。這表明結(jié)構(gòu)化的思維過程確實能夠提升AI角色扮演的自然性和可信度。
研究團隊還對不同類型的角色進行了深入分析。他們發(fā)現(xiàn)MOA方法在處理復雜角色(如需要專業(yè)知識的醫(yī)生、律師等)時效果尤為顯著,這些角色往往需要在知識準確性和角色一致性之間找到平衡。傳統(tǒng)方法往往在這種平衡上表現(xiàn)不佳,要么過于拘泥于角色設(shè)定而忽略知識準確性,要么過分追求知識正確性而丟失角色特色。
從應(yīng)用前景來看,MOA方法的成功為AI角色扮演技術(shù)的實用化鋪平了道路。在客服系統(tǒng)中,經(jīng)過MOA訓練的AI能夠更好地扮演專業(yè)客服代表,既具備必要的專業(yè)知識,又能保持友好的服務(wù)態(tài)度。在教育領(lǐng)域,這種技術(shù)可以用來創(chuàng)建各種虛擬教師角色,為不同年齡段和學習風格的學生提供個性化的教學服務(wù)。在娛樂產(chǎn)業(yè)中,MOA技術(shù)可以用來創(chuàng)建更加生動和一致的虛擬角色,為用戶提供更好的互動體驗。
然而,研究團隊也坦誠地指出了MOA方法的一些局限性。首先,這種方法對計算資源的需求相對較高,因為需要使用LLM作為評判器來提供多維度的獎勵信號。其次,雖然MOA在角色扮演任務(wù)上效果顯著,但其在其他類型任務(wù)(如數(shù)學推理、代碼生成等)上的有效性還需要進一步驗證。最后,目前的方法還依賴于外部的強大模型來提供高質(zhì)量的離策略樣本,這在一定程度上限制了其完全自主的學習能力。
展望未來,研究團隊認為有幾個方向值得進一步探索。一是開發(fā)更高效的自評估機制,減少對外部評判器的依賴。二是探索MOA方法在其他復雜任務(wù)上的應(yīng)用潛力。三是研究如何將角色扮演能力與其他AI能力(如推理、創(chuàng)作等)更好地結(jié)合,創(chuàng)建真正的通用智能角色。
說到底,MOA方法的成功證明了一個重要觀點:訓練高質(zhì)量的AI角色不是簡單的技術(shù)堆砌,而是需要深入理解角色扮演的本質(zhì)和人類學習的規(guī)律。通過巧妙地將課程學習、結(jié)構(gòu)化思維和多目標優(yōu)化結(jié)合起來,MOA為AI角色扮演技術(shù)的發(fā)展提供了一條可行而有效的路徑。這項研究不僅在技術(shù)上取得了突破,更重要的是為我們理解如何訓練更加智能和可信的AI系統(tǒng)提供了寶貴的啟示。
Q&A
Q1:MOA訓練方法相比傳統(tǒng)方法有什么優(yōu)勢?
A:MOA方法最大的優(yōu)勢是能夠同時優(yōu)化多個相互沖突的技能維度。傳統(tǒng)方法要么像死記硬背一樣缺乏靈活性,要么在提升某項能力時損害其他能力。MOA就像一位智慧的教練,能夠動態(tài)識別最需要改進的技能維度,集中優(yōu)化的同時避免其他維度的干擾,最終實現(xiàn)全方位的性能提升。
Q2:思維增強策略具體是如何工作的?
A:思維增強策略讓AI在回答之前先進行結(jié)構(gòu)化思考,就像演員在說臺詞前會思考角色動機一樣。這個過程包括四個層次:情感反應(yīng)、知識背景、目標動機和策略規(guī)劃。AI會依次思考角色在當前情境下的情感狀態(tài)、相關(guān)知識經(jīng)驗、行動目標,最后制定回應(yīng)策略,這樣生成的回答更加自然和一致。
Q3:普通用戶什么時候能體驗到這種技術(shù)?
A:雖然MOA技術(shù)已經(jīng)在學術(shù)測試中表現(xiàn)出色,但要真正應(yīng)用到消費級產(chǎn)品中還需要一些時間。目前主要的挑戰(zhàn)是計算資源需求較高,需要進一步優(yōu)化以降低成本。不過考慮到技術(shù)發(fā)展速度,預(yù)計在未來1-2年內(nèi),我們就能在一些高端AI助手和專業(yè)應(yīng)用中看到類似技術(shù)的應(yīng)用。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.