網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

騰訊提出RLVMR框架，讓7B模型「思考」比肩GPT-4o

2025-08-14 11:02:49　來源: 機(jī)器之心Pro

內(nèi)蒙古舉報(bào)

分享至

本論文的主要作者來自騰訊混元 AI 數(shù)字人團(tuán)隊(duì) (Tencent Hunyuan AI Digital Human)。該團(tuán)隊(duì)致力于打造「有智商、有情商、有溫度的數(shù)字人」，旨在為用戶提供高度擬人、可信賴的數(shù)字伙伴，進(jìn)而實(shí)現(xiàn)富有溫度與信任的情感交互。

自主智能體（Agents）正朝著能夠處理復(fù)雜長(zhǎng)程任務(wù)（Long-Horizon Tasks）的通用智能（AGI）邁進(jìn)，但許多研究者發(fā)現(xiàn)了一個(gè)尷尬的現(xiàn)實(shí)：很多智能體雖然能完成任務(wù)，卻像個(gè)「只會(huì)蒙答案的學(xué)生」，其成功往往依賴于運(yùn)氣和低效的試錯(cuò)，而非真正高效、可泛化的推理能力。一旦環(huán)境稍作改變，它們便漏洞百出。

這種「結(jié)果正確，但過程混亂」的現(xiàn)象，是當(dāng)前長(zhǎng)程智能體（Long-Horizon Agents）強(qiáng)化學(xué)習(xí)（RL）范式的一大瓶頸。智能體在探索中，只因最終能完成任務(wù)便獲得獎(jiǎng)勵(lì)，而其間大量的冗余操作、無效探索，甚至錯(cuò)誤的推理路徑，都被無意中「強(qiáng)化」和固化。這導(dǎo)致了兩個(gè)核心難題：

1.低效探索難題：智能體容易陷入「無效內(nèi)卷」，反復(fù)嘗試無意義的動(dòng)作，訓(xùn)練成本高，推理效率低下。

2.泛化脆弱難題：靠「蒙對(duì)」學(xué)會(huì)的策略缺乏邏輯基礎(chǔ)，在新任務(wù)面前不堪一擊，難以實(shí)現(xiàn)真正的魯棒性。

如何讓智能體不僅「知其然」，更能「知其所以然」？

面對(duì)這些難題，騰訊混元 AI 數(shù)字人團(tuán)隊(duì)提出了RLVMR (Reinforcement Learning with Verifiable Meta-Reasoning Rewards)框架。這項(xiàng)工作開創(chuàng)性地將認(rèn)知科學(xué)中的「元認(rèn)知」（即「思考自己的思考」）理論引入 RL，通過獎(jiǎng)勵(lì)「好的思考過程」而非僅僅獎(jiǎng)勵(lì)「好的結(jié)果」，首次實(shí)現(xiàn)了對(duì)智能體推理過程的端到端強(qiáng)化學(xué)習(xí)，成功解決了長(zhǎng)程任務(wù)中的低效探索與泛化難題。

論文地址： [2507.22844] RLVMR: Reinforcement Learning with Verifiable Meta-Reasoning Rewards for Robust Long-Horizon Agents
項(xiàng)目代碼： digitalhuman/RLVMR at main?Tencent/digitalhuman?GitHub

RLVMR：如何教會(huì)智能體「思考」，而不僅是「做事」？

傳統(tǒng)方法要么依賴僵化的專家數(shù)據(jù)（SFT），要么依賴稀疏的結(jié)果獎(jiǎng)勵(lì)（RL），都無法有效塑造智能體高質(zhì)量的「思維習(xí)慣」。RLVMR 的破局點(diǎn)在于：為智能體的「思考過程」本身，設(shè)計(jì)一套可驗(yàn)證、可優(yōu)化的獎(jiǎng)勵(lì)機(jī)制。

1. 智能體學(xué)會(huì)「三思而后行」：引入元推理狀態(tài)

RLVMR 賦予智能體「自我意識(shí)」的能力。在行動(dòng)前，智能體需要先思考并給自己貼上一個(gè)「元推理標(biāo)簽」，明確自己當(dāng)前處于哪個(gè)認(rèn)知階段：

規(guī)劃（Planning）：我準(zhǔn)備做什么？計(jì)劃是什么？
探索（Exploring）：我正在執(zhí)行計(jì)劃，探索方案。
反思（Reflecting）：計(jì)劃出錯(cuò)了？我需要糾正什么？

這套機(jī)制讓智能體的「內(nèi)心戲」變得明確、可追蹤，為獎(jiǎng)勵(lì)其「優(yōu)質(zhì)思考」提供了抓手。

2. 獎(jiǎng)勵(lì)「好思路」，懲罰「壞習(xí)慣」：可驗(yàn)證的過程獎(jiǎng)勵(lì)

光有標(biāo)簽還不夠，RLVMR 設(shè)計(jì)了一套輕量級(jí)的驗(yàn)證規(guī)則，實(shí)時(shí)評(píng)估智能體的思考質(zhì)量，并給予即時(shí)獎(jiǎng)勵(lì)：

獎(jiǎng)勵(lì)高效思考：當(dāng)智能體在「反思」后成功糾錯(cuò)，或制定出有效「規(guī)劃」時(shí)，給予正向獎(jiǎng)勵(lì)。
懲罰低效行為：當(dāng)智能體陷入無意義的動(dòng)作循環(huán)或重復(fù)犯錯(cuò)時(shí)，給予負(fù)向獎(jiǎng)勵(lì)。

這種「過程獎(jiǎng)勵(lì)」機(jī)制，像一位貼身教練，不斷引導(dǎo)智能體優(yōu)化其思考與決策路徑，從根本上杜絕「瞎蒙」行為。

3. 從「結(jié)果導(dǎo)向」到「過程與結(jié)果并重」

RLVMR 將「過程獎(jiǎng)勵(lì)」與最終的「任務(wù)成功獎(jiǎng)勵(lì)」相結(jié)合，通過策略梯度方法進(jìn)行端到端優(yōu)化。這使得智能體在追求最終目標(biāo)的同時(shí)，必須學(xué)會(huì)如何更聰明、更高效地達(dá)成目標(biāo)。

核心實(shí)驗(yàn)成果：7B 模型比肩「巨頭旗艦」

在極具挑戰(zhàn)性的 ALFWorld 和 ScienceWorld 兩大長(zhǎng)程任務(wù)基準(zhǔn)上，RLVMR 展現(xiàn)了統(tǒng)治級(jí)的性能。經(jīng)過 RLVMR 訓(xùn)練的 7B 模型，在難度最高、從未見過的任務(wù)（L2 泛化等級(jí)）上，成功率高達(dá) 83.6%，不僅遠(yuǎn)超此前所有 SOTA 模型，更證明了其強(qiáng)大的泛化能力。

此外，我們的方法訓(xùn)練出的智能體更「聰明」，解決任務(wù)的路徑更直接，在 ALFWorld 和 ScienceWorld 的 L2 復(fù)雜環(huán)境中，所需動(dòng)作數(shù)最高減少 28.1%。此外，訓(xùn)練過程本身也告別了「反復(fù)橫跳」式的低效學(xué)習(xí)，收斂速度更快、策略更穩(wěn)定，顯著緩解了無效探索問題。

超越分?jǐn)?shù)：RLVMR 實(shí)驗(yàn)中的深度洞察

洞察一：智能體學(xué)會(huì)「反思」，告別「無效內(nèi)卷」

傳統(tǒng) RL 智能體像一個(gè)埋頭刷題但從不復(fù)盤的學(xué)生，容易在錯(cuò)誤路徑上反復(fù)掙扎。RLVMR 的核心貢獻(xiàn)在于教會(huì)了智能體「反思」（Reflecting）。

實(shí)驗(yàn)數(shù)據(jù)顯示，引入「反思」機(jī)制后，智能體在遇到困難時(shí)，不再是盲目重試，而是能夠主動(dòng)識(shí)別問題、調(diào)整策略。這正是其重復(fù)動(dòng)作率大幅降低、任務(wù)成功率飆升的根本原因。它揭示了一個(gè)關(guān)鍵點(diǎn)：對(duì)于復(fù)雜任務(wù)，教會(huì)智能體如何從失敗中學(xué)習(xí)，比單純「喂」給它成功的經(jīng)驗(yàn)更重要。

洞察二：好的推理習(xí)慣，是泛化能力的基石

為什么 RLVMR 在未見任務(wù)上表現(xiàn)如此出色？

我們發(fā)現(xiàn)，通過獎(jiǎng)勵(lì)「好的思考過程」，RLVMR 幫助智能體建立了一套通用的、不依賴于特定任務(wù)的「元問題解決框架」（如何規(guī)劃、如何探索、如何反思）。當(dāng)面對(duì)新環(huán)境（L2）時(shí)，智能體調(diào)用的不再是某個(gè)僵化的「解題模板」，而是這套靈活的「思維方法論」。

這證實(shí)了一個(gè)重要猜想：真正的泛化能力，源自于對(duì)問題解決過程的深刻理解，而非對(duì)問題答案的機(jī)械記憶。 RLVMR 正是通往這條道路的有效路徑。

洞察三：先「冷啟動(dòng)」再「強(qiáng)化」—— 智能體的成長(zhǎng)階梯設(shè)計(jì)

RLVMR 采用了「冷啟動(dòng) SFT + 強(qiáng)化學(xué)習(xí) RL」的兩階段訓(xùn)練流程。這并非簡(jiǎn)單的流程拼接，而是一種符合認(rèn)知規(guī)律的「成長(zhǎng)曲線」設(shè)計(jì)。

冷啟動(dòng)階段（SFT）：如同基礎(chǔ)教育，讓智能體先通過模仿學(xué)習(xí)，快速掌握「規(guī)劃」「反思」等元推理概念的基本表達(dá)方式。
強(qiáng)化學(xué)習(xí)階段（RL）：如同進(jìn)入社會(huì)實(shí)踐，讓智能體在真實(shí)環(huán)境中自由探索，通過「過程獎(jiǎng)勵(lì)」的不斷反饋，將學(xué)到的概念內(nèi)化為真正的能力。

這一策略啟示我們：在訓(xùn)練高級(jí)智能體時(shí)，「先教會(huì)它如何思考，再放手讓它去犯錯(cuò)成長(zhǎng)」，可能是比單一訓(xùn)練范式更高效的路徑。

總結(jié)與展望

RLVMR 的提出，為智能體訓(xùn)練帶來了從「結(jié)果導(dǎo)向」到「過程導(dǎo)向」的范式革新。它證明了，通過對(duì)智能體「思考過程」的直接建模與獎(jiǎng)勵(lì)，我們能夠有效破解長(zhǎng)程任務(wù)中的「低效探索」與「泛化脆弱」兩大難題。

我們對(duì) AGI 的終極期待，是一個(gè)能夠獨(dú)立思考、理性決策的伙伴，而不是一個(gè)只會(huì)尋找捷徑的「做題家」。RLVMR 的工作，正是鼓勵(lì)大模型從偶然涌現(xiàn)的能力，走向特定思維模式的強(qiáng)化，為構(gòu)建更魯棒、更高效、更可解釋的通用智能體邁出了堅(jiān)實(shí)的一步。

這項(xiàng)研究不僅為長(zhǎng)程智能體訓(xùn)練提供了新思路，也為我們探索能真正理解世界、應(yīng)對(duì)未知的下一代 AI 帶來了新的曙光。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.