<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      騰訊提出RLVMR框架,讓7B模型「思考」比肩GPT-4o

      0
      分享至



      本論文的主要作者來自騰訊混元 AI 數(shù)字人團(tuán)隊(duì) (Tencent Hunyuan AI Digital Human)。該團(tuán)隊(duì)致力于打造「有智商、有情商、有溫度的數(shù)字人」,旨在為用戶提供高度擬人、可信賴的數(shù)字伙伴,進(jìn)而實(shí)現(xiàn)富有溫度與信任的情感交互。

      自主智能體(Agents)正朝著能夠處理復(fù)雜長(zhǎng)程任務(wù)(Long-Horizon Tasks)的通用智能(AGI)邁進(jìn),但許多研究者發(fā)現(xiàn)了一個(gè)尷尬的現(xiàn)實(shí):很多智能體雖然能完成任務(wù),卻像個(gè)「只會(huì)蒙答案的學(xué)生」,其成功往往依賴于運(yùn)氣和低效的試錯(cuò),而非真正高效、可泛化的推理能力。一旦環(huán)境稍作改變,它們便漏洞百出。

      這種「結(jié)果正確,但過程混亂」的現(xiàn)象,是當(dāng)前長(zhǎng)程智能體(Long-Horizon Agents)強(qiáng)化學(xué)習(xí)(RL)范式的一大瓶頸。智能體在探索中,只因最終能完成任務(wù)便獲得獎(jiǎng)勵(lì),而其間大量的冗余操作、無效探索,甚至錯(cuò)誤的推理路徑,都被無意中 「強(qiáng)化」 和固化。這導(dǎo)致了兩個(gè)核心難題:

      1.低效探索難題:智能體容易陷入「無效內(nèi)卷」,反復(fù)嘗試無意義的動(dòng)作,訓(xùn)練成本高,推理效率低下。

      2.泛化脆弱難題:靠「蒙對(duì)」學(xué)會(huì)的策略缺乏邏輯基礎(chǔ),在新任務(wù)面前不堪一擊,難以實(shí)現(xiàn)真正的魯棒性。

      如何讓智能體不僅「知其然」,更能「知其所以然」?

      面對(duì)這些難題,騰訊混元 AI 數(shù)字人團(tuán)隊(duì)提出了RLVMR (Reinforcement Learning with Verifiable Meta-Reasoning Rewards)框架。這項(xiàng)工作開創(chuàng)性地將認(rèn)知科學(xué)中的「元認(rèn)知」(即 「思考自己的思考」)理論引入 RL,通過獎(jiǎng)勵(lì)「好的思考過程」而非僅僅獎(jiǎng)勵(lì)「好的結(jié)果」,首次實(shí)現(xiàn)了對(duì)智能體推理過程的端到端強(qiáng)化學(xué)習(xí),成功解決了長(zhǎng)程任務(wù)中的低效探索與泛化難題。



      • 論文地址: [2507.22844] RLVMR: Reinforcement Learning with Verifiable Meta-Reasoning Rewards for Robust Long-Horizon Agents
      • 項(xiàng)目代碼: digitalhuman/RLVMR at main?Tencent/digitalhuman?GitHub

      RLVMR:如何教會(huì)智能體「思考」,而不僅是「做事」?

      傳統(tǒng)方法要么依賴僵化的專家數(shù)據(jù)(SFT),要么依賴稀疏的結(jié)果獎(jiǎng)勵(lì)(RL),都無法有效塑造智能體高質(zhì)量的「思維習(xí)慣」。RLVMR 的破局點(diǎn)在于:為智能體的「思考過程」本身,設(shè)計(jì)一套可驗(yàn)證、可優(yōu)化的獎(jiǎng)勵(lì)機(jī)制。



      1. 智能體學(xué)會(huì)「三思而后行」:引入元推理狀態(tài)

      RLVMR 賦予智能體「自我意識(shí)」的能力。在行動(dòng)前,智能體需要先思考并給自己貼上一個(gè)「元推理標(biāo)簽」,明確自己當(dāng)前處于哪個(gè)認(rèn)知階段:

      • 規(guī)劃(Planning):我準(zhǔn)備做什么?計(jì)劃是什么?
      • 探索(Exploring):我正在執(zhí)行計(jì)劃,探索方案。
      • 反思(Reflecting):計(jì)劃出錯(cuò)了?我需要糾正什么?

      這套機(jī)制讓智能體的「內(nèi)心戲」變得明確、可追蹤,為獎(jiǎng)勵(lì)其「優(yōu)質(zhì)思考」提供了抓手。

      2. 獎(jiǎng)勵(lì)「好思路」,懲罰「壞習(xí)慣」:可驗(yàn)證的過程獎(jiǎng)勵(lì)

      光有標(biāo)簽還不夠,RLVMR 設(shè)計(jì)了一套輕量級(jí)的驗(yàn)證規(guī)則,實(shí)時(shí)評(píng)估智能體的思考質(zhì)量,并給予即時(shí)獎(jiǎng)勵(lì):

      • 獎(jiǎng)勵(lì)高效思考:當(dāng)智能體在「反思」后成功糾錯(cuò),或制定出有效「規(guī)劃」時(shí),給予正向獎(jiǎng)勵(lì)。
      • 懲罰低效行為:當(dāng)智能體陷入無意義的動(dòng)作循環(huán)或重復(fù)犯錯(cuò)時(shí),給予負(fù)向獎(jiǎng)勵(lì)。

      這種「過程獎(jiǎng)勵(lì)」機(jī)制,像一位貼身教練,不斷引導(dǎo)智能體優(yōu)化其思考與決策路徑,從根本上杜絕「瞎蒙」行為。

      3. 從「結(jié)果導(dǎo)向」到「過程與結(jié)果并重」

      RLVMR 將「過程獎(jiǎng)勵(lì)」與最終的「任務(wù)成功獎(jiǎng)勵(lì)」相結(jié)合,通過策略梯度方法進(jìn)行端到端優(yōu)化。這使得智能體在追求最終目標(biāo)的同時(shí),必須學(xué)會(huì)如何更聰明、更高效地達(dá)成目標(biāo)。

      核心實(shí)驗(yàn)成果:7B 模型比肩「巨頭旗艦」

      在極具挑戰(zhàn)性的 ALFWorld 和 ScienceWorld 兩大長(zhǎng)程任務(wù)基準(zhǔn)上,RLVMR 展現(xiàn)了統(tǒng)治級(jí)的性能。經(jīng)過 RLVMR 訓(xùn)練的 7B 模型,在難度最高、從未見過的任務(wù)(L2 泛化等級(jí))上,成功率高達(dá) 83.6%,不僅遠(yuǎn)超此前所有 SOTA 模型,更證明了其強(qiáng)大的泛化能力。



      此外,我們的方法訓(xùn)練出的智能體更「聰明」,解決任務(wù)的路徑更直接,在 ALFWorld 和 ScienceWorld 的 L2 復(fù)雜環(huán)境中,所需動(dòng)作數(shù)最高減少 28.1%。此外,訓(xùn)練過程本身也告別了「反復(fù)橫跳」式的低效學(xué)習(xí),收斂速度更快、策略更穩(wěn)定,顯著緩解了無效探索問題。





      超越分?jǐn)?shù):RLVMR 實(shí)驗(yàn)中的深度洞察

      洞察一:智能體學(xué)會(huì)「反思」,告別「無效內(nèi)卷」

      傳統(tǒng) RL 智能體像一個(gè)埋頭刷題但從不復(fù)盤的學(xué)生,容易在錯(cuò)誤路徑上反復(fù)掙扎。RLVMR 的核心貢獻(xiàn)在于教會(huì)了智能體「反思」(Reflecting)。



      實(shí)驗(yàn)數(shù)據(jù)顯示,引入「反思」機(jī)制后,智能體在遇到困難時(shí),不再是盲目重試,而是能夠主動(dòng)識(shí)別問題、調(diào)整策略。這正是其重復(fù)動(dòng)作率大幅降低、任務(wù)成功率飆升的根本原因。它揭示了一個(gè)關(guān)鍵點(diǎn):對(duì)于復(fù)雜任務(wù),教會(huì)智能體如何從失敗中學(xué)習(xí),比單純「喂」給它成功的經(jīng)驗(yàn)更重要。

      洞察二:好的推理習(xí)慣,是泛化能力的基石

      為什么 RLVMR 在未見任務(wù)上表現(xiàn)如此出色?



      我們發(fā)現(xiàn),通過獎(jiǎng)勵(lì)「好的思考過程」,RLVMR 幫助智能體建立了一套通用的、不依賴于特定任務(wù)的「元問題解決框架」(如何規(guī)劃、如何探索、如何反思)。當(dāng)面對(duì)新環(huán)境(L2)時(shí),智能體調(diào)用的不再是某個(gè)僵化的「解題模板」,而是這套靈活的「思維方法論」。

      這證實(shí)了一個(gè)重要猜想:真正的泛化能力,源自于對(duì)問題解決過程的深刻理解,而非對(duì)問題答案的機(jī)械記憶。 RLVMR 正是通往這條道路的有效路徑。

      洞察三:先 「冷啟動(dòng)」 再 「強(qiáng)化」—— 智能體的成長(zhǎng)階梯設(shè)計(jì)

      RLVMR 采用了「冷啟動(dòng) SFT + 強(qiáng)化學(xué)習(xí) RL」的兩階段訓(xùn)練流程。這并非簡(jiǎn)單的流程拼接,而是一種符合認(rèn)知規(guī)律的「成長(zhǎng)曲線」設(shè)計(jì)。

      • 冷啟動(dòng)階段(SFT):如同基礎(chǔ)教育,讓智能體先通過模仿學(xué)習(xí),快速掌握「規(guī)劃」「反思」等元推理概念的基本表達(dá)方式。
      • 強(qiáng)化學(xué)習(xí)階段(RL):如同進(jìn)入社會(huì)實(shí)踐,讓智能體在真實(shí)環(huán)境中自由探索,通過「過程獎(jiǎng)勵(lì)」的不斷反饋,將學(xué)到的概念內(nèi)化為真正的能力。



      這一策略啟示我們:在訓(xùn)練高級(jí)智能體時(shí),「先教會(huì)它如何思考,再放手讓它去犯錯(cuò)成長(zhǎng)」,可能是比單一訓(xùn)練范式更高效的路徑。

      總結(jié)與展望

      RLVMR 的提出,為智能體訓(xùn)練帶來了從「結(jié)果導(dǎo)向」到「過程導(dǎo)向」的范式革新。它證明了,通過對(duì)智能體「思考過程」的直接建模與獎(jiǎng)勵(lì),我們能夠有效破解長(zhǎng)程任務(wù)中的「低效探索」與「泛化脆弱」兩大難題。

      我們對(duì) AGI 的終極期待,是一個(gè)能夠獨(dú)立思考、理性決策的伙伴,而不是一個(gè)只會(huì)尋找捷徑的「做題家」。RLVMR 的工作,正是鼓勵(lì)大模型從偶然涌現(xiàn)的能力,走向特定思維模式的強(qiáng)化,為構(gòu)建更魯棒、更高效、更可解釋的通用智能體邁出了堅(jiān)實(shí)的一步。

      這項(xiàng)研究不僅為長(zhǎng)程智能體訓(xùn)練提供了新思路,也為我們探索能真正理解世界、應(yīng)對(duì)未知的下一代 AI 帶來了新的曙光。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      燒光15億!曾叫板迪士尼的樂園,開業(yè)4年倒閉,今竟成網(wǎng)紅打卡地

      燒光15億!曾叫板迪士尼的樂園,開業(yè)4年倒閉,今竟成網(wǎng)紅打卡地

      品牌觀察官
      2025-12-17 20:24:55
      臺(tái)軍派F-16“偷拍”福建艦

      臺(tái)軍派F-16“偷拍”福建艦

      揚(yáng)子晚報(bào)
      2025-12-18 12:35:36
      國(guó)家統(tǒng)計(jì)局原局長(zhǎng)邱曉華:很多人按揭買的房子,房子的價(jià)格已經(jīng)比首付還要低!它給人帶來的心理沖擊是很大的

      國(guó)家統(tǒng)計(jì)局原局長(zhǎng)邱曉華:很多人按揭買的房子,房子的價(jià)格已經(jīng)比首付還要低!它給人帶來的心理沖擊是很大的

      和訊網(wǎng)
      2025-12-18 17:46:52
      江蘇文旅廳調(diào)查南博藏品現(xiàn)身拍賣事件,龐萊臣后人不認(rèn)可偽作說法

      江蘇文旅廳調(diào)查南博藏品現(xiàn)身拍賣事件,龐萊臣后人不認(rèn)可偽作說法

      極目新聞
      2025-12-18 14:34:14
      2026央視跨年晚會(huì)陣容曝光,看完路透和明星名單,廁所都不敢上了

      2026央視跨年晚會(huì)陣容曝光,看完路透和明星名單,廁所都不敢上了

      社會(huì)日日鮮
      2025-12-19 03:32:04
      “南京博物院藏仇英名作現(xiàn)身拍賣市場(chǎng)”追蹤

      “南京博物院藏仇英名作現(xiàn)身拍賣市場(chǎng)”追蹤

      新華社
      2025-12-19 00:20:41
      中足聯(lián)公布首批債務(wù)清償俱樂部名單:中超暫無國(guó)安、西海岸、海牛

      中足聯(lián)公布首批債務(wù)清償俱樂部名單:中超暫無國(guó)安、西海岸、海牛

      懂球帝
      2025-12-18 20:53:10
      本田將暫停在華工廠生產(chǎn)

      本田將暫停在華工廠生產(chǎn)

      第一財(cái)經(jīng)資訊
      2025-12-18 13:51:09
      韋瑟斯龐56+6+6本季最高!青島輕取同曦3連勝 郭昊文18+9失誤

      韋瑟斯龐56+6+6本季最高!青島輕取同曦3連勝 郭昊文18+9失誤

      醉臥浮生
      2025-12-18 21:24:48
      南京博物院盜賣文物,捐贈(zèng)后人追查十年遭打碼“證據(jù)”糊弄,失蹤五件國(guó)寶還有多少黑幕

      南京博物院盜賣文物,捐贈(zèng)后人追查十年遭打碼“證據(jù)”糊弄,失蹤五件國(guó)寶還有多少黑幕

      爆角追蹤
      2025-12-18 15:36:33
      拒春晚、解散公司,和沈騰“決裂”,43歲的賈玲把自己作沒了?

      拒春晚、解散公司,和沈騰“決裂”,43歲的賈玲把自己作沒了?

      查爾菲的筆記
      2025-12-17 13:22:25
      韓國(guó)特工與泰軍合作,潛入電詐園抓獲殺害韓國(guó)女人質(zhì)的中國(guó)籍綁匪

      韓國(guó)特工與泰軍合作,潛入電詐園抓獲殺害韓國(guó)女人質(zhì)的中國(guó)籍綁匪

      環(huán)球熱點(diǎn)快評(píng)
      2025-12-18 11:43:15
      偉大的3-2!馬競(jìng)鐵衛(wèi)轉(zhuǎn)型主帥:將巴黎拖進(jìn)點(diǎn)球大戰(zhàn)!1年奪5冠1亞

      偉大的3-2!馬競(jìng)鐵衛(wèi)轉(zhuǎn)型主帥:將巴黎拖進(jìn)點(diǎn)球大戰(zhàn)!1年奪5冠1亞

      球場(chǎng)沒跑道
      2025-12-18 09:13:28
      南京導(dǎo)航集體失靈,定位軟件全趴窩!連北斗都不行,戰(zhàn)時(shí)就危險(xiǎn)了

      南京導(dǎo)航集體失靈,定位軟件全趴窩!連北斗都不行,戰(zhàn)時(shí)就危險(xiǎn)了

      Thurman在昆明
      2025-12-19 01:09:28
      海南封關(guān)之后當(dāng)?shù)鼐W(wǎng)友吐槽物價(jià)變貴,油條7塊菠菜32一斤

      海南封關(guān)之后當(dāng)?shù)鼐W(wǎng)友吐槽物價(jià)變貴,油條7塊菠菜32一斤

      映射生活的身影
      2025-12-18 22:03:06
      廣州一公司突發(fā)公告:董事長(zhǎng)逝世

      廣州一公司突發(fā)公告:董事長(zhǎng)逝世

      南方都市報(bào)
      2025-12-18 14:20:30
      泰國(guó)駐華大使館評(píng)論區(qū)爆了,感恩不斷

      泰國(guó)駐華大使館評(píng)論區(qū)爆了,感恩不斷

      深度報(bào)
      2025-12-18 22:18:22
      以色列暗殺伊朗核科學(xué)家細(xì)節(jié)曝光:和美國(guó)反復(fù)磋商,暗殺名單從100人縮減至12人

      以色列暗殺伊朗核科學(xué)家細(xì)節(jié)曝光:和美國(guó)反復(fù)磋商,暗殺名單從100人縮減至12人

      爆角追蹤
      2025-12-18 19:38:52
      海南封關(guān),新加坡的沉默震耳欲聾!

      海南封關(guān),新加坡的沉默震耳欲聾!

      環(huán)球策論
      2025-12-18 22:39:23
      香港中環(huán)發(fā)生巨額劫案 4持刀男劫走10億日元

      香港中環(huán)發(fā)生巨額劫案 4持刀男劫走10億日元

      看看新聞Knews
      2025-12-18 14:16:03
      2025-12-19 07:27:00
      機(jī)器之心Pro incentive-icons
      機(jī)器之心Pro
      專業(yè)的人工智能媒體
      11950文章數(shù) 142513關(guān)注度
      往期回顧 全部

      科技要聞

      2025新一代人工智能創(chuàng)業(yè)大賽總決賽收官

      頭條要聞

      特朗普命令2028年登月 在月球部署核反應(yīng)堆

      頭條要聞

      特朗普命令2028年登月 在月球部署核反應(yīng)堆

      體育要聞

      紐約尼克斯,板正的球隊(duì)

      娛樂要聞

      絲芭放大招了!實(shí)名舉報(bào)鞠婧祎經(jīng)濟(jì)犯罪

      財(cái)經(jīng)要聞

      尹艷林:呼吁加快2.5億新市民落戶進(jìn)程

      汽車要聞

      在零下30℃的考場(chǎng)里 凡爾賽C5 X和508L拿到了"穩(wěn)"的證明

      態(tài)度原創(chuàng)

      時(shí)尚
      本地
      親子
      家居
      軍事航空

      陳妍希這婚,離晚了

      本地新聞

      云游安徽|決戰(zhàn)烽火照古今,千秋一脈看宿州

      親子要聞

      這些兒童常用藥,有娃的家庭趕緊備起來

      家居要聞

      高端私宅 理想隱居圣地

      軍事要聞

      福建艦入列后首過臺(tái)海 臺(tái)方談為何"甲板上沒有艦載機(jī)"

      無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 久久ww| 国产黑丝袜在线观看视频| 中国熟妇浓毛hdsex| 3d动漫精品一区二区三区| 99中文视频| 西充县| 内射91| 亚洲播播| 亚洲第一无码AV无码专区| 国产免费人成网站在线播放| 欧美最猛性xxxxx大叫| 国产成人精品三级麻豆| 亚洲成人电影院| 亚洲制服丝袜| 亚洲熟妇色自偷自拍另类| 成人性生交片无码免费看| 国产在线观看黄| 国产精品久久久久久久久动漫| 狠狠躁夜夜躁人人爽天天| 黑人巨大精品欧美一区二区| 视频| 影音先锋AV在线资源| 最新亚洲中文字幕在线| 成人免费ā片在线观看| 精品1卡二卡三卡四卡老狼| 日本熟女视频| 深夜福利视频在线播放| xx性欧美肥妇精品久久久久久| 欧美精品人妻| 国产又色| 野花社区日本免费图片| 洋洋av| 婷婷五月激情综合| 另类无码| 成人无码一级A片在线| 成人午夜免费无码视频在线观看| 亚洲精品日韩在线丰满| 色色欧美| 丰满少妇人妻无码专区| 曰本丰满熟妇xxxx性| 亚洲熟妇久久精品|