<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      中科院與小紅書聯合破解AI推理難題:讓機器像人一樣能探索驗證

      0
      分享至


      這項由中國科學院大學軟件研究所的溫學茹、劉彥江、林宏宇等研究人員,聯合小紅書公司的樓杰、張德兵等專家共同完成的研究,發表于2025年12月的arXiv預印本平臺(論文編號arXiv:2512.12576v1),為解決大型語言模型的推理訓練難題提出了全新的解決方案。有興趣深入了解技術細節的讀者可以通過該論文編號查詢完整研究內容。

      當我們面對一道復雜的數學題時,通常會采用兩種截然不同的策略。有時候,我們會先仔細分析題目,然后一步步推導出答案,這就像一個偵探從線索開始逐步破案。但另一些時候,如果我們已經知道答案或者有了大致方向,我們會反過來驗證這個答案是否正確,就像從結論倒推論證過程。

      目前的AI系統在學習推理時面臨著類似的選擇困境,但它們往往只能采用其中一種策略,這就像是讓一個學生只能用一種方法解題一樣,效率自然不夠理想。現有的強化學習方法雖然在數學推理等可驗證的任務中表現出色,但它們依賴于外部驗證器來判斷答案的正確性。當涉及到無法輕易驗證答案的復雜推理任務時,這些方法就顯得力不從心了。

      為了解決這個問題,近期出現了一些"無驗證器"的強化學習方法,它們不再依賴外部判斷,而是利用AI模型自身對正確答案的預測概率作為獎勵信號。這種方法可以比喻為讓學生自己評估答案的可信度。然而,這些方法通常只從問題開始生成推理過程,就像總是要求學生從頭開始解題,而不允許他們從已知答案驗證推理過程。這種單一的訓練方式導致了兩個關鍵問題:一是探索效率低下,特別是在面對困難問題時,模型很難找到有用的推理路徑;二是推理過程與最終答案之間可能出現不一致,即使推理邏輯正確,但由于答案格式不匹配等原因,仍然可能得到較低的獎勵。

      面對這樣的挑戰,研究團隊提出了一個名為"耦合變分強化學習"(CoVRL)的創新框架。這個方法的核心思想是將變分推理和強化學習巧妙地結合起來,通過混合采樣策略同時利用"先驗分布"和"后驗分布"這兩種互補的生成模式。

      為了更好地理解這個概念,我們可以把AI的推理學習過程比作學習烹飪。傳統的方法就像只教學生按照食譜一步步做菜(先驗分布),而不告訴他們最終菜品應該是什么樣子。而研究團隊的新方法則是既教學生按食譜做菜,又讓他們從成功的菜品反推制作過程(后驗分布)。通過這種雙重訓練,學生不僅學會了基本的烹飪步驟,還理解了不同步驟與最終成果之間的關聯。

      具體來說,這個框架構建了一個"復合分布",將問題導向的先驗分布和答案導向的后驗分布有機結合。先驗分布對應于現實推理條件,即只根據問題生成推理過程;而后驗分布則利用答案信息,生成更加連貫和準確的推理路徑。這種雙模式策略在訓練期間提供答案指導,同時確保學到的推理模式能夠有效遷移到實際推理場景中。

      在實際實施過程中,由于直接從復合分布采樣在計算上比較復雜,研究團隊采用了一種混合采樣策略。他們為每個訓練樣本隨機選擇使用先驗分布還是后驗分布,然后通過最大化變分下界來進行優化。這個下界包含一個重建項(用于答案預測)和一個正則化項(確保遷移性)。通過重要性加權技術,他們能夠使用同一個底層語言模型在不同的提示模板下進行無縫訓練。

      為了處理KL散度這一關鍵的正則化組件,研究團隊擴展了現有的低方差KL估計器,使其適用于復合分布設置。他們根據采樣分布的不同,推導出不同的估計器形式,并通過Bregman散度控制變量來減少估計方差。這種技術處理確保了訓練過程的穩定性和可靠性。

      在實驗設計方面,研究團隊使用了從WebInstruct數據集中篩選出的非數學問題數據,以評估算法在一般推理能力方面的改進效果。他們沒有進行額外的數據過濾,以評估算法在不同問題類型、難度水平和質量變化中的魯棒性。實驗主要基于Qwen2.5-7B-Base模型進行,直接在基礎模型上進行微調,而沒有中間的監督微調階段。

      與其他無驗證器方法的對比實驗結果顯示,CoVRL在綜合性能上取得了顯著提升。在包括數學推理和一般推理在內的多個基準測試中,該方法相比基礎模型實現了12.4%的性能提升,并且相比最強的基線方法額外獲得了2.3%的改進。值得注意的是,盡管訓練時使用的是非數學問題,但該方法在數學推理任務上也表現出了實質性的提升,這證明了通過多樣化問題解決學習到的一般推理能力可以有效遷移,突顯了一般推理技能發展的價值。

      訓練動態分析揭示了幾個重要發現。首先,后驗分布在提供指導方面非常有效,在整個訓練過程中始終保持比先驗分布更高的獎勵分數,這證實了答案導向采樣策略的有效性,并確認后驗采樣能夠更高效地探索高質量推理路徑。其次,CoVRL通過延長的思維鏈追蹤提升了推理能力,響應長度的穩定增加表明模型逐漸生成更詳細的推理過程,這種趨勢表明CoVRL成功地鼓勵了詳盡的逐步解釋。此外,正則化提供了穩定的優化動態,NLL和KL損失的穩定下降趨勢表明改進的答案預測和成功的正則化,確認了變分目標有效地平衡了重建和正則化項。

      關于混合采樣策略的影響,研究團隊通過改變先驗分布和后驗分布之間的混合比例進行了深入分析。結果表明,低先驗采樣概率(α=0.1)的表現優于高先驗采樣概率(α=0.9),這突顯了后驗分布在算法中的重要作用。當先驗采樣占主導時,模型主要從先驗分布采樣,響應推理鏈長度會減少。這是因為在改善獎勵方面存在困難,導致模型優先考慮最小化KL損失并生成更短的序列。相比之下,當后驗采樣占主導時,推理鏈長度增加,后驗主導的采樣比先驗主導的采樣取得更好的性能。然而,由于訓練-推理不匹配,性能仍然不如平衡采樣。

      進一步的實驗表明,CoVRL在不同基礎模型上都表現出了魯棒性。研究團隊在Qwen2.5和Qwen3基礎模型上進行了評估,模型參數從7B到14B不等。結果顯示,CoVRL在所有測試模型上都帶來了一致的性能改進,證明了其在不同模型架構中的魯棒性。同時,針對不同訓練數據組成的評估結果表明,僅在數學數據上訓練的模型在非數學推理任務上表現出增強的性能,類似地,僅在非數學數據上訓練的模型在數學任務上也有改進。這表明該方法使模型能夠獲得可在不同領域間遷移的通用推理能力。

      在損失組件的影響分析中,研究團隊發現KL正則化對于維持訓練穩定性至關重要。當KL散度系數降低到0.1時,所有基準測試的性能都顯著下降,總體準確率降至27.4%。這種性能下降源于KL正則化不足時的訓練不穩定性,在訓練過程中觀察到KL散度的大幅增加,表明先驗和后驗分布之間存在顯著偏差。這導致了訓練-推理不匹配問題和訓練不穩定性,因為實際上是在進行離策略優化,訓練和推理之間的分布偏移不斷增加。

      相比之下,模型對NLL損失系數的變化似乎不太敏感。當NLL系數降低到0.1時,性能適度下降至44.7%。研究團隊將這種韌性歸因于RL項和NLL損失本質上優化相同的目標,兩者都旨在改善答案預測質量。NLL損失主要訓練模型總結推理和產生最終答案的能力。

      關于獎勵函數配方的研究表明,所有獎勵配方都實現了非常相似的總體性能,變化不到1個百分點(49.7%到50.6%)。這種一致性表明CoVRL框架對各種獎勵配方都具有魯棒性,無論是在長度標準化方面比較序列長度平均與非標準化概率和,還是在對數變換方面檢查是否使用對數概率或原始概率作為獎勵信號。

      說到底,這項研究為AI推理訓練開辟了一條全新的道路。通過巧妙地結合探索性學習和驗證性學習兩種模式,CoVRL框架不僅解決了現有方法的關鍵限制,還在多個基準測試中取得了令人矚目的性能提升。這種方法的成功不僅體現在數字上的改進,更重要的是它展示了一種更加自然、更加符合人類學習規律的AI訓練方式。

      歸根結底,這項技術的意義遠超出學術研究的范疇。隨著大型語言模型在日常生活中的應用越來越廣泛,從智能助手到教育工具,從內容創作到決策支持,更強的推理能力意味著這些AI系統能夠更好地理解和解決復雜問題,為人們提供更可靠、更有價值的幫助。當AI能夠像人類一樣既善于探索未知又善于驗證已知時,我們或許正在見證人工智能向真正的智能化邁出的重要一步。對于那些關注AI技術發展趨勢的讀者來說,這項研究無疑提供了一個值得深思的新方向:未來的AI系統可能不再是單一模式的問題解決者,而是能夠靈活運用多種思維方式的智能伙伴。

      Q&A

      Q1:什么是耦合變分強化學習CoVRL?

      A:CoVRL是中科院和小紅書聯合開發的AI訓練新方法,它讓AI既能從問題開始探索推理過程,又能從答案反推驗證思路,就像讓學生既會從頭解題又會驗算一樣,這種雙重訓練模式大大提高了AI的推理能力。

      Q2:CoVRL相比傳統方法有什么優勢?

      A:傳統方法只能單向解題,效率不高且容易出現推理與答案不匹配的問題。CoVRL通過混合兩種學習模式,解決了探索效率低和推理一致性差的問題,在實驗中相比基礎模型提升了12.4%的性能,比最強基線方法額外提升2.3%。

      Q3:這項技術對普通人有什么影響?

      A:隨著AI推理能力的提升,未來的智能助手、教育工具和決策支持系統將變得更可靠和有用。這意味著AI能更好地理解復雜問題,為我們在工作、學習和生活中提供更準確的幫助和建議。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      最常見的蔬菜,漲的比肉都貴了?

      最常見的蔬菜,漲的比肉都貴了?

      中國新聞周刊
      2025-12-30 13:59:52
      美國一個頂級的戰略家晚年反復說,我們犯了個天大的戰略錯誤

      美國一個頂級的戰略家晚年反復說,我們犯了個天大的戰略錯誤

      南權先生
      2025-12-30 16:31:27
      剪發、玩手機、拒交流!小玥兒這波“無聲反抗”,狠狠打誰的臉?

      剪發、玩手機、拒交流!小玥兒這波“無聲反抗”,狠狠打誰的臉?

      阿廢冷眼觀察所
      2025-12-29 03:51:04
      里勒復出被針對,賽后看看各界媒體專家咋說,球迷:三次硬解打進

      里勒復出被針對,賽后看看各界媒體專家咋說,球迷:三次硬解打進

      曦言說
      2026-01-01 07:08:48
      書記每次簽字都故意讓我空等3小時,我不急不躁,他晉升時卻后悔了

      書記每次簽字都故意讓我空等3小時,我不急不躁,他晉升時卻后悔了

      張道陵秘話
      2025-12-28 12:08:06
      德媒:中國技術最大的原罪,就是害德國人太上癮了,想戒都戒不掉

      德媒:中國技術最大的原罪,就是害德國人太上癮了,想戒都戒不掉

      議紀史
      2025-12-30 19:55:03
      北京首鋼拒絕連敗!全力戰勝廣東宏遠,陳盈駿復出,央視直播

      北京首鋼拒絕連敗!全力戰勝廣東宏遠,陳盈駿復出,央視直播

      體壇瞎白話
      2025-12-31 07:56:01
      安徽蕪湖三山經濟開發區黨工委原書記孫躍文被“雙開”

      安徽蕪湖三山經濟開發區黨工委原書記孫躍文被“雙開”

      界面新聞
      2025-12-31 20:08:41
      從腳抽筋到去世,僅僅一晚!這起悲劇,給所有人敲響了警鐘

      從腳抽筋到去世,僅僅一晚!這起悲劇,給所有人敲響了警鐘

      讀懂世界歷史
      2025-12-24 21:45:32
      “小寶探花”案件回顧:瘋狂約會上百名女性,一人拍攝,一人販賣

      “小寶探花”案件回顧:瘋狂約會上百名女性,一人拍攝,一人販賣

      就一點
      2025-12-30 21:32:02
      日本預測,未來20年亞洲最發達的“四座城市”,我國幾座榜上有名

      日本預測,未來20年亞洲最發達的“四座城市”,我國幾座榜上有名

      牛牛叨史
      2024-07-19 23:32:16
      陳賡同林帥三次爆發爭執,陳賡怒斥:再頂嘴我就斃了你!林彪為何敢于堅持己見?

      陳賡同林帥三次爆發爭執,陳賡怒斥:再頂嘴我就斃了你!林彪為何敢于堅持己見?

      文史明鑒
      2025-12-28 20:26:09
      俄羅斯只剩一顆預警衛星可用?疑似丟掉兩座戰略核潛艇反應堆

      俄羅斯只剩一顆預警衛星可用?疑似丟掉兩座戰略核潛艇反應堆

      鷹眼Defence
      2025-12-31 17:27:33
      戰斗隨時打響!解放軍將在海峽中部開火!臺:大陸已做好最壞打算

      戰斗隨時打響!解放軍將在海峽中部開火!臺:大陸已做好最壞打算

      來科點譜
      2025-12-31 08:52:31
      攤牌了!73歲唐國強終于承認與劉曉慶的真實關系,曾志偉當場傻眼

      攤牌了!73歲唐國強終于承認與劉曉慶的真實關系,曾志偉當場傻眼

      振華觀史
      2025-12-30 13:47:05
      牛排“原肉整切”的文字游戲:哪有什么純牛肉

      牛排“原肉整切”的文字游戲:哪有什么純牛肉

      經濟觀察報
      2025-12-31 19:58:18
      詹姆斯的經紀人里奇·保羅,仍然堅持不認同“三巨頭”超級球隊

      詹姆斯的經紀人里奇·保羅,仍然堅持不認同“三巨頭”超級球隊

      好火子
      2026-01-01 06:34:42
      最新 | 2027年5月起,禁止上路!天津明確!

      最新 | 2027年5月起,禁止上路!天津明確!

      天津廣播
      2025-12-31 14:46:07
      從無視陳夢握手,到2次投訴后輩蒯曼,國乒某名將的風評越來越差

      從無視陳夢握手,到2次投訴后輩蒯曼,國乒某名將的風評越來越差

      譚顳愛搞笑
      2025-12-30 21:35:03
      廣西壯族自治區信訪局原黨組書記、局長陳榮茂被“雙開”

      廣西壯族自治區信訪局原黨組書記、局長陳榮茂被“雙開”

      界面新聞
      2025-12-31 16:57:23
      2026-01-01 09:15:00
      至頂AI實驗室 incentive-icons
      至頂AI實驗室
      一個專注于探索生成式AI前沿技術及其應用的實驗室。
      895文章數 151關注度
      往期回顧 全部

      科技要聞

      老羅,演砸了,也封神了?

      頭條要聞

      牛彈琴:2026第一天 世界最關注三件事

      頭條要聞

      牛彈琴:2026第一天 世界最關注三件事

      體育要聞

      楊瀚森為球迷送上新年祝福:深知自身差距 亦在全力追趕

      娛樂要聞

      官宣才兩天就翻車?七七被連環爆料

      財經要聞

      高培勇:分配制度改革是提振消費的抓手

      汽車要聞

      凱迪拉克純電中型SUV 售價不足24萬/33寸曲面屏

      態度原創

      親子
      游戲
      本地
      手機
      公開課

      親子要聞

      千城百縣看中國丨山東廣饒:幼兒園里“趕廟會”

      宮崎英高:FromSoftware并沒有發明魂系游戲

      本地新聞

      即將過去的2025年,對重慶的影響竟然如此深遠

      手機要聞

      REDMI Turbo 5再曝,9000mAh大電池

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 五河县| 日韩精品极品视频在线观看免费| 亚洲一区二区偷拍精品| jizzjizzyou| 思南县| 高级会所人妻互换94部分| 久久精品电影| 三级色网| 欧美人禽动交zoz0zzo| 国产suv精品一区二区883| 日本最新免费二区三区| 日本深夜福利在线观看| jjzz国产| 午夜欧美精品久久久久久久| 自拍偷自拍亚洲精品播放| 国产综合久久久久鬼色| 中文字幕av久久爽一区| 国产麻豆剧传媒精品国产av| 亚洲熟妇丰满大屁股熟妇| 精品一区二区三区四区| 凤城市| 亚洲日本va午夜蜜芽在线电影| 国产精品v片在线观看不卡| 亚洲另类图| 中文字幕亚洲区| 精品国产一区二区三区香蕉| 久久久天堂国产精品女人| 国产精品一亚洲AV日韩AV欧| 狠狠?综合?精品?伊人| 九九九九精品视频在线观看| 亚洲成av人片天堂网无码 | 久久综合九色综合网站| 亚洲精品久荜中文字幕| 日日日操| 草裙社区精品视频播放| 国产精品无码mv在线观看| 亚洲无码18禁| 秋霞二区| 99久久国语露脸精品国产| 69精品丰满人妻无码视频a片| 亚洲黄色短视频|