<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      中科院和新加坡國大聯手:讓AI學會"聰明偷懶"

      0
      分享至

      這項由中國科學院自動化研究所基礎模型研究中心聯合新加坡國立大學、騰訊等機構開展的研究發表于2026年,論文編號為arXiv:2604.02288v1。有興趣深入了解的讀者可以通過該編號查詢完整論文。這項突破性研究解決了一個困擾AI訓練領域的難題:如何讓大型語言模型既能快速學會復雜推理,又能保持長期穩定的學習效果。


      當前的AI訓練就像教學生做數學題,面臨著兩難選擇。傳統的獎勵式訓練方法就像給學生打分數——答對了就給高分,答錯了就給低分。這種方法很穩定,就像一位嚴格但公正的老師,能讓學生穩步提升。但問題是這種方法太粗糙了,就好比老師只會說"這道題做錯了",但不會指出具體哪一步出了問題,學生學習起來自然比較慢。

      為了解決這個問題,研究人員開發了一種叫做"自蒸餾"的方法。這就像讓學生自己當老師,在知道正確答案的情況下,重新審視自己的解題過程,逐步糾正每一個細節錯誤。這種方法確實能讓學生快速改進,因為它提供了非常具體的指導——不僅知道哪里錯了,還知道每一步應該怎么做。然而,這種方法有個致命缺陷:隨著訓練時間延長,學生會變得越來越不穩定,甚至出現嚴重的學習倒退。

      研究團隊深入分析后發現,自蒸餾方法的不穩定性源于兩個根本問題。首先是"好學生也被過度糾正"的問題。當一個學生已經把題目做對了,卻還要求他按照另一個同樣正確但方法不同的答案來調整自己的解題思路,這就會造成混亂。就像兩個廚師都能做出美味的紅燒肉,但如果強迫一個廚師完全按照另一個廚師的方法來做,反而可能破壞他原本的手藝。

      其次是"老師能力下降"的問題。在自蒸餾過程中,AI既是學生也是老師。隨著訓練進行,"學生AI"和"老師AI"的能力差距逐漸縮小,老師提供的指導變得越來越模糊和不確定。這就像一個剛學會開車的人去教另一個新手,指導質量自然會大打折扣。

      基于這些洞察,研究團隊提出了一種巧妙的解決方案:樣本路由策略優化方法(SRPO)。這個方法的核心思想是"因材施教"——對于不同類型的學習情況,采用最適合的指導方式。

      具體來說,SRPO就像一個智能的學習管理系統。當AI成功解決了一個問題時,系統會使用傳統的獎勵式方法給予鼓勵和強化,就像對優秀學生說"做得很好,繼續保持"。這樣既不會造成混亂,又能穩固正確的學習成果。

      但當AI犯錯時,系統會立即切換到詳細的逐步糾錯模式。這時就像請來了一位經驗豐富的老師,不僅告訴學生答案是錯的,還會具體指出每一個步驟的問題所在,并演示正確的解決方法。這種針對性的指導能夠快速幫助AI改正錯誤。

      更巧妙的是,研究團隊還開發了一套"信心評估機制"。由于在訓練后期,AI老師的指導質量會下降,系統會自動檢測這些指導的可靠程度。當發現指導內容不夠確定時,系統會降低這些建議的權重;而對于那些明確、可靠的指導,系統會給予更高的重視。這就像學生學會了判斷老師建議的質量,對于模糊不清的建議保持謹慎,對于明確有用的建議重點吸收。

      研究團隊在五個不同的基準測試中驗證了這種方法的效果,涵蓋了化學、物理、生物、材料科學和工具使用等多個領域。測試使用了兩種不同規模的AI模型:40億參數和80億參數的Qwen3模型。

      實驗結果令人印象深刻。在80億參數的模型上,SRPO方法將平均準確率提升到了77.4%,相比傳統獎勵方法的74.0%提升了3.4個百分點,相比純自蒸餾方法的71.1%提升了6.3個百分點。在40億參數的模型上,改進效果更加顯著,平均準確率達到74.2%,分別比兩種基準方法提升了4.5和7.5個百分點。

      更重要的是,SRPO成功地結合了兩種方法的優勢。在訓練初期,它展現出與自蒸餾方法相當的快速學習能力;而在長期訓練中,它保持了傳統獎勵方法的穩定性,避免了性能倒退的問題。

      研究還發現了一個有趣的現象:隨著訓練進行,需要詳細糾錯的錯誤樣本逐漸減少,而能夠直接給予獎勵的正確樣本越來越多。這意味著SRPO能夠自動調節兩種學習模式的比重,在早期更多地進行糾錯,在后期更多地進行強化,實現了一種自適應的學習策略。

      在計算效率方面,SRPO也表現出色。雖然在訓練初期由于需要更多的詳細指導而稍微增加了計算開銷,但隨著訓練進行,這種開銷逐漸減少。在長期訓練中,SRPO的每步計算時間比傳統方法減少了多達17.2%。

      此外,研究團隊還發現SRPO訓練出的AI在回答問題時保持了適中的詳細程度。傳統獎勵方法容易產生過于冗長的答案,而純自蒸餾方法則容易產生過于簡短的答案,這種過度簡化可能會丟失重要的推理步驟。SRPO很好地平衡了這兩個極端,生成的答案既不啰嗦也不過于簡略。

      這項研究的意義不僅僅在于技術層面的突破,更在于它提供了一種新的思路來理解AI學習。就像人類教育中需要因材施教一樣,AI訓練也需要根據不同情況采用最合適的方法。SRPO證明了通過智能地組合不同的學習策略,可以獲得比單獨使用任何一種策略更好的效果。

      從更廣泛的角度來看,這項研究為未來開發更強大、更可靠的AI系統提供了重要啟示。隨著AI系統變得越來越復雜,如何有效地訓練它們成為了關鍵挑戰。SRPO展示的"智能路由"思想可能會在更多場景中得到應用,幫助我們構建既高效又穩定的AI學習系統。

      研究團隊也指出了未來的發展方向。他們希望將這種方法擴展到能夠提供更豐富反饋信息的環境中,讓AI能夠從更多樣化的學習信號中受益。這可能會進一步提升AI的學習效率和最終性能。

      說到底,這項研究解決了AI訓練中的一個根本矛盾:快速學習與長期穩定之間的取舍。通過巧妙的設計,研究團隊證明了我們不必在速度和穩定性之間做出選擇,而是可以同時擁有兩者的優勢。這種"既要又要"的解決方案,為AI技術的進一步發展開辟了新的可能性。對于普通人來說,這意味著未來的AI助手將能夠更快地學會新技能,同時保持長期穩定可靠的性能,為我們的日常生活和工作提供更好的支持。有興趣深入了解技術細節的讀者可以通過arXiv:2604.02288v1查詢完整的研究論文。

      Q&A

      Q1:SRPO方法是如何解決AI訓練中速度和穩定性矛盾的?

      A:SRPO采用"因材施教"的策略,對AI做對的題目用傳統獎勵方法鼓勵,對做錯的題目用詳細糾錯方法指導。這樣既保持了快速學習能力,又避免了長期訓練中的不穩定問題,就像給不同水平的學生安排最適合的教學方式。

      Q2:樣本路由策略優化方法相比傳統方法提升了多少性能?

      A:在五個基準測試中,SRPO將80億參數模型的平均準確率提升到77.4%,比傳統GRPO方法高出3.4個百分點,比自蒸餾SDPO方法高出6.3個百分點。同時還將計算成本降低了17.2%,實現了性能和效率的雙重提升。

      Q3:為什么自蒸餾方法在長期訓練中會變得不穩定?

      A:自蒸餾方法的不穩定主要源于兩個問題:一是對已經正確的答案進行過度糾正,造成學習混亂;二是隨著訓練進行,AI老師的指導質量逐漸下降,提供的建議越來越模糊不確定,最終導致學習效果倒退。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      英超德比2-1:兩人重傷+火爆沖突+100分鐘絕殺 10.2億豪門坐穩前5

      英超德比2-1:兩人重傷+火爆沖突+100分鐘絕殺 10.2億豪門坐穩前5

      狍子歪解體壇
      2026-04-19 23:07:25
      英超神劇情:4-3險勝,亞伯拉罕補時絕殺,埃梅里瘋狂慶祝

      英超神劇情:4-3險勝,亞伯拉罕補時絕殺,埃梅里瘋狂慶祝

      足球狗說
      2026-04-19 22:59:23
      機關事業單位“緊日子”來臨,2026年起,這些費用一律不再報銷

      機關事業單位“緊日子”來臨,2026年起,這些費用一律不再報銷

      復轉這些年
      2026-04-19 19:13:36
      萬達電影,明天改名!王健林時代落幕

      萬達電影,明天改名!王健林時代落幕

      新民晚報
      2026-04-19 19:54:05
      美國妹子崩潰大哭:借9.6萬美元上大學,已還16.5萬,還欠22萬

      美國妹子崩潰大哭:借9.6萬美元上大學,已還16.5萬,還欠22萬

      賤議你讀史
      2026-04-19 04:30:07
      悲劇!廣東一96年女生開會時心梗猝死,網友稱她為20000月薪太拼

      悲劇!廣東一96年女生開會時心梗猝死,網友稱她為20000月薪太拼

      火山詩話
      2026-04-19 09:35:22
      這什么絕色神顏配OL裝

      這什么絕色神顏配OL裝

      貴圈真亂
      2026-04-19 11:31:11
      寵物食品品牌“誠實一口”翻車,創始人深夜致歉!其公司注冊資本3年增長137倍

      寵物食品品牌“誠實一口”翻車,創始人深夜致歉!其公司注冊資本3年增長137倍

      半島官網
      2026-04-18 05:58:14
      重磅突破!以色列科學家:吸100%純氧3個月,生理倒拔20歲

      重磅突破!以色列科學家:吸100%純氧3個月,生理倒拔20歲

      劉曠
      2026-04-19 15:27:33
      越南百億高鐵訂單給德國,來華體驗12小時高鐵,背后算計太明顯

      越南百億高鐵訂單給德國,來華體驗12小時高鐵,背后算計太明顯

      苗苗情感說
      2026-04-19 12:38:15
      下周預期要大漲方向!五大熱點題材周末不斷發酵  核心標的已梳理

      下周預期要大漲方向!五大熱點題材周末不斷發酵 核心標的已梳理

      元芳說投資
      2026-04-19 17:03:48
      全場嘩然!29歲女子在相親舞臺稱“娶我一定讓你爽”,王婆也懵了

      全場嘩然!29歲女子在相親舞臺稱“娶我一定讓你爽”,王婆也懵了

      火山詩話
      2026-04-19 06:42:57
      印度油輪霍爾木茲海峽遭炮擊,船員喊話錄音:你們批準我們通行,卻又向我們開火

      印度油輪霍爾木茲海峽遭炮擊,船員喊話錄音:你們批準我們通行,卻又向我們開火

      紅星新聞
      2026-04-19 17:03:18
      涉案金額2.6億元!我國摧毀特大假酒網絡

      涉案金額2.6億元!我國摧毀特大假酒網絡

      每日經濟新聞
      2026-04-19 15:31:45
      比賽提前結束,WSBK荷蘭站第二輪正賽張雪機車斬獲第七名

      比賽提前結束,WSBK荷蘭站第二輪正賽張雪機車斬獲第七名

      澎湃新聞
      2026-04-19 20:28:26
      世錦賽戰報:丁俊暉王者歸來7-2領先,中國冠軍連輸6局6-10一輪游

      世錦賽戰報:丁俊暉王者歸來7-2領先,中國冠軍連輸6局6-10一輪游

      球場沒跑道
      2026-04-19 20:28:00
      11個月建成,投產即滿產!君樂寶開啟一盤國際化大棋

      11個月建成,投產即滿產!君樂寶開啟一盤國際化大棋

      銠財
      2026-04-17 09:58:18
      4月19日俄烏最新:劃時代的會議

      4月19日俄烏最新:劃時代的會議

      西樓飲月
      2026-04-19 21:04:35
      小學生拒絕“借”車遭毆打還被搜家,8人未滿14歲不處罰、1人被處行拘免執行,家長稱看施暴視頻氣得吃救心丸

      小學生拒絕“借”車遭毆打還被搜家,8人未滿14歲不處罰、1人被處行拘免執行,家長稱看施暴視頻氣得吃救心丸

      極目新聞
      2026-04-19 22:39:27
      基輔發生大規模槍擊事件,數十名平民死傷,兇手疑似與俄羅斯有關

      基輔發生大規模槍擊事件,數十名平民死傷,兇手疑似與俄羅斯有關

      鷹眼Defence
      2026-04-19 12:11:43
      2026-04-20 02:36:49
      科技行者 incentive-icons
      科技行者
      科技正在如何變革商業世界
      8048文章數 562關注度
      往期回顧 全部

      科技要聞

      50分26秒破人類紀錄!300臺機器人狂飆半馬

      頭條要聞

      半年下沉22厘米 女子家中坐擁價值上億別墅卻沒法住人

      頭條要聞

      半年下沉22厘米 女子家中坐擁價值上億別墅卻沒法住人

      體育要聞

      湖人1比0火箭:老詹比烏度卡像教練

      娛樂要聞

      何潤東漲粉百萬!內娛隔空掀桌第一人

      財經要聞

      華誼兄弟,8年虧光85億

      汽車要聞

      29分鐘大定破萬 極氪8X為什么這么多人買?

      態度原創

      手機
      旅游
      教育
      游戲
      數碼

      手機要聞

      8.8英寸小鋼炮!REDMI K Pad 2核心配置揭曉

      旅游要聞

      北京投入2.2億元建成和田“三館一院”

      教育要聞

      655家單位、1.29萬個崗位,湖南用心幫大學生找工作

      如何將ZH-1火力最大化?《戰艦世界》15.3版本造船廠加點攻略

      數碼要聞

      華為新機發布前瞻:闊折疊X Max+影像旗艦Pura 90,都沒懸念了

      無障礙瀏覽 進入關懷版