<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      再見,數據標注!騰訊發布R-Zero框架,讓AI自己訓練自己

      0
      分享至


      大數據文摘出品

      一個不再依賴人類數據標注的大模型訓練框架,它來了!

      由騰訊AI Lab與美國圣路易斯華盛頓大學聯合開發的新框架“R-Zero”,成功展示出大語言模型(LLM)如何靠自己訓練自己,不再需要人類提供任務或答案。


      論文地址: https://www.arxiv.org/pdf/2508.05004

      這個突破的核心,是徹底擺脫人類標注數據的依賴,靠模型之間的博弈,自動生成、篩選和吸收新的訓練內容。

      他們用強化學習的方法,讓兩個AI模型互相挑戰、不斷進化,從零開始構建出一個高質量的訓練體系。


      R-Zero采用的結構,是將一個基礎模型一分為二,分別扮演“挑戰者”和“解答者”兩個角色,分別訓練,但共同進化。

      挑戰者的目標是設計剛好夠難的問題,逼迫解答者必須進步;而解答者在解決這些問題中獲得獎勵和提升。

      “不是找到答案難,而是提出好問題難。”顯然,真正稀缺的是“好老師”,而不是“好學生”。

      R-Zero就是通過自動化產生“老師”,讓模型不斷面對新的、更難的考題,從而不斷突破原有水平。

      01 R-Zero的實驗結果

      R-Zero的實驗效果遠超預期,尤其是在推理能力方面,不同規模的開源大模型均出現明顯性能躍升


      騰訊測試了多個模型家族,包括Qwen3系列和OctoThinker,在基礎模型上僅通過R-Zero訓練,就讓推理能力顯著提升。

      例如,Qwen3-4B-Base在數學推理測試中得分平均提升+6.49分;Qwen3-8B-Base在三輪訓練后得分也提升了+5.51分。

      更重要的是,這種通過數學任務訓練得到的推理能力,可以成功遷移到通用推理任務上

      在MMLU-Pro和SuperGPQA等通用領域測試中,Qwen3-4B-Base同樣表現出+7.54分的躍升,說明R-Zero訓練的不只是技巧,而是底層能力。

      甚至在后續再用傳統標注數據微調時,經過R-Zero預訓練的模型也能表現得更好。

      對企業而言,R-Zero的“從零數據”方式尤其具有吸引力,因為許多垂直行業領域,壓根沒有高質量的大規模數據集可供使用


      騰訊的這項研究直接繞開了數據收集、人工標注這些最昂貴、最耗時的流程,變相打破了AI發展的最大天花板:人類知識和數據的邊界。

      02 但問題同樣存在

      盡管R-Zero在性能上令人振奮,但它也暴露出自我進化AI的核心風險:數據質量的失控

      研究者發現,隨著挑戰者不斷提出更復雜的問題,解答者給出的“多數票答案”正確率開始下降。


      第一輪訓練中,自動生成數據的準確率為79%,而到第三輪下降至63%

      相比之下,一個“強大而理想”的大模型如GPT-4,可以保持更高的正確率,這種落差說明自我進化的過程可能存在精度塌陷的風險。這是這個新范式面臨的最大瓶頸。

      目前論文成果只是概念驗證,要真正做到持續穩定進化,不出現性能平臺期,是接下來整個研究社區要攻克的難關。

      此外,R-Zero目前僅適用于“答案可驗證”的任務,如數學推理、科學問答等,其優勢來自于能夠清晰判斷“對”與“錯”。

      那在沒有“標準答案”的領域怎么辦?比如營銷文案、情感寫作、摘要生成?

      騰訊提出了未來的一種可能方向:引入第三個模型角色“驗證者”或“評論員”。

      驗證者將不再判斷對錯,而是評價內容的質量,從多個維度給予評分。

      如此一來,挑戰者繼續生成題目,解答者負責作答,而驗證者則提供反饋。三方協同進化,形成更復雜、更全面的智能結構。

      或許會推動AI從“邏輯能力”邁向“主觀判斷”,不僅懂計算,更懂人類世界的模糊與語境。

      注:頭圖AI生成

      作者長期關注 AI 產業與學術,歡迎對這些方向感興趣的朋友添加微信Q1yezi,共同交流行業動態與技術趨勢!

      GPU 訓練特惠!

      H100/H200 GPU算力按秒計費,平均節省開支30%以上!

      掃碼了解詳情?

      點「贊」的人都變好看了哦!

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      約基奇創13紀錄6點歷史首人!火記挺MVP 巴克利:看他打球太榮幸

      約基奇創13紀錄6點歷史首人!火記挺MVP 巴克利:看他打球太榮幸

      顏小白的籃球夢
      2025-12-27 09:05:45
      扣押中國船后,美方發現中國貨輪填滿了導彈,出其不意發動奇襲?

      扣押中國船后,美方發現中國貨輪填滿了導彈,出其不意發動奇襲?

      南宗歷史
      2025-12-27 11:46:16
      全球最精確預言家:2026,歷史性的一年, 能說的都在這里

      全球最精確預言家:2026,歷史性的一年, 能說的都在這里

      神奇故事
      2025-12-24 23:34:15
      “恨自己沒生在中國”,美國不及格中文試卷走紅,國內學生笑出聲

      “恨自己沒生在中國”,美國不及格中文試卷走紅,國內學生笑出聲

      妍妍教育日記
      2025-12-04 20:11:12
      本月底,中國將收大批革命性武器,殲-36或成美軍航母天敵

      本月底,中國將收大批革命性武器,殲-36或成美軍航母天敵

      小曙說娛
      2025-12-27 13:17:51
      看了熱搜上臭名昭著的母女,我確信世上真有天生的壞種,代代遺傳

      看了熱搜上臭名昭著的母女,我確信世上真有天生的壞種,代代遺傳

      洞見
      2025-12-26 21:13:17
      事實證明,“失蹤”9年的歌手阿寶,早已走上了一條“不同的路”

      事實證明,“失蹤”9年的歌手阿寶,早已走上了一條“不同的路”

      日落于西
      2025-12-27 01:30:49
      邱彪:我們有針對徐杰做出重點防守,但最終的結果顯而易見

      邱彪:我們有針對徐杰做出重點防守,但最終的結果顯而易見

      狼叔評論
      2025-12-26 22:54:02
      霍啟剛郭晶晶帶娃買蜜雪冰城!奶茶先給爺爺喝,這家風才是真豪門

      霍啟剛郭晶晶帶娃買蜜雪冰城!奶茶先給爺爺喝,這家風才是真豪門

      大眼瞄世界
      2025-12-26 23:54:38
      攜程被迫發聲明,但聲明或會讓信任再次崩塌,卸載潮難止!

      攜程被迫發聲明,但聲明或會讓信任再次崩塌,卸載潮難止!

      魯八兩
      2025-12-25 18:20:23
      貸款首次轉負,這個信號不同尋常

      貸款首次轉負,這個信號不同尋常

      大川東山再起
      2025-12-26 15:47:57
      金正恩致電普京:朝鮮永遠同俄羅斯在一起

      金正恩致電普京:朝鮮永遠同俄羅斯在一起

      新華社
      2025-12-27 08:58:02
      “鍍鉻版猛禽”亮相 美國航空攝影師再次拍到采用鏡面涂層的F-22

      “鍍鉻版猛禽”亮相 美國航空攝影師再次拍到采用鏡面涂層的F-22

      hawk26講武堂
      2025-12-26 12:11:08
      湖南一地干部任前公示

      湖南一地干部任前公示

      湖南法治報
      2025-12-26 18:41:04
      吳敬中死前對余則成說:"在天津找穿藍旗袍的女人,她知道你身份"

      吳敬中死前對余則成說:"在天津找穿藍旗袍的女人,她知道你身份"

      飯小妹說歷史
      2025-12-16 16:38:39
      中止運營,萬人外貿大廠轟然倒下

      中止運營,萬人外貿大廠轟然倒下

      跨境派Pro
      2025-12-26 14:34:54
      今冬最冷時間表出爐,何時最冷?2026年春節冷不冷?早看早知道

      今冬最冷時間表出爐,何時最冷?2026年春節冷不冷?早看早知道

      好賢觀史記
      2025-12-25 10:07:03
      一部封神!九條滿:出道一年即消失,卻讓老司機們念念不忘

      一部封神!九條滿:出道一年即消失,卻讓老司機們念念不忘

      灼灼小齊
      2025-12-26 19:41:18
      俄在委內瑞拉問題上再給特朗普劃紅線,扎哈羅娃重申一點

      俄在委內瑞拉問題上再給特朗普劃紅線,扎哈羅娃重申一點

      上觀新聞
      2025-12-26 17:09:18
      放棄中立選邊站,普京盟友準備和中國翻臉?盧卡申科向美遞投名狀

      放棄中立選邊站,普京盟友準備和中國翻臉?盧卡申科向美遞投名狀

      滄海旅行家
      2025-12-27 12:49:49
      2025-12-27 14:35:00
      大數據文摘 incentive-icons
      大數據文摘
      專注大數據,每日有分享!
      6811文章數 94522關注度
      往期回顧 全部

      科技要聞

      小米也漲價了!業界稱終端再不漲明年必虧

      頭條要聞

      美國聯邦政府終止撥款加州高鐵 美國加州撤銷相關訴訟

      頭條要聞

      美國聯邦政府終止撥款加州高鐵 美國加州撤銷相關訴訟

      體育要聞

      NBA教練圈的布朗尼,花了22年證明自己

      娛樂要聞

      劉宇寧:我的價值不需要靠番位來證明

      財經要聞

      注意,開始拉物價了!

      汽車要聞

      好音響比大屏更重要?車企開始“聽”用戶的

      態度原創

      手機
      親子
      旅游
      房產
      公開課

      手機要聞

      聯發科34%份額再度登頂Q3全球手機芯片市場,持續領跑背后的秘訣

      親子要聞

      多吃富含葉黃素的食物對保持孩子眼健康有補益

      旅游要聞

      長白山“云頂天宮”回歸 上演震撼燈光秀

      房產要聞

      炸裂,三亞360億超級清單發布,又一批重大配套要來了!

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 一本a新久道| 免费看男女做好爽好硬视频| 成全影视大全在线观看| 97激情| 永靖县| 精品久久人人妻人人做精品| 国产全肉乱妇杂乱视频| 玩弄放荡人妻少妇系列| 内射自拍| 天天躁日日躁精品人妻| av无码免费一区二区三区| 日韩av无码精品一二三区| 亚洲小说区图片区| 国产成人A片| 久久本道综合久久伊人| 色狠狠色噜噜av天堂一区| 久久国产成人午夜av影院| 上海旅游集散中心网上订票| 天天操?天天干?天天爽| 99久久精品免费看国产一区二区三区| 欧美肥老太交视频免费| 精品人妻潮喷久久久又裸又黄| 中文字幕人妻小说| 日本新janpanese乱熟| 真实国产乱啪福利露脸| 谁有老熟女网站| 亚洲日韩成人综合| 国产av麻豆mag剧集| AV秘 无码一区二| 高清无码久久久久| 久精品国产欧美亚洲色aⅴ大片| 各种少妇正面着bbw撒尿视频| 国产成人高清精品免费软件| 成人黄电影| 日产精品久久久久久久| 国产高清不卡一区二区| 成人自拍中文字幕| 抚顺县| 久久人人爽人人人人爽av| 亚洲亚洲人成综合网络| 粉嫩av懂色av蜜臀av熟妇|