<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      字節(jié)Seed團(tuán)隊(duì)發(fā)布循環(huán)語言模型Ouro,在預(yù)訓(xùn)練階段直接「思考」

      0
      分享至



      機(jī)器之心報(bào)道

      機(jī)器之心編輯部

      現(xiàn)代 LLM 通常依賴顯式的文本生成過程(例如「思維鏈」)來進(jìn)行「思考」訓(xùn)練。這種策略將推理任務(wù)推遲到訓(xùn)練后的階段,未能充分挖掘預(yù)訓(xùn)練數(shù)據(jù)中的潛力。

      為解決這一問題,字節(jié) Seed 團(tuán)隊(duì)聯(lián)合多家機(jī)構(gòu)推出了Ouro,一類被稱為循環(huán)語言模型(Looped Language Models)的新型預(yù)訓(xùn)練模型,其名稱源于象征循環(huán)與自我吞噬的「銜尾蛇」(Ouroboros)。

      Ouro 另辟蹊徑通過(i)在潛在空間中進(jìn)行迭代計(jì)算,(ii)采用熵正則化目標(biāo)以實(shí)現(xiàn)學(xué)習(xí)型深度分配,以及(iii)擴(kuò)展至 7.7T tokens 的數(shù)據(jù)規(guī)模,將推理能力直接構(gòu)建到了預(yù)訓(xùn)練階段。 這些設(shè)計(jì)使得模型能夠在預(yù)訓(xùn)練階段直接學(xué)習(xí)和構(gòu)建推理能力,而非僅依賴后期微調(diào)。



      • 論文標(biāo)題:Scaling Latent Reasoning via Looped Language Models
      • 論文地址:https://arxiv.org/pdf/2510.25741
      • 項(xiàng)目主頁:https://ouro-llm.github.io/
      • HuggingFace:https://huggingface.co/collections/ByteDance/ouro

      通過對(duì)照實(shí)驗(yàn),研究者發(fā)現(xiàn) Ouro 的性能提升并非源于知識(shí)存儲(chǔ)量的增加,而是得益于其更高效的知識(shí)操控與推理能力。進(jìn)一步分析表明,Ouro 的潛在推理過程相比標(biāo)準(zhǔn) LLM,更接近真實(shí)的人類推理機(jī)制。



      Ouro 循環(huán)語言模型的性能。(左)參數(shù)共享的循環(huán)架構(gòu)。(中與右)雷達(dá)圖比較了 Ouro 1.4B 與 2.6B 模型(均采用 4 個(gè)循環(huán)步,紅色)與單獨(dú)的 Transformer 基線模型。我們的模型表現(xiàn)出強(qiáng)勁性能,可與更大規(guī)模的基線模型相媲美,甚至在部分任務(wù)上超越它們。

      最終,Ouro 的 1.4B 和 2.6B 參數(shù)規(guī)模的 LoopLM,分別能在幾乎所有基準(zhǔn)測(cè)試中達(dá)到與 4B 和 8B 標(biāo)準(zhǔn) Transformer 相當(dāng)?shù)男阅埽瑢?shí)現(xiàn)了 2–3 倍的參數(shù)效率提升,顯示了其在數(shù)據(jù)受限時(shí)代下作為一種新型擴(kuò)展路徑的潛力。



      在高級(jí)推理基準(zhǔn)測(cè)試中的表現(xiàn)。Ouro-Thinking 系列模型與強(qiáng)大的基線模型(如 Qwen3 和 DeepSeek-Distill)進(jìn)行對(duì)比。Ouro-1.4B-Thinking R4 的性能可與 4B 規(guī)模模型相媲美,而 Ouro-2.6B-Thinking R4 在多個(gè)數(shù)學(xué)與科學(xué)數(shù)據(jù)集上的表現(xiàn)達(dá)到或超越了 8B 規(guī)模模型。

      另外,LoopLM 架構(gòu)在 HEx-PHI 基準(zhǔn)上顯著降低了有害性,且隨著循環(huán)步數(shù)(包括外推步)增加,模型的安全性進(jìn)一步提升。與傳統(tǒng)的 CoT 方法不同,研究者的迭代潛變量更新機(jī)制產(chǎn)生的是因果一致的推理過程,而非事后的合理化解釋。

      循環(huán)架構(gòu)

      LoopLM 架構(gòu)的靈感來源于「通用 Transformer」。其核心思想是在一個(gè)固定的參數(shù)預(yù)算內(nèi)實(shí)現(xiàn)「動(dòng)態(tài)計(jì)算」。具體而言,該架構(gòu)包含一個(gè)由 N 個(gè)共享權(quán)重層組成的「層堆棧」。

      在模型的前向傳播過程中,這個(gè)共享的層堆棧會(huì)被循環(huán)應(yīng)用多次,即經(jīng)歷多個(gè)「循環(huán)步驟」。這種設(shè)計(jì)將模型的計(jì)算規(guī)模從「參數(shù)數(shù)量」解耦到了「計(jì)算深度」。

      該架構(gòu)的關(guān)鍵特性是其自適應(yīng)計(jì)算能力。它集成了一個(gè)學(xué)習(xí)到的「退出門」,當(dāng)模型處理輸入時(shí):簡(jiǎn)單輸入可能會(huì)在經(jīng)歷較少的循環(huán)步驟后就提前退出,從而節(jié)省計(jì)算資源;復(fù)雜輸入則會(huì)自然地被分配更多的迭代次數(shù),以進(jìn)行更深層的處理。

      這種迭代重用被視為一種「潛在推理」。與 CoT 在外部生成顯式文本步驟不同,LoopLM 是在模型的內(nèi)部隱藏狀態(tài)中構(gòu)建了一個(gè)「潛在思想鏈」。每一次循環(huán)都是對(duì)表征的逐步精煉,從而在不增加參數(shù)的情況下提升了模型的知識(shí)操縱能力。

      訓(xùn)練流程

      Ouro 的訓(xùn)練流程是一個(gè)多階段過程,總共使用了 7.7T tokens 的數(shù)據(jù)。

      如圖 4 所示,該流程始于一個(gè)通用的預(yù)熱階段,隨后是使用 3T token 的初始穩(wěn)定訓(xùn)練階段。在此之后,模型通過「upcycling」策略分支為 1.4B 和 2.6B 兩種參數(shù)規(guī)模的變體。



      兩種變體均獨(dú)立經(jīng)歷后續(xù)四個(gè)相同的訓(xùn)練階段:第二次穩(wěn)定訓(xùn)練(3T token)、CT 退火(CT Annealing, 1.4T token)、用于長(zhǎng)上下文的 LongCT(20B token)以及中途訓(xùn)練(Mid-Training, 300B token)。

      這個(gè)過程產(chǎn)生了 Ouro-1.4B 和 Ouro-2.6B 兩個(gè)基礎(chǔ)模型。最后,為了強(qiáng)化特定能力,模型還額外經(jīng)歷了一個(gè)專門的推理監(jiān)督微調(diào)階段,以創(chuàng)造出專注于推理的 Ouro-Thinking 系列模型。

      在訓(xùn)練穩(wěn)定性方面,團(tuán)隊(duì)發(fā)現(xiàn)最初使用 8 個(gè)循環(huán)步驟會(huì)導(dǎo)致?lián)p失尖峰等不穩(wěn)定問題,因此在后續(xù)階段將循環(huán)步驟減少到 4,以此在計(jì)算深度和穩(wěn)定性之間取得了平衡。

      為了讓模型學(xué)會(huì)何時(shí)「提前退出」,訓(xùn)練流程采用了新穎的兩階段目標(biāo):



      循環(huán)語言模型架構(gòu)概覽。

      左圖為訓(xùn)練階段。在訓(xùn)練過程中,模型使用共享參數(shù)的 N 層堆疊結(jié)構(gòu),并執(zhí)行 n 個(gè)循環(huán)步驟(R = 1 到 R = n)。在每個(gè)循環(huán)步驟 i,一個(gè)退出門預(yù)測(cè)退出概率 p?,而語言建模頭 L? 則計(jì)算對(duì)應(yīng)的任務(wù)損失。 訓(xùn)練目標(biāo)函數(shù)結(jié)合了所有循環(huán)步驟的期望任務(wù)損失,并加入熵正則化項(xiàng) H(p?,…,p?),以鼓勵(lì)模型探索不同的計(jì)算深度。



      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      澳大利亞奪槍男子已獲934萬元捐款,身中數(shù)槍,左臂或保不住,奪槍前曾留下一句話……

      澳大利亞奪槍男子已獲934萬元捐款,身中數(shù)槍,左臂或保不住,奪槍前曾留下一句話……

      都市快報(bào)橙柿互動(dòng)
      2025-12-16 21:29:59
      中超國內(nèi)球員身價(jià)前十:塞鳥、王鈺棟150萬歐居首,韋世豪第五

      中超國內(nèi)球員身價(jià)前十:塞鳥、王鈺棟150萬歐居首,韋世豪第五

      懂球帝
      2025-12-17 19:14:04
      中國第三次財(cái)富大洗牌!看懂這四大方向,普通人或?qū)⒈└唬?>
    </a>
        <h3>
      <a href=老范談史
      2025-12-16 19:18:35
      中日在安理會(huì)大吵一架,日代表要求中方閉嘴,還讓聯(lián)合國聽日本的

      中日在安理會(huì)大吵一架,日代表要求中方閉嘴,還讓聯(lián)合國聽日本的

      老呶侃史
      2025-12-18 01:21:35
      4死1傷!柳州69歲老人砍鄰居跳樓身亡疑長(zhǎng)期忍受被小孩吵不得休息

      4死1傷!柳州69歲老人砍鄰居跳樓身亡疑長(zhǎng)期忍受被小孩吵不得休息

      歷史偉人錄
      2025-12-17 15:01:17
      一傳不穩(wěn)進(jìn)攻不利,吳夢(mèng)潔獨(dú)木難支!上海女排擊敗江蘇贏關(guān)鍵戰(zhàn)

      一傳不穩(wěn)進(jìn)攻不利,吳夢(mèng)潔獨(dú)木難支!上海女排擊敗江蘇贏關(guān)鍵戰(zhàn)

      金毛愛女排
      2025-12-17 21:42:05
      多虧銀行人員提醒 ,60歲以上有存款老年人注意!一定牢記這6件事

      多虧銀行人員提醒 ,60歲以上有存款老年人注意!一定牢記這6件事

      時(shí)尚的弄潮
      2025-12-17 14:04:20
      洪森又火了,這次不是因?yàn)榕逋ㄌ梗且驗(yàn)樗淖腺e——陳志!

      洪森又火了,這次不是因?yàn)榕逋ㄌ梗且驗(yàn)樗淖腺e——陳志!

      忠于法紀(jì)
      2025-10-18 08:53:26
      一家三口確診肝癌!轉(zhuǎn)告家人:冰箱久放的5種食物,是癌癥誘因

      一家三口確診肝癌!轉(zhuǎn)告家人:冰箱久放的5種食物,是癌癥誘因

      蜉蝣說
      2025-11-30 08:25:09
      “十五五”目標(biāo)@奮斗者|發(fā)展新質(zhì)生產(chǎn)力 培育壯大新動(dòng)能

      “十五五”目標(biāo)@奮斗者|發(fā)展新質(zhì)生產(chǎn)力 培育壯大新動(dòng)能

      新華社
      2025-12-16 17:22:30
      疑點(diǎn)重重:俄媒發(fā)布視頻,極力想證明潛艇沒被烏克蘭無人艇擊中

      疑點(diǎn)重重:俄媒發(fā)布視頻,極力想證明潛艇沒被烏克蘭無人艇擊中

      鷹眼Defence
      2025-12-17 17:43:11
      李小璐寫真生圖高清

      李小璐寫真生圖高清

      翩翩明星
      2025-11-14 09:39:36
      54歲演《大生意人》爆火,如今又父子同臺(tái)飆戲,17歲兒子比他還帥

      54歲演《大生意人》爆火,如今又父子同臺(tái)飆戲,17歲兒子比他還帥

      銀河史記
      2025-12-17 20:10:35
      寧波這回鬧大了!外賣平臺(tái)本想給商家立規(guī)矩,結(jié)果把大家逼急了!

      寧波這回鬧大了!外賣平臺(tái)本想給商家立規(guī)矩,結(jié)果把大家逼急了!

      青青子衿
      2025-12-17 04:58:18
      山東省醫(yī)院收入排名,齊魯?shù)谝唬?>
    </a>
        <h3>
      <a href=醫(yī)脈圈
      2025-12-17 21:02:45
      鄭麗文亮出犀利三招,徹底喚醒三種人,國民黨內(nèi)藍(lán)皮綠骨沒有活路

      鄭麗文亮出犀利三招,徹底喚醒三種人,國民黨內(nèi)藍(lán)皮綠骨沒有活路

      安之若憟
      2025-12-18 02:18:18
      活久見!真要開倒車了:手機(jī)、電腦的內(nèi)存,明年會(huì)變小了

      活久見!真要開倒車了:手機(jī)、電腦的內(nèi)存,明年會(huì)變小了

      互聯(lián)網(wǎng).亂侃秀
      2025-12-16 11:56:53
      郵報(bào):水晶宮主席得知曼聯(lián)愿為比薩卡付5000萬時(shí)差點(diǎn)摔下椅子

      郵報(bào):水晶宮主席得知曼聯(lián)愿為比薩卡付5000萬時(shí)差點(diǎn)摔下椅子

      懂球帝
      2025-12-17 20:29:05
      越來越多的人在借網(wǎng)貸養(yǎng)家。

      越來越多的人在借網(wǎng)貸養(yǎng)家。

      愛吃糖的貓cat
      2025-12-17 19:35:39
      遼寧男籃終于屈服了!賽后吳乃群接受采訪回答非常理性

      遼寧男籃終于屈服了!賽后吳乃群接受采訪回答非常理性

      遼沈音信
      2025-12-18 00:16:10
      2025-12-18 04:35:00
      機(jī)器之心Pro incentive-icons
      機(jī)器之心Pro
      專業(yè)的人工智能媒體
      11943文章數(shù) 142512關(guān)注度
      往期回顧 全部

      科技要聞

      特斯拉值1.6萬億靠畫餅 Waymo值千億靠跑單

      頭條要聞

      萬斯公開與特朗普唱反調(diào) 承認(rèn)美國人生活成本高漲

      頭條要聞

      萬斯公開與特朗普唱反調(diào) 承認(rèn)美國人生活成本高漲

      體育要聞

      短短一年,從爭(zhēng)冠到0勝墊底...

      娛樂要聞

      狗仔曝?zé)岵〗愕軕僬嬲劻耍浚浚?/h3>

      財(cái)經(jīng)要聞

      重磅信號(hào)!收入分配制度或迎重大突破

      汽車要聞

      一車多動(dòng)力+雙姿態(tài) 長(zhǎng)城歐拉5上市 限時(shí)9.18萬元起

      態(tài)度原創(chuàng)

      健康
      本地
      親子
      手機(jī)
      家居

      這些新療法,讓化療不再那么痛苦

      本地新聞

      云游安徽|踏過戰(zhàn)壕與石板,讀一部活的淮北史

      親子要聞

      撒潑打滾的娃媽媽只有一早就制服了

      手機(jī)要聞

      真我16 Pro系列外觀曝光,還有10000mAh±電池機(jī)型

      家居要聞

      溫馨獨(dú)棟 駝色與淺色碰撞

      無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 成人无遮挡裸免费视频在线观看| 青青草Av| 亚洲欧美另类图片| 大色欧美| 老熟妇性老熟妇性色| 亚洲男人的天堂av手机在线观看| 国产真实露脸乱子伦原著| 人人妻人人澡人人爽欧美一区双 | 影音先锋成人A片| 性欧美videofree高清精品| 丝袜老师办公室里做好紧好爽| 老湿机69午夜福利区| 日韩777| 中国china露脸自拍性hd| 亚洲 欧美 变态 另类 综合 | 看亚洲一级黄色片啪啪啪| 一本色道无码DVD色诱| 中文字幕无码不卡在线| 在线看免费无码的av天堂| 最新亚洲中文字幕在线| 保德县| 欧美日韩不卡视频合集| 国产普通话对白刺激| jizz麻豆| 无码人妻aⅴ一区二区三区有奶水| 扒开女人内裤猛进猛出免费视频 | 肥女五十路| 少妇人妻精品一区二区| 久久久久久久久无码| 久久精品国产99国产精品| 国产偷国产偷亚洲高清app| 成人免费在线播放av| 鲁鲁美女影院| 乱码午夜-极国产极内射| 亚洲色欲色欲www在线播放| 18禁亚洲一区二区三区| 97超碰自拍| 91乱子伦国产乱子伦海的味道| 精品人妻码一区二区三区| 亚洲高清WWW色好看美女| 狠狠干天天撸|