<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      Mind Lab 成立|64 張卡跑萬億參數 RL,開源

      0
      分享至

      先岔開個題外話,我有個朋友叫鍇杰,顏值在線,在樂團當過首席


      在線應援(bushi

      對于鍇杰,我一直覺得
      偶像前景>技術品味>產品塑造

      他有個產品叫馬卡龍,但本文和這個無關
      上個月鍇杰來酒吧,跟我說:
      做產品的過程中,他們有一些技術上的發現,然后成立了一個 Lab

      這對于鍇杰來說,我覺得,比單純做產品靠譜多了

      現在,Mind Lab 正式成立,并交出了第一份答卷

      • ? 萬億參數 LoRA 強化學習

      • ? GPU 消耗砍掉 90%

      • ? 記憶算法 SOTA

      現在他不但搞了產品,還搞了技術,很好
      偶像之路,再緩緩吧


      https://macaron.im/mindlab 預訓練結束了

      Richard Sutton 是 DeepMind 首席科學家,強化學習之父
      他今年有個判斷:預訓練時代結束了

      互聯網數據總共就 14T 左右,該訓的都訓過了
      那接下來怎么繼續提升模型智能?
      Sutton 給的方向叫Era of Experience
      翻譯過來就是「經驗智能

      核心思路是這樣:
      把模型放進真實產品里,基于用戶真實反饋,持續訓練訓練
      讓模型,在產品里一直訓、一直長


      Era of Experience

      ...等等,鍇杰跟我講這些的時候
      我突然想到了之前的另一個產品
      Hitem 為了訓練 3D 模型,專門建立了個工廠,也是這個理由

      Mind Lab 做了個實驗,恰好也驗證這件事:
      真實反饋數據流訓練的模型,智能提升效果遠比用固定 reward 訓練的好


      流式 Reward vs 固定 Reward 效果對比

      順道說一下,這里有個概念上的區分

      預訓練造的是 Brain——大腦
      大腦是靜態的,訓完就定型了,記住了互聯網上的海量知識,但不會再進化

      強化學習造的是 Mind——心智
      心智會在環境中不斷進化,能從反饋中學習,能動態調整行為

      這是 Mind Lab 名字的由來

      Mind Lab 在干啥

      鍇杰他們,在技術上做了兩件事

      第一件:萬億參數 LoRA 強化學習

      在萬億參數模型上跑全參數強化學習,算力太貴,絕大多數團隊玩不起

      Mind Lab 的解法是用 LoRA

      LoRA 的意思是:不動整個大模型,只取出大約 0.5% 的核心參數來訓練

      效果基本不打折,成本砍到十分之一

      他們在 Kimi K2 上驗證了這套方案:
      64 張 H800 搞定萬億參數模型的強化學習


      訓練曲線,穩定收斂

      這套方案,已經合并到 NVIDIA Megatron-Bridge 和字節 seed verl,代碼開源

      鍇杰跟我說,目前全球做這個方向的,只有兩家
      Thinking Machine 和 Mind Lab

      第二件:Memory Diffusion

      這是一個記憶算法,我很喜歡

      傳統模型想要保存更多的東西,要么每輪對話總結記憶(開銷大、細節丟失),要么存數據庫檢索(容易丟上下文)

      Mind Lab 的思路很有意思,它是把對話軌跡本身當記憶
      通過「遮蔽-分配-重填」三步動態壓縮

      • ? 選一塊遮掉

      • ? 根據重要性分配 token 預算

      • ? 在預算約束下重新生成

      靈感來自人類的遺忘機制:
      比如...在開車的時候,你會忘掉路過的廣告牌,只記住目的地

      這套東西,在 Locomo 基準上達到 93% 準確率,SOTA

      一個有意思的發現

      Mind Lab 做了個對照實驗

      三個模型,控制總計算量一致,來做個訓練對比

      • ?1.5B 全參數訓練

      • ?7B LoRA 訓練

      • ?32B LoRA 訓練

      結論是32B + LoRA 效果最好

      模型

      可訓練參數

      效果提升

      1.5B 全參數

      1.5B

      8.33%

      7B LoRA

      0.16B

      11.31%

      32B LoRA

      0.07B

      20.61%

      為什么?
      因為強化學習本質上是「先驗受限」的
      如果基座模型本身生成不出高質量軌跡,強化學習就沒什么有用的信號可以放大

      大模型已經編碼了豐富的推理模式,強化學習在這些基礎上精修,比從頭造輪子效率高得多

      大先驗 + 小 LoRA,比小模型全參數訓練更劃算

      還挺有意思的

      產品是天然的 RL 環境

      和鍇杰認識很久了,也一直很喜歡他的技術品味
      但即便是這樣,我依然會有一個問題
      這樣的技術,為什么是來自產品團隊?

      得到了這樣的回答
      產品本身,就是最好的強化學習環境

      這里說個很有趣的事實
      Cursor 的估值,能買下國內所有的大模型創業公司


      Cursor 最新一輪融資

      Cursor 值錢,在于它有最多的真實用戶數據
      用戶用 Cursor 寫代碼,接受或拒絕建議,編輯或刪除生成內容,這些全是訓練信號

      作為對比,X.AI 有很多算力、很多優秀研究員,但模型提升速度不夠快
      為什么?沒有真實產品環境,獎勵函數沒法持續進化

      Mind Lab 的邏輯也是這樣
      研究給產品帶來體驗升級(比如生成速度從 20 分鐘到 2 分鐘),產品給研究帶來真實數據,這些是互相增強的


      示意圖

      預訓練時代,贏家是數據多的
      經驗智能時代,贏家會是產品好的

      最后

      Ilya 說過:
      預訓練時代正在走向終結

      那下一個時代是什么?
      可能是「經驗智能」,也或者不是

      但正如我們所體驗的,
      大腦在真實世界中,產生的心智會不斷進化
      AI 或許也會遵循,在人類的世界中不斷進化

      至于鍇杰,他準備啥時候開啟偶像之路》

      我覺得...可能得等他先把心智這件事搞明白

      Lab 主頁
      https://macaron.im/mindlab

      合并PR
      https://github.com/volcengine/verl/pull/4063
      https://github.com/NVIDIA-NeMo/Megatron-Bridge/pull/1310

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      “荒唐”的事一直在發生,真是太諷刺了!

      “荒唐”的事一直在發生,真是太諷刺了!

      高三倒計時
      2025-12-24 15:21:26
      突發!金價巨震

      突發!金價巨震

      中吳網
      2025-12-25 14:06:56
      恭喜國乒3人!入圍2025十大運動員,王楚欽孫穎莎落選,理由如下

      恭喜國乒3人!入圍2025十大運動員,王楚欽孫穎莎落選,理由如下

      侃球熊弟
      2025-12-24 15:05:13
      悼文曝真相!許亞軍采訪被打臉,許何14歲搬離竟是為貼身照顧何晴

      悼文曝真相!許亞軍采訪被打臉,許何14歲搬離竟是為貼身照顧何晴

      行者聊官
      2025-12-25 08:40:15
      “一條線的人都被買通了”,誰來證明紙業巨頭買了摻假煤?

      “一條線的人都被買通了”,誰來證明紙業巨頭買了摻假煤?

      中國能源網
      2025-12-25 08:06:09
      輪到美國被“壟斷”了!“芯片之父”棄美回國,研發成果堪比核武

      輪到美國被“壟斷”了!“芯片之父”棄美回國,研發成果堪比核武

      安珈使者啊
      2025-12-25 14:25:42
      CCTV5直播,世界第一孫穎莎、世界第二王曼昱領銜出戰,誰能奪冠

      CCTV5直播,世界第一孫穎莎、世界第二王曼昱領銜出戰,誰能奪冠

      籃球看比賽
      2025-12-25 11:26:55
      中越戰爭驚人細節:中國五日不撤軍,諒山主力覆沒,戰事結局如何

      中越戰爭驚人細節:中國五日不撤軍,諒山主力覆沒,戰事結局如何

      磊子講史
      2025-12-22 16:29:02
      62年印度對中國開戰,遠在美國的麥克阿瑟聽后,給出評價十分中肯

      62年印度對中國開戰,遠在美國的麥克阿瑟聽后,給出評價十分中肯

      老范談史
      2025-12-24 20:54:32
      1斤80元!2019年,山東男子剝1600多張皮,肉全扔溝里被發現

      1斤80元!2019年,山東男子剝1600多張皮,肉全扔溝里被發現

      萬象硬核本尊
      2025-12-25 17:41:00
      12月25日俄烏:收復庫皮揚斯克,烏克蘭以拖待變等待時機

      12月25日俄烏:收復庫皮揚斯克,烏克蘭以拖待變等待時機

      山河路口
      2025-12-25 19:31:26
      杜蘭特:我曾覺得東契奇只會不斷后撤步三分,直到他砍40分擊敗了勇士

      杜蘭特:我曾覺得東契奇只會不斷后撤步三分,直到他砍40分擊敗了勇士

      懂球帝
      2025-12-25 09:52:04
      南京博物院院長從靈谷塔七層一躍而下!

      南京博物院院長從靈谷塔七層一躍而下!

      興化論談
      2025-12-19 20:21:07
      四川男子在家抽煙被樓上女鄰居制止,民警到場后,女子傻眼了

      四川男子在家抽煙被樓上女鄰居制止,民警到場后,女子傻眼了

      溫辭韞
      2025-12-25 15:45:33
      19:30!U23亞洲杯生死戰:中國男足vs澳大利亞,進8強=破13年魔咒

      19:30!U23亞洲杯生死戰:中國男足vs澳大利亞,進8強=破13年魔咒

      侃球熊弟
      2025-12-24 23:46:28
      反華拜鬼、兩姓家奴!張本智和叫板中國僅五天,老底被全網扒光

      反華拜鬼、兩姓家奴!張本智和叫板中國僅五天,老底被全網扒光

      削桐作琴
      2025-12-24 16:05:43
      隊記:楊瀚森用力過猛后明顯沉穩 里斯表現不佳為他提供練級機會

      隊記:楊瀚森用力過猛后明顯沉穩 里斯表現不佳為他提供練級機會

      羅說NBA
      2025-12-25 07:21:51
      兩個拼車的人竟然親上了!盤點生活中那些有趣又尷尬的經歷

      兩個拼車的人竟然親上了!盤點生活中那些有趣又尷尬的經歷

      夜深愛雜談
      2025-12-19 17:11:55
      姜昆在美國過圣誕節,與藝術家唱歌,評論區已關,王全有否認移民

      姜昆在美國過圣誕節,與藝術家唱歌,評論區已關,王全有否認移民

      有范又有料
      2025-12-25 15:53:46
      山東8名公安局長落馬榜:有人跨省高升終落網,有人護黑護成無期囚

      山東8名公安局長落馬榜:有人跨省高升終落網,有人護黑護成無期囚

      濟寧人
      2025-12-25 08:21:01
      2025-12-25 21:36:49
      賽博禪心
      賽博禪心
      拜AI古佛,修賽博禪心
      224文章數 12關注度
      往期回顧 全部

      科技要聞

      屠龍少年被"招安"!英偉達平安夜豪擲200億

      頭條要聞

      美司法部發現上百萬份愛潑斯坦新文件 涂黑操作翻車

      頭條要聞

      美司法部發現上百萬份愛潑斯坦新文件 涂黑操作翻車

      體育要聞

      單賽季11冠,羽壇“安洗瑩時代”真的來了

      娛樂要聞

      朱孝天把阿信好意當球踢!

      財經要聞

      時隔15月,人民幣升破7,三大推手曝光

      汽車要聞

      速來!智界在上海西岸準備了年末潮流盛典

      態度原創

      教育
      時尚
      旅游
      本地
      公開課

      教育要聞

      作文閱讀公益課68課|如何把文章寫得又長又好?

      今年冬天最火的搭配竟然是它?從現在美到明年

      旅游要聞

      江西上猶:“趣玩科普”激活鄉村文旅一池春水

      本地新聞

      這輩子要積多少德,下輩子才能投胎到德國當狗

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 欧洲一区二区三区| 夜夜爽7777精品国产三级| 亚洲中文字幕A| 久久久精品456亚洲影院| 亚洲精选av| 日本午夜视频| 欧美另类videossexo高潮| 色噜噜狠狠色综合成人网| 抚州市| 国内成人自拍| 顶级欧美熟妇xx| 日本免费一区二区三区四区五区 | 国内国外精品影片无人区| 亚洲一区二区av| 亚洲精品乱码久久久久久按摩高清| 色色视频在线观看| av永久天堂一区二区三区| 国产福利精品一区二区| 人妻偷人精品| 成人超碰最大网站| 日韩亚洲国产综合高清| 午夜在线不卡| 国产精品a久久久久| 亚洲春色在线视频| 日本熟妇浓毛| 一区二区三区视频| 色欲二区| 性欧美疯狂xxxxbbbb| 亚洲国产av无码综合原创国产 | 广河县| 国产欧美日韩免费看AⅤ视频| 久久巨| 精品玖玖| 拜城县| 日韩人妻无码精品无码中文字幕| 少妇私密会所按摩到高潮呻吟| 亚洲无码精品视频| 一色道久久88加勒比一| 湖口县| 国产精品午夜福利视频234区| 精品国产一二三产品价格|