網易首頁 > 網易號 > 正文申請入駐

Mind Lab 成立｜64 張卡跑萬億參數 RL，開源

2025-12-08 08:46:14　來源: 賽博禪心

北京舉報

分享至

先岔開個題外話，我有個朋友叫鍇杰，顏值在線，在樂團當過首席

在線應援(bushi

對于鍇杰，我一直覺得
偶像前景>技術品味>產品塑造

他有個產品叫馬卡龍，但本文和這個無關
上個月鍇杰來酒吧，跟我說：
做產品的過程中，他們有一些技術上的發現，然后成立了一個 Lab

這對于鍇杰來說，我覺得，比單純做產品靠譜多了

現在，Mind Lab 正式成立，并交出了第一份答卷

? 萬億參數 LoRA 強化學習
? GPU 消耗砍掉 90%
? 記憶算法 SOTA

現在他不但搞了產品，還搞了技術，很好
偶像之路，再緩緩吧

https://macaron.im/mindlab 預訓練結束了

Richard Sutton 是 DeepMind 首席科學家，強化學習之父
他今年有個判斷：預訓練時代結束了

互聯網數據總共就 14T 左右，該訓的都訓過了
那接下來怎么繼續提升模型智能？
Sutton 給的方向叫Era of Experience
翻譯過來就是「經驗智能」

核心思路是這樣：
把模型放進真實產品里，基于用戶真實反饋，持續訓練訓練
讓模型，在產品里一直訓、一直長

Era of Experience

...等等，鍇杰跟我講這些的時候
我突然想到了之前的另一個產品
Hitem 為了訓練 3D 模型，專門建立了個工廠，也是這個理由

Mind Lab 做了個實驗，恰好也驗證這件事：
真實反饋數據流訓練的模型，智能提升效果遠比用固定 reward 訓練的好

流式 Reward vs 固定 Reward 效果對比

順道說一下，這里有個概念上的區分

預訓練造的是 Brain——大腦
大腦是靜態的，訓完就定型了，記住了互聯網上的海量知識，但不會再進化

強化學習造的是 Mind——心智
心智會在環境中不斷進化，能從反饋中學習，能動態調整行為

這是 Mind Lab 名字的由來

Mind Lab 在干啥

鍇杰他們，在技術上做了兩件事

第一件：萬億參數 LoRA 強化學習

在萬億參數模型上跑全參數強化學習，算力太貴，絕大多數團隊玩不起

Mind Lab 的解法是用 LoRA

LoRA 的意思是：不動整個大模型，只取出大約 0.5% 的核心參數來訓練

效果基本不打折，成本砍到十分之一

他們在 Kimi K2 上驗證了這套方案：
64 張 H800 搞定萬億參數模型的強化學習

訓練曲線，穩定收斂

這套方案，已經合并到 NVIDIA Megatron-Bridge 和字節 seed verl，代碼開源

鍇杰跟我說，目前全球做這個方向的，只有兩家
Thinking Machine 和 Mind Lab

第二件：Memory Diffusion

這是一個記憶算法，我很喜歡

傳統模型想要保存更多的東西，要么每輪對話總結記憶（開銷大、細節丟失），要么存數據庫檢索（容易丟上下文）

Mind Lab 的思路很有意思，它是把對話軌跡本身當記憶
通過「遮蔽-分配-重填」三步動態壓縮

? 選一塊遮掉
? 根據重要性分配 token 預算
? 在預算約束下重新生成

靈感來自人類的遺忘機制：
比如...在開車的時候，你會忘掉路過的廣告牌，只記住目的地

這套東西，在 Locomo 基準上達到 93% 準確率，SOTA

一個有意思的發現

Mind Lab 做了個對照實驗

三個模型，控制總計算量一致，來做個訓練對比

?1.5B 全參數訓練
?7B LoRA 訓練
?32B LoRA 訓練

結論是32B + LoRA 效果最好

模型

可訓練參數

效果提升

1.5B 全參數

1.5B

8.33%

7B LoRA

0.16B

11.31%

32B LoRA

0.07B

20.61%

為什么？
因為強化學習本質上是「先驗受限」的
如果基座模型本身生成不出高質量軌跡，強化學習就沒什么有用的信號可以放大

大模型已經編碼了豐富的推理模式，強化學習在這些基礎上精修，比從頭造輪子效率高得多

大先驗 + 小 LoRA，比小模型全參數訓練更劃算

還挺有意思的

產品是天然的 RL 環境

和鍇杰認識很久了，也一直很喜歡他的技術品味
但即便是這樣，我依然會有一個問題
這樣的技術，為什么是來自產品團隊？

得到了這樣的回答
產品本身，就是最好的強化學習環境

這里說個很有趣的事實
Cursor 的估值，能買下國內所有的大模型創業公司

Cursor 最新一輪融資

Cursor 值錢，在于它有最多的真實用戶數據
用戶用 Cursor 寫代碼，接受或拒絕建議，編輯或刪除生成內容，這些全是訓練信號

作為對比，X.AI 有很多算力、很多優秀研究員，但模型提升速度不夠快
為什么？沒有真實產品環境，獎勵函數沒法持續進化

Mind Lab 的邏輯也是這樣
研究給產品帶來體驗升級（比如生成速度從 20 分鐘到 2 分鐘），產品給研究帶來真實數據，這些是互相增強的

示意圖

預訓練時代，贏家是數據多的
經驗智能時代，贏家會是產品好的

最后

Ilya 說過：
預訓練時代正在走向終結

那下一個時代是什么？
可能是「經驗智能」，也或者不是

但正如我們所體驗的，
大腦在真實世界中，產生的心智會不斷進化
AI 或許也會遵循，在人類的世界中不斷進化

至于鍇杰，他準備啥時候開啟偶像之路》

我覺得...可能得等他先把心智這件事搞明白

Lab 主頁
https://macaron.im/mindlab

合并PR
https://github.com/volcengine/verl/pull/4063
https://github.com/NVIDIA-NeMo/Megatron-Bridge/pull/1310

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

事關與柬埔寨合作攜程緊急聲明

界面新聞 2025-12-25 11:55:08
56717 跟貼 56717
一夜之間狂漲，刷新歷史最高點！有人狂呼“解套”，有人抓緊買入：趁價格還不算高

環球網資訊 2025-12-25 07:24:58
2789 跟貼 2789

“一條線的人都被買通了”，誰來證明紙業巨頭買了摻假煤？

中國能源網 2025-12-25 08:06:09
41 跟貼 41

老板監視員工微信只需300元

每日經濟新聞 2025-12-24 20:24:06
1582 跟貼 1582
沙特與卡塔爾將共建785公里高鐵連接兩國首都最高時速300公里

財聯社 2025-12-25 11:54:15
50 跟貼 50

胖東來賣喬丹親簽球衣，售價13.8萬元，回應：保真

大象新聞 2025-12-24 20:41:03
1715 跟貼 1715

陳書平任成都市代理市長

北京日報客戶端 2025-12-25 16:59:33
78 跟貼 78
李凱爾回應：恢復美國國籍不屬實

北京日報客戶端 2025-12-24 15:54:10
3873 跟貼 3873

事關市區摩托車通行！桂林交警發布最新通告

桂林生活網 2025-12-25 11:34:56
28 跟貼 28
法國、德國、英國、加拿大、丹麥、西班牙、意大利、荷蘭、挪威等14國發表聯合聲明

每日經濟新聞 2025-12-25 07:29:06
443 跟貼 443
湖南一地公告：無故曠工超過15個工作日，9名在編人員被解聘

瀟湘晨報 2025-12-25 15:00:11
27 跟貼 27
汪文斌最新署名文章

新京報 2025-12-25 15:06:10
9 跟貼 9
讓美國人跌入深淵的"斬殺線":四口之家一年要賺98萬元

澎湃新聞 2025-12-25 10:42:00
123 跟貼 123
超近畫面:福建艦彈射裝置可"0幀"急停

央視新聞客戶端 2025-12-24 22:39:13
994 跟貼 994
收評：滬指漲0.47% 錄得7連陽

財聯社 2025-12-25 15:05:15
63 跟貼 63
首輛L3級自動駕駛上路通行！試點為何落地重慶？

極目新聞 2025-12-25 14:06:05
64 跟貼 64
陜西咸陽灣里村“水上雅丹”火爆出圈，游客直呼人多車堵，村干部：連夜擴寬道路，新建臨時停車場可容納2000輛

極目新聞 2025-12-25 13:23:52
159 跟貼 159
福建艦上唯一能用明火的地方披露：理療室，艦員稱“針灸項目相當火爆，一針難求”

極目新聞 2025-12-24 22:24:20
1321 跟貼 1321
警惕！日本急于對外推銷“最上”級護衛艦

環球網資訊 2025-12-25 06:36:20
120 跟貼 120
影石劉靖康談“向員工撒錢”：的確做得不對

界面新聞 2025-12-25 16:24:58
83 跟貼 83
廣州一馬拉松賽發布“手銬型”獎牌不實——今日辟謠（2025年12月25日）

今日辟謠 2025-12-25 16:10:38
12 跟貼 12
反思“斬殺線”：一個社會的文明度，取決于它如何對待跌落者

一刻talks丨硬科技趣思想 2025-12-25 21:16:27
0 跟貼 0
5角紙幣的“拒收困局”

北京商報 2025-12-25 21:15:36
0 跟貼 0

“荒唐”的事一直在發生，真是太諷刺了！

高三倒計時

2025-12-24 15:21:26

突發！金價巨震

中吳網

2025-12-25 14:06:56

恭喜國乒3人！入圍2025十大運動員，王楚欽孫穎莎落選，理由如下

侃球熊弟

2025-12-24 15:05:13

悼文曝真相！許亞軍采訪被打臉，許何14歲搬離竟是為貼身照顧何晴

行者聊官

2025-12-25 08:40:15

“一條線的人都被買通了”，誰來證明紙業巨頭買了摻假煤？

中國能源網

2025-12-25 08:06:09

輪到美國被“壟斷”了！“芯片之父”棄美回國，研發成果堪比核武

安珈使者啊

2025-12-25 14:25:42

CCTV5直播，世界第一孫穎莎、世界第二王曼昱領銜出戰，誰能奪冠

籃球看比賽

2025-12-25 11:26:55

中越戰爭驚人細節：中國五日不撤軍，諒山主力覆沒，戰事結局如何

磊子講史

2025-12-22 16:29:02

62年印度對中國開戰，遠在美國的麥克阿瑟聽后，給出評價十分中肯

老范談史

2025-12-24 20:54:32

1斤80元！2019年，山東男子剝1600多張皮，肉全扔溝里被發現

萬象硬核本尊

2025-12-25 17:41:00

12月25日俄烏：收復庫皮揚斯克，烏克蘭以拖待變等待時機

山河路口

2025-12-25 19:31:26

杜蘭特：我曾覺得東契奇只會不斷后撤步三分，直到他砍40分擊敗了勇士

懂球帝

2025-12-25 09:52:04

南京博物院院長從靈谷塔七層一躍而下！

興化論談

2025-12-19 20:21:07

四川男子在家抽煙被樓上女鄰居制止，民警到場后，女子傻眼了

溫辭韞

2025-12-25 15:45:33

19:30！U23亞洲杯生死戰：中國男足vs澳大利亞，進8強=破13年魔咒

侃球熊弟

2025-12-24 23:46:28

反華拜鬼、兩姓家奴！張本智和叫板中國僅五天，老底被全網扒光

削桐作琴

2025-12-24 16:05:43

隊記：楊瀚森用力過猛后明顯沉穩里斯表現不佳為他提供練級機會

羅說NBA

2025-12-25 07:21:51

兩個拼車的人竟然親上了！盤點生活中那些有趣又尷尬的經歷

夜深愛雜談

2025-12-19 17:11:55

姜昆在美國過圣誕節，與藝術家唱歌，評論區已關，王全有否認移民

有范又有料

2025-12-25 15:53:46

山東8名公安局長落馬榜：有人跨省高升終落網，有人護黑護成無期囚

濟寧人

2025-12-25 08:21:01

賽博禪心

拜AI古佛，修賽博禪心

224文章數 12關注度

往期回顧全部

科技要聞

屠龍少年被"招安"！英偉達平安夜豪擲200億

頭條要聞

美司法部發現上百萬份愛潑斯坦新文件涂黑操作翻車

頭條要聞

美司法部發現上百萬份愛潑斯坦新文件涂黑操作翻車

體育要聞

單賽季11冠，羽壇“安洗瑩時代”真的來了

娛樂要聞

朱孝天把阿信好意當球踢！

財經要聞

時隔15月，人民幣升破7，三大推手曝光

汽車要聞

速來！智界在上海西岸準備了年末潮流盛典

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

教育

時尚

旅游

本地

公開課

教育要聞

作文閱讀公益課68課｜如何把文章寫得又長又好？

今年冬天最火的搭配竟然是它？從現在美到明年

旅游要聞

江西上猶：“趣玩科普”激活鄉村文旅一池春水

本地新聞

這輩子要積多少德，下輩子才能投胎到德國當狗

公開課

手機 / 數碼

房產 / 家居

Mind Lab 成立｜64 張卡跑萬億參數 RL，開源

屠龍少年被"招安"！英偉達平安夜豪擲200億

美司法部發現上百萬份愛潑斯坦新文件 涂黑操作翻車

美司法部發現上百萬份愛潑斯坦新文件 涂黑操作翻車

單賽季11冠，羽壇“安洗瑩時代”真的來了

朱孝天把阿信好意當球踢！

時隔15月，人民幣升破7，三大推手曝光

速來！智界在上海西岸準備了年末潮流盛典

態度原創

作文閱讀公益課68課｜如何把文章寫得又長又好？

今年冬天最火的搭配竟然是它？從現在美到明年

這輩子要積多少德，下輩子才能投胎到德國當狗

美司法部發現上百萬份愛潑斯坦新文件涂黑操作翻車

美司法部發現上百萬份愛潑斯坦新文件涂黑操作翻車