先岔開個題外話,我有個朋友叫鍇杰,顏值在線,在樂團當過首席
![]()
在線應援(bushi
對于鍇杰,我一直覺得偶像前景>技術品味>產品塑造
他有個產品叫馬卡龍,但本文和這個無關
上個月鍇杰來酒吧,跟我說:
做產品的過程中,他們有一些技術上的發現,然后成立了一個 Lab
這對于鍇杰來說,我覺得,比單純做產品靠譜多了
現在,Mind Lab 正式成立,并交出了第一份答卷
? 萬億參數 LoRA 強化學習
? GPU 消耗砍掉 90%
? 記憶算法 SOTA
現在他不但搞了產品,還搞了技術,很好
偶像之路,再緩緩吧
![]()
https://macaron.im/mindlab 預訓練結束了
Richard Sutton 是 DeepMind 首席科學家,強化學習之父
他今年有個判斷:預訓練時代結束了
互聯網數據總共就 14T 左右,該訓的都訓過了
那接下來怎么繼續提升模型智能?
Sutton 給的方向叫Era of Experience
翻譯過來就是「經驗智能」
核心思路是這樣:
把模型放進真實產品里,基于用戶真實反饋,持續訓練訓練
讓模型,在產品里一直訓、一直長
![]()
Era of Experience
...等等,鍇杰跟我講這些的時候
我突然想到了之前的另一個產品
Hitem 為了訓練 3D 模型,專門建立了個工廠,也是這個理由
Mind Lab 做了個實驗,恰好也驗證這件事:
真實反饋數據流訓練的模型,智能提升效果遠比用固定 reward 訓練的好
![]()
流式 Reward vs 固定 Reward 效果對比
順道說一下,這里有個概念上的區分
預訓練造的是 Brain——大腦
大腦是靜態的,訓完就定型了,記住了互聯網上的海量知識,但不會再進化
強化學習造的是 Mind——心智
心智會在環境中不斷進化,能從反饋中學習,能動態調整行為
這是 Mind Lab 名字的由來
Mind Lab 在干啥
鍇杰他們,在技術上做了兩件事
第一件:萬億參數 LoRA 強化學習
在萬億參數模型上跑全參數強化學習,算力太貴,絕大多數團隊玩不起
Mind Lab 的解法是用 LoRA
LoRA 的意思是:不動整個大模型,只取出大約 0.5% 的核心參數來訓練
效果基本不打折,成本砍到十分之一
他們在 Kimi K2 上驗證了這套方案:
64 張 H800 搞定萬億參數模型的強化學習
![]()
訓練曲線,穩定收斂
這套方案,已經合并到 NVIDIA Megatron-Bridge 和字節 seed verl,代碼開源
鍇杰跟我說,目前全球做這個方向的,只有兩家
Thinking Machine 和 Mind Lab
第二件:Memory Diffusion
這是一個記憶算法,我很喜歡
傳統模型想要保存更多的東西,要么每輪對話總結記憶(開銷大、細節丟失),要么存數據庫檢索(容易丟上下文)
Mind Lab 的思路很有意思,它是把對話軌跡本身當記憶
通過「遮蔽-分配-重填」三步動態壓縮
? 選一塊遮掉
? 根據重要性分配 token 預算
? 在預算約束下重新生成
靈感來自人類的遺忘機制:
比如...在開車的時候,你會忘掉路過的廣告牌,只記住目的地
這套東西,在 Locomo 基準上達到 93% 準確率,SOTA
一個有意思的發現
Mind Lab 做了個對照實驗
三個模型,控制總計算量一致,來做個訓練對比
?
1.5B 全參數訓練?
7B LoRA 訓練?
32B LoRA 訓練
結論是32B + LoRA 效果最好
模型
可訓練參數
效果提升
1.5B 全參數
1.5B
8.33%
7B LoRA
0.16B
11.31%
32B LoRA
0.07B
20.61%
為什么?
因為強化學習本質上是「先驗受限」的
如果基座模型本身生成不出高質量軌跡,強化學習就沒什么有用的信號可以放大
大模型已經編碼了豐富的推理模式,強化學習在這些基礎上精修,比從頭造輪子效率高得多
大先驗 + 小 LoRA,比小模型全參數訓練更劃算
還挺有意思的
產品是天然的 RL 環境
和鍇杰認識很久了,也一直很喜歡他的技術品味
但即便是這樣,我依然會有一個問題
這樣的技術,為什么是來自產品團隊?
得到了這樣的回答
產品本身,就是最好的強化學習環境
這里說個很有趣的事實
Cursor 的估值,能買下國內所有的大模型創業公司
![]()
Cursor 最新一輪融資
Cursor 值錢,在于它有最多的真實用戶數據
用戶用 Cursor 寫代碼,接受或拒絕建議,編輯或刪除生成內容,這些全是訓練信號
作為對比,X.AI 有很多算力、很多優秀研究員,但模型提升速度不夠快
為什么?沒有真實產品環境,獎勵函數沒法持續進化
Mind Lab 的邏輯也是這樣
研究給產品帶來體驗升級(比如生成速度從 20 分鐘到 2 分鐘),產品給研究帶來真實數據,這些是互相增強的
![]()
示意圖
預訓練時代,贏家是數據多的
經驗智能時代,贏家會是產品好的
最后
Ilya 說過:
預訓練時代正在走向終結
那下一個時代是什么?
可能是「經驗智能」,也或者不是
但正如我們所體驗的,
大腦在真實世界中,產生的心智會不斷進化
AI 或許也會遵循,在人類的世界中不斷進化
至于鍇杰,他準備啥時候開啟偶像之路》
我覺得...可能得等他先把心智這件事搞明白
Lab 主頁https://macaron.im/mindlab
合并PRhttps://github.com/volcengine/verl/pull/4063https://github.com/NVIDIA-NeMo/Megatron-Bridge/pull/1310
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.