![]()
“2023 年初,有巨頭說全世界只會(huì)有幾個(gè)大模型,這就像 1943 年,IBM 董事長曾說全球不需要超過 5 臺主機(jī)。”
文丨程曼祺
今年 11 月,清華大學(xué)、開源組織 OpenBMB 與面壁智能的聯(lián)合研究登上《自然·機(jī)器學(xué)習(xí)》封面——Densing Laws of LLMS(《大模型的密度法則》:每 3.5 個(gè)月,模型的能力密度翻一倍。
![]()
此圖描述了 2023 年 4 月之后,主要開源模型的能力密度的變化。能力密度是衡量單位參數(shù) / 算力下,模型能力的指標(biāo)。目前版本的密度法則總結(jié)了預(yù)訓(xùn)練大語言模型的密度變化,o1、R1 等后訓(xùn)練強(qiáng)化學(xué)習(xí)對能力密度的提升尚未體現(xiàn)在指標(biāo)里。
![]()
ChatGPT 出現(xiàn)之后(圖中 2023 年 1 月的時(shí)間線),能力密度上升的斜率變陡。
過去幾年,大模型演進(jìn)的明線是 “規(guī)模法則”(Scaling Law)帶來的能力躍遷。大模型在編程、生圖、設(shè)計(jì)等能力上,達(dá)到甚至超越了人類水平。另一方面,模型性能競賽也帶來巨大的資源消耗,連 OpenAI 也因資源不足出現(xiàn)分歧。
密度法則,就是關(guān)注如何用更少計(jì)算和數(shù)據(jù)資源,更高效地得到更多智能。對密度目標(biāo)的追求,會(huì)加速手機(jī)、汽車、機(jī)器人等端側(cè)智能發(fā)展,促進(jìn)分布式智能和每個(gè)人的 “專屬大模型”。
本期《晚點(diǎn)聊》,我們和密度法則的研究者,清華大學(xué)計(jì)算機(jī)系副教授、面壁智能首席科學(xué)家劉知遠(yuǎn),以及清華博士后、面壁智能 MiniCPM 系列文本模型負(fù)責(zé)人肖朝軍討論了:
- 密度法則的背景和核心洞察;
- 提升模型能力密度的具體方法;
- 強(qiáng)化學(xué)習(xí)還沒有出現(xiàn) Scaling Law,由此引起的兩個(gè)探索方向;
- 自主學(xué)習(xí)與分布式端側(cè)智能的未來。
2023 年全國端側(cè)算力(主要是手機(jī))是數(shù)據(jù)中心算力的 12 倍。過去幾十年的信息化,本質(zhì)上是一個(gè)分布式算力和分布式信息的結(jié)構(gòu)。
劉知遠(yuǎn)認(rèn)為,智能未來也會(huì)分布式存在。這個(gè)過程中,密度法則指引的效率提升尤為重要。
2023 年初有巨頭說 “全球只需要幾個(gè)大模型”,這和 1943 年 IBM 董事長說 “世界只需要五臺計(jì)算機(jī)” 如出一轍。
但未來的智能大概率是分布式存在的,每個(gè)人都有一個(gè)屬于自己的智能體。如果模型具備自主學(xué)習(xí)能力,那么終端上的模型就能基于用戶的個(gè)人數(shù)據(jù)持續(xù)成長,最終形成一個(gè) “個(gè)人大模型”,成為你最懂你的那個(gè)助手。
大模型時(shí)代的 “摩爾定律”
晚點(diǎn):最近趕上中美新模型密集發(fā)布,尤其 Gemini 3 熱度很高;從這些新進(jìn)展里,你們看到了哪些亮點(diǎn)?
肖朝軍:我感受到兩個(gè)明顯趨勢。第一,所有大模型都在強(qiáng)化 “智能體” 能力,直觀表現(xiàn)是,每次模型發(fā)布后,大家都會(huì)測代碼任務(wù),模型在 agent 任務(wù)上的表現(xiàn)顯著提升。
第二,從 Nano Banana Pro 中可以看到,Google 的多模態(tài)模型的文字生成準(zhǔn)確度非常高,這在此前的 diffusion(擴(kuò)散)模型里很難看到,只在 OpenAI 的 GPT-4o 中有一點(diǎn)苗頭。這讓我看到一種新的 Scaling 方向:過去我們一直說更多數(shù)據(jù)、更大模型、更強(qiáng)能力,但多模態(tài)數(shù)據(jù)一直沒有真正帶來 “智能躍遷”,而現(xiàn)在這種 “統(tǒng)一的自回歸式” 的視覺-語言生成可能帶來突破。當(dāng)然,Gemini 3 的模型細(xì)節(jié)未公開,還不能完全判斷,現(xiàn)在的能力更多來自產(chǎn)品優(yōu)化,還是架構(gòu)上的真正整合,可能要再看看后續(xù)版本。
劉知遠(yuǎn):現(xiàn)在幾乎每周的進(jìn)展,都相當(dāng)于我讀研時(shí)一年的進(jìn)展,總結(jié)下來有兩條主線:
一是能力變強(qiáng),它對應(yīng) “規(guī)模法則”:從 2018 年預(yù)訓(xùn)練模型出現(xiàn)后,每隔幾年模型能力就會(huì)跳一次:
- 2022 年底 ChatGPT 通過指令微調(diào)(instruction tuning)讓模型 “聽懂人話”;
- 2024 年底到 2025 年初,大規(guī)模強(qiáng)化學(xué)習(xí)后訓(xùn)練讓模型具備更深的思考能力。
模型正變得更通用,甚至開始接近或超越人類在某些領(lǐng)域的能力。
第二是能效更高,我們這次提出的 “密度法則”,本質(zhì)上就是對 “如何讓能力與成本之比不斷提高” 的定量描述。任何想真正改變世界的技術(shù),都必須追求更高效率,大模型也會(huì)在能力 + 成本兩個(gè)方向上同時(shí)進(jìn)化。
晚點(diǎn):一般大家更關(guān)注的是能力變強(qiáng),在第二條主線 “能效更高” 上,近期有哪些進(jìn)展?
肖朝軍:核心的 AI Lab 也都在追求效率提升。在開源側(cè),Qwen 3、DeepSeek V3.2、Llama 3,以及面壁自己的 MiniCPM 系列都在做 MoE(混合專家系統(tǒng))、 Sparse Attention(稀疏注意力)、Efficient Attention(更有效率的注意力機(jī)制)等架構(gòu)優(yōu)化。在閉源側(cè),OpenAI 推出了 Mini 系列;Google 也在 Gemini 3 之前發(fā)布了 Gemini Diffusion,宣稱它的文本生成速度比其他模型快了很多很多倍,
所以無論開源還是閉源,大家都在追求 “效率”,因?yàn)橘Y源永遠(yuǎn)不夠——連 OpenAI 都是如此,甚至?xí)虼擞兄卮蠓制纾热?Ilya 離職時(shí)提到的 “資源不足”。
劉知遠(yuǎn):規(guī)模法則和密度法則就像大模型演進(jìn)的明線和暗線,之前信息革命也是如此:明線是,設(shè)備越來越小,大型機(jī)→小型機(jī)→個(gè)人電腦→手機(jī)→其它智能終端;暗線是芯片行業(yè)的高效進(jìn)化,也就是摩爾定律。我們提出密度法則,就是想尋找大模型時(shí)代的 “摩爾定律”。
晚點(diǎn):模型的訓(xùn)練和推理效率越來越高,這不是不言自明的嗎?為什么要特別來做這個(gè)研究?
劉知遠(yuǎn):我們是在 2023 年底開始著手這個(gè)研究的。回到那一年,包括后面的 2024 年,全球主導(dǎo)的話語體系都是規(guī)模法則,一些國際機(jī)構(gòu)甚至宣稱:只有擁有十萬張 GPU 的組織才有資格訓(xùn)練大模型。
這種敘事下,很多人,包括政策決策層也會(huì)誤以為規(guī)模法則是唯一的第一性原理,這有誤導(dǎo)性。密度法則就是希望糾正行業(yè)敘事,讓大家看到效率同樣是主線。
當(dāng)時(shí),大部分團(tuán)隊(duì)的目標(biāo)都是復(fù)現(xiàn) ChatGPT。國內(nèi)一線團(tuán)隊(duì)大概在 2023 年 9~10 月完成了復(fù)現(xiàn),80B 級別的模型就能做到 ChatGPT 的效果。
接下來一個(gè)自然的選擇是追 GPT-4,我們測算,這需要把模型做到 140B 左右,訓(xùn)練成本得上千萬元。但以當(dāng)時(shí)的節(jié)奏,24 年上半年,國內(nèi)至少會(huì)有五家團(tuán)隊(duì)做到 GPT-4 水平,那我們怎么收回投入?
所以我們把重點(diǎn)轉(zhuǎn)向了 “模型風(fēng)洞”——系統(tǒng)性評估架構(gòu)、數(shù)據(jù)、訓(xùn)練策略對效率的提升。它帶來的第一個(gè)成果,是 2024 年 1 月的 MiniCPM-1:以 2.4B 參數(shù)做到了當(dāng)時(shí) LLaMA-2-13B、Mistral-7B 的效果。2.4B 是手機(jī)可跑的規(guī)模,這讓我們意識到,技術(shù)創(chuàng)新可以大幅提升模型的效率,也因此我們開始堅(jiān)定投入 “端側(cè)大模型”。
我們也在追問:這種效率躍遷背后有沒有更底層的規(guī)律?受摩爾定律啟發(fā),我們提出了 “知識密度”,并在 2024 年圍繞訓(xùn)練各環(huán)節(jié)的創(chuàng)新如何提升能力密度做了系統(tǒng)研究。至少在面壁內(nèi)部,“密度法則” 已是一個(gè)明確的目標(biāo)指引。
晚點(diǎn):從 2023 年秋天之后,面壁就一直追求高效的大模型,但為什么并沒有形成 25 年 1 月 DeepSeek R1 那樣的影響力?
劉知遠(yuǎn): 公眾關(guān)注的是誰家模型能力更強(qiáng),那往往意味著訓(xùn)練幾千億、上萬億參數(shù)的超大模型。但大部分公司還是要考慮商業(yè)后果。AGI 在未來五到十年一定會(huì)到來,你當(dāng)然可以像互聯(lián)網(wǎng)時(shí)代的 Google 一樣,在云端做公開服務(wù),但 AGI 也會(huì)發(fā)生在端側(cè)。既然端側(cè)有這么大的潛力,而關(guān)注它的人又不多,我們提前布局,反而更適合初創(chuàng)公司的稟賦和節(jié)奏。最近看到一句話很好:“別人得到的,不一定是你失去的。”
提升能力密度的四個(gè)環(huán)節(jié),強(qiáng)化學(xué)習(xí)還未出現(xiàn) Scaling Law
晚點(diǎn):密度法則的核心洞察是什么?
肖朝軍:核心觀點(diǎn)不是我們觀察到的模型能力密度 “每 3.5 個(gè)月翻倍” 這個(gè)數(shù)字本身,而是提出一個(gè)目標(biāo):我們應(yīng)追求單位計(jì)算帶來的智能最大化,而不是盲目追求模型規(guī)模。
規(guī)模法則與密度法則也并不對立。前者是 “算力與能力之間的對應(yīng)關(guān)系”;后者是 “單位算力到智能的轉(zhuǎn)化率”,是追求更高的斜率。
晚點(diǎn):有哪些提升模型能力密度的具體方法?
劉知遠(yuǎn):分四個(gè)部分——模型架構(gòu)、數(shù)據(jù)、學(xué)習(xí)算法、軟硬一體的協(xié)同優(yōu)化。密度法則提出后,我們正在嘗試定量描述這些維度的影響,已經(jīng)有一些經(jīng)驗(yàn)性結(jié)果。
肖朝軍:第一就是模型架構(gòu)。Transformer 核心就兩塊:FFN(Feed-Forward Network,前饋網(wǎng)絡(luò)) 和 attention(注意力機(jī)制)。
現(xiàn)在基本的共識是,F(xiàn)NN 要做稀疏化的 MoE 架構(gòu)——就是把 FNN 這塊很大的 “稠密矩陣變換” 切成很多 “專家”,每次前向計(jì)算只激活其中一小部分專家,這比激活全局的算力消耗更少,效率更高。DeepSeek 的一個(gè)重要貢獻(xiàn),就是證明了 MoE 在大規(guī)模模型上也能有很好的效果。
而在注意力機(jī)制上,今年開源、閉源都在做各種效率改進(jìn):比如 Gemini 系列里滑動(dòng)窗口注意力 + 稠密注意力的混合架構(gòu),Qwen3-Next 和 Kimi Linear 用了 DeltaNet(一種線性注意力)混合稠密注意力的架構(gòu),還有 DeepSeek 近期發(fā)布的 DSA 等等。這些改進(jìn)都是為了順應(yīng)大模型從 “短模型” 變成 “長模型” 的趨勢,而這又來自 Agent 化和深思考的需求,Agent 既需要長輸入,也需要長輸出。
長文本未來一定會(huì)面向深思考和 Agent 場景,它會(huì)有更多長輸出。而現(xiàn)在面向長輸出的線性注意力的驗(yàn)證是遠(yuǎn)遠(yuǎn)不夠的。
所以,MiniMax 為什么從 M1 的 lightning attention(注:lighting attention 采用了線性注意力混合 full attention 的架構(gòu)),到現(xiàn)在 M2 全部用 full attention?我猜測一個(gè)很重要的原因是,M2 想主打 agent,但是直接用 lighting attention 在一些更復(fù)雜的 agent 任務(wù)上有性能缺失。
晚點(diǎn):年初我們聊注意力改進(jìn)時(shí),你就提到過 Agent 任務(wù)下,要更多關(guān)注長輸出。這在現(xiàn)在也不是共識嗎?
肖朝軍:我觀察到,大家還是習(xí)慣把長文本等同于長輸入,而思維鏈和多步推理其實(shí)對長輸出有更多需求。比如一個(gè) agent 規(guī)劃了 5 個(gè)步驟:你不能做到第五步時(shí)忘掉第一步,然后再倒回去重做,模型需要記住自己之前輸出了什么。這是長文本的新挑戰(zhàn)。
我們今年 6 月開源的 InfLLM 2,就有針對這個(gè)問題的改進(jìn)。核心變化是做了 “原生稀疏”:在預(yù)訓(xùn)練階段就引入稀疏注意力變,而不是像第一版那樣在推理階段才做。這帶來兩個(gè)好處:一是訓(xùn)練明顯加速;二是稀疏度顯著降低——InfLLM 1 在推理階段,大概有 50% 的注意力開銷(相比 full attention 的 50%),而 InfLLM 2 在訓(xùn)練階段的稀疏度只有不到 5%,即在 128K 上下文長度下,只需要關(guān)注 4–6K token。
我們這個(gè)算子也同時(shí)支持長輸出。在 Agent 和深度思考場景,這個(gè)方法都比較實(shí)用。
晚點(diǎn):架構(gòu)之后,在數(shù)據(jù)維度,業(yè)界在如何提高模型的能力密度?
肖朝軍:數(shù)據(jù)上,接下來兩個(gè)點(diǎn)非常關(guān)鍵:一是合成數(shù)據(jù),二是更高質(zhì)量的數(shù)據(jù)清洗與治理。現(xiàn)在幾乎所有頂級團(tuán)隊(duì)都在投入這兩件事,因?yàn)樗鼈冎苯記Q定模型能力的上限,也決定下一階段能否繼續(xù)把密度做上去。
劉知遠(yuǎn):我們內(nèi)部其實(shí)有一套分層的 pipeline(流程),從 L0 到 L4,對應(yīng)不同的處理階段。
L0 收集,通過抓取、采買獲得原料;
L1 過濾,清理掉重復(fù)數(shù)據(jù)和垃圾數(shù)據(jù);
L2 精選,進(jìn)一步挑出我們認(rèn)定的高質(zhì)量數(shù)據(jù);
L3 合成,不只是對現(xiàn)有數(shù)據(jù)加工,而是生成這個(gè)世界上原本不存在的內(nèi)容,比如改寫、擴(kuò)寫、任務(wù)化等;
L4 驗(yàn)證,通過形式化或人工方式,確認(rèn)這一層的數(shù)據(jù)達(dá)到了高質(zhì)量。
比如最近我們用這套 pipeline ,精煉了很有名的預(yù)訓(xùn)練數(shù)據(jù)集 FineWeb,得到一個(gè)容量不到原始數(shù)據(jù) 1/10 的版本,叫 Ultra-FineWeb。結(jié)果用 Ultra-FineWeb 訓(xùn)練出的模型效果反而比直接用 FineWeb 更好,訓(xùn)練成本自然也能降到十分之一,這只是預(yù)訓(xùn)練階段的數(shù)據(jù)治理帶來的效果。
后訓(xùn)練同樣如此——無論是 SFT(監(jiān)督微調(diào))還是強(qiáng)化學(xué)習(xí),數(shù)據(jù)的合成質(zhì)量都強(qiáng)烈影響模型的能力上限和效率。比如交大劉鵬飛老師最近做的 “Less is More” 系列,就是用更少、更精的數(shù)據(jù)獲得更強(qiáng)效果的例子。
我們接下來也會(huì)開源這套比較完整的數(shù)據(jù)治理體系,包括數(shù)據(jù)樣例和整個(gè) pipeline 的結(jié)構(gòu)。一個(gè)更根本的問題是:達(dá)到某個(gè)能力水平的 “最小的數(shù)據(jù)集” 究竟長什么樣?這個(gè)問題也能幫我們追問智能的本質(zhì)。
晚點(diǎn):接下來是算法的改進(jìn),今年的重點(diǎn)明顯轉(zhuǎn)向了 RL。
肖朝軍:是的,但強(qiáng)化學(xué)習(xí)做到現(xiàn)在,仍然沒有出現(xiàn)清晰的 scaling law。
預(yù)訓(xùn)練的 scaling law 非常清晰:幾十萬億 tokens、幾十萬步訓(xùn)練,有穩(wěn)定的 scaling law 可循。而現(xiàn)在做 RL,大多數(shù)團(tuán)隊(duì)也就訓(xùn)到幾千步;OpenAI o1 的技術(shù)報(bào)告里,一些任務(wù)不到一萬步就停了,效果不錯(cuò),但離跑通 RL scaling 還差得很遠(yuǎn)。換句話說,如何讓強(qiáng)化學(xué)習(xí)持續(xù)穩(wěn)定地訓(xùn)下去?這仍是整個(gè)行業(yè)在探索的方向。
晚點(diǎn):你說 “RL 還沒有 scaling”,具體是指什么?
肖朝軍:行業(yè)說 “RL 的 scaling” 主要指兩塊:環(huán)境能否擴(kuò)展,reward(激勵(lì))是否可驗(yàn)證。
前 OpenAI 研究員 Jason Wei 認(rèn)為,RL 關(guān)鍵在于構(gòu)建一個(gè) “unhackable environment”——一個(gè)模型不能投機(jī)取巧,能持續(xù)學(xué)習(xí)的環(huán)境。但 Ilya 則認(rèn)為這種環(huán)境幾乎不存在,人類學(xué)習(xí)本身也不是在這樣的環(huán)境里完成的,這也關(guān)系到我們?nèi)绾味x下一階段的 AGI。
在 reward 上,目前真正可驗(yàn)證的 reward 基本只有數(shù)學(xué)和代碼。但代碼領(lǐng)域的 RL 目前主要是在競賽題上很強(qiáng),真正的軟件開發(fā)要復(fù)雜得多,reward 很難構(gòu)建,這是 RL scaling 的核心瓶頸。
不過 RL 至少已經(jīng)證明:只要有足夠的數(shù)據(jù)和反饋,它能在任何任務(wù)上做到人類前 0.1% 甚至 0.01% 的水平。很多團(tuán)隊(duì)已經(jīng)實(shí)現(xiàn)數(shù)學(xué)競賽、編程競賽的國際金牌水平。所以完全可以想象,未來一個(gè)公司如果能在某個(gè)垂直場景積累足夠的數(shù)據(jù),就能用 RL 打造出該領(lǐng)域的 “超級專家模型”。
晚點(diǎn):現(xiàn)在就有 RL to B 的趨勢——針對某個(gè)真實(shí)商業(yè)環(huán)境去做強(qiáng)化學(xué)習(xí),比如 Thinking Machines Lab 可能在探索這個(gè)方向。
肖朝軍:所以我們之前叫 prompt engineering,現(xiàn)在是 reward engineering 或 environment engineering,這都是 RL 帶來的新產(chǎn)物。
不過只到這一步,還不是我們真正想要的 AGI。因?yàn)槿祟惖膶W(xué)習(xí)非常高效,在一個(gè)新任務(wù)下,只需要少量反饋、少量嘗試就能學(xué)會(huì)。現(xiàn)在 RL 離這種學(xué)習(xí)效率還有巨大差距。
接下來可能有兩條路:
一是繼續(xù)把 RL 做 scaling:不停擴(kuò)大環(huán)境規(guī)模、增加可驗(yàn)證的 reward,看能不能像預(yù)訓(xùn)練那樣,隨著規(guī)模擴(kuò)展自然出現(xiàn)更強(qiáng)的泛化能力。
我們正在研究更高效的 RL scaling 框架,讓模型在 RL 訓(xùn)練時(shí)把算力吃滿,把訓(xùn)練步數(shù)拉到足夠大,比如做到幾萬步,讓模型真正經(jīng)歷更長的思考。
更往前走是開放域的強(qiáng)化學(xué)習(xí)——不僅是數(shù)學(xué)、代碼,而是像 “寫一篇論文什么算好”“計(jì)劃一個(gè)復(fù)雜任務(wù)什么算完成” 這種 reward。這個(gè)方向還沒有成熟范式,大家都還在摸索開放域的 reward 怎么定義,怎么穩(wěn)定訓(xùn)練?
二是尋找更高效的新的學(xué)習(xí)方式:提高 sample efficiency(樣本效率)——讓模型能更像人那樣,在少量反饋下就能學(xué)會(huì)新任務(wù),而不是依賴大量人工標(biāo)注和大量環(huán)境交互。
晚點(diǎn):我們不能構(gòu)造一個(gè)很復(fù)雜的、包含多種激勵(lì)的環(huán)境嗎?人所處的真實(shí)環(huán)境就是如此,我們面臨的任務(wù)很多樣,在不同情境和場景里,我們也會(huì)自己切換目標(biāo)和激勵(lì)。
肖朝軍:這很難。人能在現(xiàn)實(shí)世界中高效學(xué)習(xí),是因?yàn)槲覀兡軓母鞣N微弱而連續(xù)的信號里獲得反饋。比如聊天時(shí),我見你表情變嚴(yán)肅,自然會(huì)意識到可能哪里不太對——這是一種細(xì)膩的反饋。
但在強(qiáng)化學(xué)習(xí)里,反饋必須被離散成 “+1 或 -1” 這種形式化的 reward。如何把現(xiàn)實(shí)世界這種豐富、連續(xù)、多維的反饋壓縮成一個(gè) reward?本身就極其困難。
這對應(yīng)到 Ilya 說的 value function(價(jià)值函數(shù))——要給模型一個(gè)描述 “什么是好、什么是壞” 的價(jià)值函數(shù)。但構(gòu)造這樣的 value function 和構(gòu)造一個(gè)完整的世界模型一樣難。
甚至這是一個(gè) “雞生蛋、蛋生雞” 的悖論:如果我真能對世界建模得那么好,能有一個(gè)足夠強(qiáng)的 reward model 去評估所有行為,那這個(gè) reward model 本身就已經(jīng)是 AGI 級別的難度了。相當(dāng)于你先有一個(gè) AGI,才能用它去訓(xùn)練 AGI。
從大模型上車、上手機(jī),到隨身攜帶的 “個(gè)人 NAS”
晚點(diǎn):密度法則在業(yè)界的更多反饋和影響是什么?
劉知遠(yuǎn):DeepSeek-3 發(fā)布后,“成本、能效” 已經(jīng)變成全行業(yè)核心詞。其中一個(gè)有意思的現(xiàn)象是,很多具身智能(embodied AI)領(lǐng)域的朋友特別喜歡引用我們的研究成果,因?yàn)槎藗?cè)設(shè)備對延遲與能耗極度敏感。
在《自然·機(jī)器學(xué)習(xí)子刊》的這篇論文之前,我們還有一篇發(fā)在《自然通訊》上的論文,是關(guān)于 MiniCPM-V(注:指論文 Efficient GPT-4V level multimodal large language model for deployment on edge devices),其中有張經(jīng)典的圖,就是描述密度法則結(jié)合硬件演進(jìn),能讓端側(cè)設(shè)備承載原來云端服務(wù)器上跑的模型才有的能力;具身智能團(tuán)隊(duì)最關(guān)心的就是,端側(cè)的大腦什么時(shí)候可行。
![]()
達(dá)到 GPT-4V 水平的模型參數(shù)規(guī)模隨時(shí)間增長迅速縮減,而端側(cè)算力快速增強(qiáng),當(dāng)芯片電路密度(摩爾定律)和模型能力密度(密度法則)兩條曲線交匯,端側(cè)設(shè)備將能運(yùn)行以往只能在云端運(yùn)行的大模型。
晚點(diǎn): 你們看到的具體時(shí)間表是?
劉知遠(yuǎn):結(jié)合模型能力密度的提升速度,和全球一線芯片廠的制程路線圖,推估端側(cè)芯片的算力、緩存等規(guī)格,我們預(yù)測:2030 年左右,端側(cè)可部署 60B+ 參數(shù)的模型,激活大小可到達(dá) 8B+。這是基于現(xiàn)在發(fā)展的線性推測,未來也可能有非線性突破。5 年內(nèi),端側(cè)很可能能承載 GPT-4?GPT-5 能力的模型。
晚點(diǎn):不同終端設(shè)備的進(jìn)展速度是怎樣的?目前來看,車、手機(jī)、電腦應(yīng)該是第一批,也是各家布局端側(cè) AI 的公司的重點(diǎn)。
劉知遠(yuǎn):對,今年車端模型量產(chǎn)速度非常快,車的空間大,本身對算力、功耗的限制相對小。我們已經(jīng)在和長安馬自達(dá)、吉利的一些車型合作,明年會(huì)有 6 款以上車型接入我們的模型。
晚點(diǎn):現(xiàn)在大語言模型和多模態(tài)模型在車上具體能做什么?相比之前的語音助手,新增體驗(yàn)是什么?
劉知遠(yuǎn):主要是智能座艙的多模態(tài)交互,包括感知車內(nèi)、車外環(huán)境,對坐在不同位置的多乘客的識別和理解等等。不同車企的功能定義其實(shí)差別挺大的,有的高端座艙的功能點(diǎn)會(huì)超過 100 個(gè)。
晚點(diǎn):之前的 AI 技術(shù)在用到車等終端時(shí)需要做定制開發(fā),這關(guān)系到這種服務(wù)的商業(yè)效率和規(guī)模化能力,大模型現(xiàn)在要去適配這么多功能點(diǎn),需要做哪些額外的開發(fā)?
劉知遠(yuǎn):主要是做一些微調(diào),我們自己來做。我們本身很強(qiáng)調(diào)標(biāo)準(zhǔn)化,有一套 SFT 工具鏈和數(shù)據(jù)合成規(guī)范,所以效率挺高的。
晚點(diǎn):那么接下來在手機(jī),乃至眼鏡這種更小的硬件上,AI 和端側(cè)模型會(huì)怎么發(fā)展?
劉知遠(yuǎn):我們認(rèn)為 2027 年是關(guān)鍵節(jié)點(diǎn),這時(shí)可以做到,在手機(jī)上實(shí)現(xiàn)大規(guī)模的強(qiáng)化學(xué)習(xí)。這就意味著,每個(gè)人能用自己的數(shù)據(jù)來給這個(gè)模型提供學(xué)習(xí)環(huán)境,讓它能逐漸成為個(gè)人的 “專屬大模型助理”。而眼鏡,它不需要自己跑大模型,它更像是手機(jī)的外設(shè)。
或者說,未來的入口不也不是手機(jī),而是一個(gè)隨身的個(gè)人計(jì)算終端,類似能隨身攜帶的的家庭 NAS(一種計(jì)算與存儲服務(wù)器);眼鏡、耳機(jī)、手表或各種新的傳感設(shè)備,會(huì)通過各種方式獲得數(shù)據(jù),再給到個(gè)人計(jì)算終端,支持模型持續(xù)學(xué)習(xí)。
智能會(huì)分布式存在,AGI 的雛形是 “AI 造 AI”
晚點(diǎn):目前的密度法則是描述現(xiàn)有預(yù)訓(xùn)練范式的效率提升,現(xiàn)在業(yè)界也都在討論,預(yù)訓(xùn)練 +RL 后訓(xùn)練之后,下一個(gè)大的方法改進(jìn)是什么?你們會(huì)重點(diǎn)探索哪個(gè)方向?
肖朝軍:我認(rèn)為是自主學(xué)習(xí)(self-learning),也可以說是自我進(jìn)化、持續(xù)學(xué)習(xí),現(xiàn)在的名詞很多。背景還是我們前面聊到的——強(qiáng)化學(xué)習(xí)已能在單一任務(wù)上做到很強(qiáng),但它還不夠泛化。
未來的模型,首先應(yīng)該是一個(gè)很好的學(xué)習(xí)者:它放在你的終端或其它設(shè)備上,可以根據(jù)你的需求持續(xù)學(xué)習(xí)你擅長或需要的任務(wù)。就像帶一個(gè)實(shí)習(xí)生——你教它寫代碼、寫稿或做研究,它會(huì)逐漸掌握這些能力。
而目前的預(yù)訓(xùn)練和強(qiáng)化學(xué)習(xí)都做不到這一點(diǎn),因此才會(huì)出現(xiàn)世界模型,想給模型提供一個(gè)足夠好的反饋環(huán)境;才會(huì)強(qiáng)化學(xué)習(xí)之父 Rich Sutton 說當(dāng)前大模型無法通向 AGI 。核心還是,海量數(shù)據(jù)驅(qū)動(dòng)的這種學(xué)習(xí)方式可能會(huì)阻礙更高效地習(xí)得新技能。
接下來,是有了自我學(xué)習(xí)能力的模型之間的協(xié)作。比如有的人培養(yǎng)出了 AI Researcher 專家模型,有的培養(yǎng)出了 Infra 專家模型,他們怎么合作,讓模型發(fā)展得更快。
再往后,最高階的就是創(chuàng)造能力,比如真的像愛因斯坦等科學(xué)家那樣,不僅在人已經(jīng)定義好的符號里學(xué)習(xí),也有能力創(chuàng)造新的符號間的關(guān)系,乃至新的符號系統(tǒng)。
所以總結(jié)一下,就是自主學(xué)習(xí)→能自主學(xué)習(xí)的 AI 之間的協(xié)作→創(chuàng)新。
劉知遠(yuǎn):這是明線,背后也有一條暗線,是智能在設(shè)備上的分布方式。
按中國信通院的統(tǒng)計(jì),2023 年全國端側(cè)算力,主要是手機(jī)的加總,是數(shù)據(jù)中心算力的 12 倍。云上算力看起來很大,但架不住全國十幾億臺設(shè)備同時(shí)在跑。所以過去幾十年的信息化,本質(zhì)上是一個(gè)分布式算力和分布式信息的結(jié)構(gòu)。
我認(rèn)為智能化也會(huì)如此。2023 年初有巨頭說 “全球只需要幾個(gè)大模型”,這和 1943 年 IBM 董事長說 “世界只需要五臺計(jì)算機(jī)” 如出一轍。但未來的智能大概率是分布式存在的,每個(gè)人都有一個(gè)屬于自己的智能體。
如果模型具備自主學(xué)習(xí)能力,那么終端上的模型就能基于用戶的個(gè)人數(shù)據(jù)持續(xù)成長,最終形成一個(gè) “個(gè)人大模型”,成為你最懂你的那個(gè)助手。云端則會(huì)存在一系列 “專家大模型”:懂外賣的美團(tuán)模型、懂出行的是滴滴模型、懂內(nèi)容的是抖音模型……
端側(cè)和云端模型的協(xié)同工作,就會(huì)形成 “智能體的互聯(lián)網(wǎng)”。在這個(gè)分布式智能體系里,密度法則會(huì)非常關(guān)鍵,它能讓端側(cè)模型能以極低成本運(yùn)行,用戶幾乎無感,讓智能屬于每個(gè)人。
晚點(diǎn):未來一年:你們最想觀察、驗(yàn)證的問題是什么?
肖朝軍:強(qiáng)化學(xué)習(xí)到底能走多遠(yuǎn)?自主學(xué)習(xí)以什么形式存在?還有,最早出現(xiàn)的 “AGI 形態(tài)” 會(huì)是什么樣?這其實(shí)是這樣一個(gè)問題:自主學(xué)習(xí)、協(xié)作和創(chuàng)造這些能力,會(huì)先落在一個(gè)什么樣的模型或產(chǎn)品形態(tài)上?
我的直覺是,AGI 的形態(tài)可能不是面向用戶的 to C 產(chǎn)品,而是面向生產(chǎn)的 to B 系統(tǒng)。比如說,你讓它 “做一個(gè)自動(dòng)駕駛模型”,它就能生產(chǎn)數(shù)據(jù)、構(gòu)建環(huán)境、訓(xùn)練模型、優(yōu)化架構(gòu),最終把模型在目標(biāo)算力上部署起來。也就是說,最早的 AGI 不需要什么都會(huì),而是先會(huì) “自己生產(chǎn) AI”。
劉知遠(yuǎn): 從歷史來看,第一次工業(yè)革命的標(biāo)志是 “機(jī)器生產(chǎn)機(jī)器”。智能時(shí)代的本質(zhì)也是 “AI 造 AI”。自主學(xué)習(xí),就是最早的 “AI 造 AI” 的雛形:模型能在環(huán)境中自己成長。我非常期待明年或后年出現(xiàn)真正具備這種能力的系統(tǒng)。
題圖來源:《黑衣人》(用 Nano Banana Pro 增強(qiáng)了吊墜中的銀河)
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.