![]()
機(jī)器之心編輯部
過(guò)去十年,我們幾乎把 AI 領(lǐng)域的創(chuàng)新簡(jiǎn)化成一條公式:更多參數(shù)、更多數(shù)據(jù)、更多算力。可未來(lái)的突破,是否仍然只能從訓(xùn)練算力中產(chǎn)生,其實(shí)并不清楚。
這個(gè)問(wèn)題之所以重要,是因?yàn)椤杆懔︱?qū)動(dòng)進(jìn)步」的信念,已經(jīng)深刻改變了整個(gè)領(lǐng)域的研究文化。學(xué)術(shù)界因缺乏算力逐漸被邊緣化,研究參與在地域上高度集中;巨額資本投入也讓原本開(kāi)放的發(fā)表傳統(tǒng)變得愈發(fā)封閉。
在過(guò)去的一段時(shí)間,前谷歌大腦研究員、Cohere 前 AI 研究負(fù)責(zé)人 Sara Hooker 一直在呼吁大家重視這個(gè)問(wèn)題。最近,她還把自己之前的演講內(nèi)容寫(xiě)成了文章。
![]()
- 文章標(biāo)題:On the slow death of scaling.
- 文章鏈接:https://papers.ssrn.com/sol3/papers.cfm?abstract_id=5877662
文章中提到,對(duì)于深度神經(jīng)網(wǎng)絡(luò)而言,持續(xù)擴(kuò)展訓(xùn)練計(jì)算資源效率極低。我們花費(fèi)大量資源來(lái)學(xué)習(xí)那些低頻特征的長(zhǎng)尾部分,而所有跡象都表明,我們正處于收益遞減的時(shí)期。在模型規(guī)模不再逐年翻倍的世界里,模型如何從環(huán)境中學(xué)習(xí)并有效地從新知識(shí)中適應(yīng),就顯得尤為重要。在文章中,她探討了一些未來(lái)有價(jià)值的方向。
以下是文章內(nèi)容節(jié)選。
一個(gè)不容忽視的趨勢(shì):小模型的崛起
聲稱(chēng) scaling 正在走向終結(jié),這在許多領(lǐng)域都存在爭(zhēng)議。因?yàn)檫^(guò)去十年的所有證據(jù)都表明,擴(kuò)展計(jì)算能力能夠解鎖更大的模型規(guī)模或數(shù)據(jù)集。增加計(jì)算能力也恰好符合行業(yè)季度規(guī)劃的節(jié)奏,相比提出一種替代的優(yōu)化技術(shù),提議訓(xùn)練更大的模型風(fēng)險(xiǎn)更小。
但僅僅依靠計(jì)算資源會(huì)忽略規(guī)模與性能之間的關(guān)系正在發(fā)生的一個(gè)關(guān)鍵轉(zhuǎn)變。更大的模型并不總能帶來(lái)更好的性能。最近幾年出現(xiàn)了很多大模型被規(guī)模小得多的小模型超越的案例。如下圖 3b 所示,隨著時(shí)間推移,這類(lèi)小模型數(shù)量激增。
![]()
要理解為什么會(huì)出現(xiàn)這種情況,我們必須弄清楚在過(guò)去十年中,哪些關(guān)鍵變量一直在推動(dòng)性能的提升。在計(jì)算資源回報(bào)遞減的時(shí)代,優(yōu)化和架構(gòu)上的突破決定了單位計(jì)算資源的回報(bào)率。而正是這種回報(bào)率,對(duì)發(fā)展速度以及額外計(jì)算資源所帶來(lái)的風(fēng)險(xiǎn)水平最為關(guān)鍵。
![]()
哪些因素會(huì)影響算力回報(bào)率?
在復(fù)雜系統(tǒng)中,孤立地操控一個(gè)變量并預(yù)見(jiàn)所有影響是極具挑戰(zhàn)性的,人們對(duì)計(jì)算量的推崇也是如此。
增大模型規(guī)模正面臨收益遞減
過(guò)去十年,模型參數(shù)量從早期 Inception 的 2300 萬(wàn)暴增至 Qwen3-235B 的 2350 億。盡管更大模型確實(shí)帶來(lái)了性能提升,但額外的參數(shù)數(shù)量與泛化能力之間的關(guān)系仍不清楚。
令人困惑的是:訓(xùn)練結(jié)束后,我們可以刪除大部分權(quán)重而幾乎不損失性能;但若一開(kāi)始就不啟用這些權(quán)重,則無(wú)法達(dá)到相同效果。研究發(fā)現(xiàn),僅用一小部分權(quán)重就能預(yù)測(cè)網(wǎng)絡(luò)中 95% 的權(quán)重,說(shuō)明存在大量冗余。這可能反映的是深度學(xué)習(xí)技術(shù)本身的低效 —— 如果有更好的學(xué)習(xí)方法,我們可能根本不需要這么大的網(wǎng)絡(luò)。
增大模型規(guī)模是學(xué)習(xí)長(zhǎng)尾分布的一種成本極高的方式。深度神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)效率極低。它們能快速學(xué)會(huì)常見(jiàn)特征,卻需要大量算力和時(shí)間來(lái)學(xué)習(xí)罕見(jiàn)特征。這是因?yàn)橛?xùn)練基于平均誤差最小化,所有樣本被同等對(duì)待,導(dǎo)致低頻特征的信號(hào)在批量更新中被稀釋。而現(xiàn)實(shí)世界中,大多數(shù)屬性恰恰是低頻的 —— 人類(lèi)智能的獨(dú)特之處正是能高效處理這類(lèi)長(zhǎng)尾數(shù)據(jù)。深度網(wǎng)絡(luò)在這方面最為吃力,訓(xùn)練的大部分算力都被消耗在以極高代價(jià)記憶長(zhǎng)尾數(shù)據(jù)上,如同「搭梯子登月」般低效。
數(shù)據(jù)質(zhì)量降低了對(duì)計(jì)算資源的依賴(lài)
在質(zhì)量更高的數(shù)據(jù)上訓(xùn)練的模型不需要那么多計(jì)算資源。大量研究表明,改進(jìn)訓(xùn)練語(yǔ)料庫(kù)的一些工作,包括去重、數(shù)據(jù)修剪或數(shù)據(jù)優(yōu)先級(jí)排序,可以彌補(bǔ)模型規(guī)模的不足。這表明,可學(xué)習(xí)參數(shù)的數(shù)量并非提升性能的絕對(duì)限制因素;對(duì)更高數(shù)據(jù)質(zhì)量的投入能夠減少對(duì)更多(計(jì)算資源等)的需求。
新的算法技術(shù)彌補(bǔ)了計(jì)算量的不足
過(guò)去幾年的進(jìn)展,既得益于算法的改進(jìn),也得益于計(jì)算能力的提升。這包括通過(guò)指令微調(diào)擴(kuò)展預(yù)訓(xùn)練,以教會(huì)模型遵循指令;利用更大、性能更強(qiáng)的「教師」模型生成的合成數(shù)據(jù)進(jìn)行模型蒸餾,來(lái)訓(xùn)練能力強(qiáng)、規(guī)模小的「學(xué)生」模型;思維鏈推理;增加上下文長(zhǎng)度;檢索增強(qiáng)生成;以及通過(guò)偏好訓(xùn)練使模型與人類(lèi)反饋保持一致等。
所有這些技術(shù)都彌補(bǔ)了對(duì)大量權(quán)重或昂貴的長(zhǎng)時(shí)間訓(xùn)練的需求。在所有條件相同的情況下,與未使用這些優(yōu)化技巧且在相同計(jì)算量下訓(xùn)練的模型相比,這些技術(shù)已被證明能顯著提升模型性能。我們正用相同數(shù)量的資源做著多得多的事情。
架構(gòu)在決定可擴(kuò)展性方面起著重要作用
架構(gòu)在確定單位計(jì)算量下的整體性能回報(bào)率方面起著巨大作用。它在決定進(jìn)步上限方面也至關(guān)重要。新架構(gòu)設(shè)計(jì)的引入可以從根本上改變計(jì)算量與性能之間的關(guān)系,并使任何現(xiàn)有的 scaling law 變得無(wú)關(guān)緊要。
Scaling Law 的局限性
巴菲特曾說(shuō)過(guò)一句話:「別問(wèn)理發(fā)師你需不需要理發(fā)。」同樣的道理,也別去問(wèn)計(jì)算機(jī)科學(xué)家或經(jīng)濟(jì)學(xué)家能不能預(yù)測(cè)未來(lái)。人們往往會(huì)被「我能預(yù)測(cè)」的誘惑牽著走,而忽視了對(duì)預(yù)測(cè)邊界應(yīng)有的謙遜。關(guān)于模型規(guī)模與性能關(guān)系的 scaling law 正是這種自信膨脹的體現(xiàn)。它試圖用算力規(guī)模去推斷預(yù)訓(xùn)練損失的變化,或預(yù)測(cè)下游能力如何隨規(guī)模出現(xiàn),但現(xiàn)實(shí)遠(yuǎn)比公式復(fù)雜。
Scaling Law 之所以流行,很大程度上源于人們過(guò)度相信算力是推動(dòng)進(jìn)步的核心變量。它逐漸成了一個(gè)萬(wàn)能說(shuō)法,被用來(lái)為巨額投資甚至政策決策背書(shū)。其吸引力也不難理解,如果能力真的能隨算力精確預(yù)測(cè),資本配置就會(huì)顯得異常清晰。但問(wèn)題在于,我們幾乎從未準(zhǔn)確預(yù)測(cè)過(guò)性能究竟會(huì)提升多少,這讓「算力投入的回報(bào)率」在科學(xué)上難以站得住腳。
更關(guān)鍵的是,Scaling Law 真正被反復(fù)驗(yàn)證的,只是對(duì)預(yù)訓(xùn)練測(cè)試損失的預(yù)測(cè),也就是模型補(bǔ)全文本的能力。一旦換成真實(shí)的下游任務(wù)表現(xiàn),結(jié)果往往混亂且不一致。所謂的「涌現(xiàn)能力」,常被用來(lái)解釋這種落差,看似是能力突然出現(xiàn),實(shí)際上等于承認(rèn) Scaling Law 并不能告訴我們未來(lái)會(huì)發(fā)生什么。即便只預(yù)測(cè)測(cè)試損失,在數(shù)據(jù)分布假設(shè)略有變化時(shí),結(jié)果的可復(fù)現(xiàn)性也會(huì)出現(xiàn)問(wèn)題。越來(lái)越多研究發(fā)現(xiàn),許多能力的提升曲線并不平滑,甚至根本不符合冪律。
對(duì)于需要向未來(lái)外推的復(fù)雜系統(tǒng)來(lái)說(shuō),小誤差會(huì)不斷累積,而樣本數(shù)量又極其有限。每一個(gè)數(shù)據(jù)點(diǎn)都是一整個(gè)模型,高昂的計(jì)算成本意味著很多 scaling 結(jié)論建立在不到百個(gè)樣本之上,統(tǒng)計(jì)支撐本身就很脆弱。因此,不同領(lǐng)域中 Scaling Law 的可靠性差異巨大。比如代碼生成在極大算力跨度內(nèi)表現(xiàn)出相對(duì)穩(wěn)定的冪律關(guān)系,而其他能力則顯得更加不可預(yù)測(cè)。
在架構(gòu)、優(yōu)化方法和數(shù)據(jù)質(zhì)量保持不變的短期受控環(huán)境下,Scaling Law 對(duì)規(guī)劃訓(xùn)練規(guī)模仍有一定價(jià)值。但一旦拉長(zhǎng)時(shí)間尺度,它們就很難經(jīng)得起檢驗(yàn)。Scaling Law 的頻繁失效提醒我們,單純堆算力并不是一條直線式的進(jìn)步路徑。那些過(guò)度依賴(lài) Scaling Law 的前沿 AI 公司,可能正在低估其他創(chuàng)新方向的價(jià)值,而真正的突破,往往正藏在這些被忽視的地方。
未來(lái)前進(jìn)方向
在計(jì)算機(jī)科學(xué)中,我們長(zhǎng)期把算力當(dāng)成銀彈。
但現(xiàn)實(shí)正在發(fā)生分化。一方面,至少在短期內(nèi),人們?nèi)詴?huì)繼續(xù)把模型做得更大,試圖從逐漸老化的架構(gòu)中榨取最后的性能;另一方面,算力與性能之間的關(guān)系卻越來(lái)越緊繃,也越來(lái)越難以預(yù)測(cè)。單純依賴(lài)算力,正在變成一條不穩(wěn)定的道路。
真正有可能引領(lǐng)下一輪創(chuàng)新的前沿實(shí)驗(yàn)室,不會(huì)把賭注只壓在算力上。更有價(jià)值的進(jìn)展,來(lái)自對(duì)優(yōu)化空間的根本性重塑,也就是范式層面的轉(zhuǎn)變。與以往不同的是,計(jì)算機(jī)科學(xué)家如今需要同時(shí)優(yōu)化的「工具箱」大幅擴(kuò)展,這不僅會(huì)決定他們把時(shí)間花在哪里,也會(huì)影響「發(fā)現(xiàn)」本身是如何發(fā)生的。
新的優(yōu)化空間
如今,越來(lái)越多的計(jì)算并不是花在訓(xùn)練階段,而是花在訓(xùn)練之外、推理之中。過(guò)去,模型性能的提升幾乎等同于更多數(shù)據(jù)、更長(zhǎng)訓(xùn)練或更大參數(shù)規(guī)模,而現(xiàn)在,一個(gè)明顯的轉(zhuǎn)向正在發(fā)生:通過(guò)在推理時(shí)投入更多算力,用搜索、工具調(diào)用、多智能體協(xié)作或自適應(yīng)計(jì)算來(lái)提升表現(xiàn),而不必改動(dòng)模型本身。更重要的是,這些方法大多不依賴(lài)梯度更新,徹底偏離了過(guò)去三十年以訓(xùn)練為中心的進(jìn)步路徑。已有研究表明,僅靠推理階段的計(jì)算放大,就可能帶來(lái)數(shù)倍甚至一個(gè)數(shù)量級(jí)的性能提升,而所需算力遠(yuǎn)低于重新預(yù)訓(xùn)練的成本。
![]()
與此同時(shí),數(shù)據(jù)也不再是不可觸碰的「靜態(tài)背景」。長(zhǎng)期以來(lái),高質(zhì)量標(biāo)注數(shù)據(jù)稀缺且昂貴,訓(xùn)練集往往被視為對(duì)世界的固定快照,從 MNIST、ImageNet 到 SQuAD,AI 的進(jìn)步建立在這些凍結(jié)的數(shù)據(jù)之上。但現(xiàn)實(shí)使用中,模型最擅長(zhǎng)的始終是訓(xùn)練分布,而推理時(shí)真正重要的場(chǎng)景卻常常數(shù)據(jù)不足,訓(xùn)練與使用之間由此產(chǎn)生結(jié)構(gòu)性錯(cuò)位。隨著合成數(shù)據(jù)成本大幅下降,數(shù)據(jù)空間本身開(kāi)始變得可塑,我們可以有意識(shí)地生成、引導(dǎo)和放大那些原本稀少卻關(guān)鍵的分布區(qū)域,這也動(dòng)搖了機(jī)器學(xué)習(xí)中關(guān)于 IID 樣本的基礎(chǔ)假設(shè)。
最后,智能系統(tǒng)的核心正在從「更強(qiáng)的模型」轉(zhuǎn)向「更會(huì)與世界互動(dòng)的系統(tǒng)」。算法本身不再是全部,交互方式、界面設(shè)計(jì)以及多組件系統(tǒng)的協(xié)同,正在成為決定智能上限的重要因素。曾經(jīng)屬于 UX 或人機(jī)交互的小眾問(wèn)題,正在走到計(jì)算機(jī)科學(xué)研究的正中央。
只要還用 Transformer,scaling 就會(huì)變得沒(méi)有意義
在以 Transformer 為核心架構(gòu)的前提下,只要我們?nèi)跃窒抻?Transformer 這種架構(gòu),繼續(xù)擴(kuò)大計(jì)算規(guī)模就沒(méi)有意義。現(xiàn)有架構(gòu)已經(jīng)明顯出現(xiàn)邊際收益遞減,再投入算力也難以換來(lái)成比例的進(jìn)步。深度神經(jīng)網(wǎng)絡(luò)主導(dǎo)了過(guò)去十年的發(fā)展,但越來(lái)越多跡象表明,下一次真正的躍遷需要一種全新的架構(gòu)。隨著模型開(kāi)始持續(xù)與世界互動(dòng),如何避免災(zāi)難性遺忘成為關(guān)鍵挑戰(zhàn),而依賴(lài)全局參數(shù)更新的深度網(wǎng)絡(luò),在持續(xù)學(xué)習(xí)和知識(shí)分化上先天受限,很難像大腦那樣形成相對(duì)獨(dú)立、可專(zhuān)門(mén)化的知識(shí)區(qū)域。
與此同時(shí),訓(xùn)練算力「scaling 退潮」并不等于 AI 的環(huán)境影響會(huì)隨之減輕。需要區(qū)分的是,算力與性能關(guān)系的變化,并不等同于整個(gè) AI 系統(tǒng)的計(jì)算開(kāi)銷(xiāo)下降。即便模型本身變得更小、更高效,AI 也會(huì)被部署到越來(lái)越多的場(chǎng)景中。真正的能耗大頭,往往不在訓(xùn)練,而在模型上線后的生產(chǎn)化與大規(guī)模服務(wù)階段。當(dāng)數(shù)十億用戶(hù)同時(shí)使用 AI 時(shí),即使單個(gè)模型更輕量,總體能耗仍可能持續(xù)上升,這依然是一個(gè)不容忽視的現(xiàn)實(shí)問(wèn)題。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.