![]()
2025年底,大模型行業(yè)的“年終決戰(zhàn)”如期而至,全球科技巨頭紛紛亮出底牌。在這場(chǎng)萬(wàn)眾矚目的角逐中,Google DeepMind推出的Gemini 3以絕對(duì)優(yōu)勢(shì)強(qiáng)勢(shì)突圍,橫掃多項(xiàng)權(quán)威基準(zhǔn)測(cè)試,憑借“世界最強(qiáng)多模態(tài)理解”“交互最深智能體”等硬核表現(xiàn),刷新了行業(yè)對(duì)AI能力的認(rèn)知邊界。谷歌CEO桑達(dá)爾·皮查伊親自站臺(tái),直言其是“迄今為止最智能的模型”。一時(shí)間,整個(gè)AI圈沸騰,所有人都在追問(wèn):Gemini 3的強(qiáng)悍實(shí)力,究竟藏著怎樣的秘訣?隨著Gemini 3預(yù)訓(xùn)練負(fù)責(zé)人Sebastian Borgeaud在播客中深度拆解背后的實(shí)驗(yàn)室邏輯,答案逐漸清晰——這不僅是單一技術(shù)的突破,更是AI行業(yè)發(fā)展范式的全面革新。
一、不只是“更好的訓(xùn)練”:大模型競(jìng)爭(zhēng)進(jìn)入“系統(tǒng)戰(zhàn)”時(shí)代
Gemini 3發(fā)布之初,Google DeepMind研究與深度學(xué)習(xí)副總裁Oriol Vinyals的一條推文引發(fā)行業(yè)熱議:“Gemini 3這么強(qiáng),核心秘訣就兩點(diǎn):更好的預(yù)訓(xùn)練,更好的后訓(xùn)練。”這番看似樸素的表述,卻在Sebastian Borgeaud的解讀中展現(xiàn)出深層邏輯。在他看來(lái),Gemini 3的跨越式進(jìn)步并非源于某一項(xiàng)“顛覆性技術(shù)”,而是無(wú)數(shù)細(xì)節(jié)優(yōu)化的累積,是數(shù)百人團(tuán)隊(duì)協(xié)同作戰(zhàn)的成果。“我們幾乎每天都能找到讓模型變更好的地方,整個(gè)團(tuán)隊(duì)都在加速前進(jìn)。”
![]()
更關(guān)鍵的是,Sebastian Borgeaud點(diǎn)出了谷歌AI研發(fā)的核心轉(zhuǎn)變:從單純“做模型”轉(zhuǎn)向“做系統(tǒng)”。這一觀點(diǎn)與DeepMind聯(lián)合創(chuàng)始人兼CEO戴密斯·哈薩比斯不謀而合,后者強(qiáng)調(diào)Gemini 3的強(qiáng)大根源在于“研究、工程和基礎(chǔ)設(shè)施”的深度融合。這種端到端的整合優(yōu)勢(shì)在訓(xùn)練硬件上體現(xiàn)得尤為明顯——Gemini 3全程基于TPU訓(xùn)練,而非行業(yè)主流的英偉達(dá)芯片,這種垂直整合能力讓研究與工程的邊界逐漸模糊,形成了獨(dú)特的技術(shù)壁壘。
二、預(yù)訓(xùn)練的核心突破:規(guī)模仍重要,但創(chuàng)新更關(guān)鍵
作為Gemini 3預(yù)訓(xùn)練負(fù)責(zé)人之一,Sebastian Borgeaud的研究經(jīng)歷為這項(xiàng)工作埋下了重要伏筆。從Transformer架構(gòu)到BERT、XLNet,再到DeepMind第一篇大語(yǔ)言模型論文Gopher,豐富的積淀讓他形成了獨(dú)特的“研究品味”——既重視技術(shù)突破,更強(qiáng)調(diào)團(tuán)隊(duì)協(xié)作與復(fù)雜性管理。在他看來(lái),好的研究不僅要讓模型變好,更要能與其他團(tuán)隊(duì)的成果高效整合,避免因局部?jī)?yōu)化拖慢整體進(jìn)度。
針對(duì)行業(yè)內(nèi)“預(yù)訓(xùn)練Scaling Law已死”的爭(zhēng)議,Sebastian Borgeaud給出了明確回應(yīng):“規(guī)模依然重要,但架構(gòu)創(chuàng)新和數(shù)據(jù)創(chuàng)新的權(quán)重已經(jīng)顯著提升,甚至變得更為關(guān)鍵。”這一結(jié)論源于DeepMind多年的實(shí)踐經(jīng)驗(yàn),早在Chinchilla項(xiàng)目中,團(tuán)隊(duì)就發(fā)現(xiàn):在訓(xùn)練計(jì)算量固定的前提下,更快地?cái)U(kuò)展數(shù)據(jù)規(guī)模比盲目擴(kuò)大模型規(guī)模,能訓(xùn)練出更優(yōu)的模型。這一規(guī)律至今仍深刻影響著模型的推理效率與使用成本,成為企業(yè)AI落地的核心考量。
在架構(gòu)上,Gemini 3采用基于Transformer的混合專家(MoE)架構(gòu)。簡(jiǎn)單來(lái)說(shuō),這種架構(gòu)將“計(jì)算量”與“參數(shù)規(guī)模”解耦,通過(guò)動(dòng)態(tài)路由把計(jì)算分配給特定“專家”,既保證了模型能力,又提升了訓(xùn)練效率。而在數(shù)據(jù)上,Gemini 3從一開(kāi)始就采用原生多模態(tài)數(shù)據(jù),融合多種來(lái)源的信息,這也為其多模態(tài)優(yōu)勢(shì)奠定了基礎(chǔ)。
三、行業(yè)范式轉(zhuǎn)移:從“無(wú)限數(shù)據(jù)”到“有限數(shù)據(jù)”的挑戰(zhàn)與機(jī)遇
Gemini 3的成功,也側(cè)面反映了當(dāng)下AI行業(yè)的深刻變革:從“無(wú)限數(shù)據(jù)”的規(guī)模化時(shí)代,正式邁入“數(shù)據(jù)有限”的新階段。這一趨勢(shì)倒逼整個(gè)行業(yè)重新思考創(chuàng)新方向,而合成數(shù)據(jù)、推理軌跡、長(zhǎng)上下文等成為關(guān)鍵探索領(lǐng)域。
對(duì)于當(dāng)下熱門的合成數(shù)據(jù),Sebastian Borgeaud保持著審慎態(tài)度。他認(rèn)為,合成數(shù)據(jù)的核心風(fēng)險(xiǎn)不是“沒(méi)效果”,而是“用錯(cuò)了還渾然不覺(jué)”——一旦數(shù)據(jù)分布偏移,模型可能陷入“自嗨”的閉環(huán)。為此,谷歌采用“強(qiáng)模型生成+小規(guī)模可控消融實(shí)驗(yàn)”的穩(wěn)妥方案,先驗(yàn)證收益與潛在副作用,再逐步推廣。而行業(yè)普遍關(guān)注的“用合成數(shù)據(jù)訓(xùn)練的模型能否超越老師”這一問(wèn)題,仍是團(tuán)隊(duì)重點(diǎn)研究的方向。
在數(shù)據(jù)受限的背景下,架構(gòu)創(chuàng)新的價(jià)值更加凸顯。Sebastian Borgeaud認(rèn)為,架構(gòu)改進(jìn)的核心目標(biāo)之一,就是用同樣的數(shù)據(jù)訓(xùn)練出更好的模型,或用更少的數(shù)據(jù)達(dá)到舊模型的同等效果。而長(zhǎng)上下文與注意力機(jī)制成為當(dāng)下預(yù)訓(xùn)練的重要突破口:“上下文越長(zhǎng),模型推理時(shí)可攜帶的信息越多,能力邊界也就越寬。”未來(lái),谷歌還計(jì)劃將檢索與搜索更深地融入訓(xùn)練,讓模型把“會(huì)檢索”變成內(nèi)生能力,而非上線后再外掛工具。
四、未來(lái)方向:持續(xù)學(xué)習(xí)、評(píng)估體系與科學(xué)賦能
談及未來(lái)的研究熱點(diǎn),Sebastian Borgeaud重點(diǎn)提及了持續(xù)學(xué)習(xí)。當(dāng)前,基礎(chǔ)模型一旦完成預(yù)訓(xùn)練,知識(shí)就基本定格,無(wú)法自動(dòng)吸收新論文、新發(fā)現(xiàn)。行業(yè)目前的可行方案是在產(chǎn)品推理側(cè)接入檢索,實(shí)時(shí)獲取最新信息,但這只是權(quán)宜之計(jì)。更遠(yuǎn)的目標(biāo)是改變訓(xùn)練方式,讓模型能在真實(shí)世界的數(shù)據(jù)流上持續(xù)訓(xùn)練,實(shí)現(xiàn)真正意義上的“持續(xù)更新”。
此外,評(píng)估體系被他視為預(yù)訓(xùn)練階段的核心難題。“如果評(píng)估體系跟不上,很容易陷入‘看似提升’的假象內(nèi)耗。”由于外部基準(zhǔn)容易被污染,谷歌內(nèi)部搭建了專屬的評(píng)估體系,重點(diǎn)攻克兩道鴻溝:一是小模型上驗(yàn)證有效的改進(jìn)能否遷移到大規(guī)模模型;二是預(yù)訓(xùn)練階段的優(yōu)勢(shì)能否轉(zhuǎn)化為真實(shí)可用的能力。同時(shí),隨著用戶規(guī)模擴(kuò)大,推理預(yù)算變得敏感,預(yù)訓(xùn)練環(huán)節(jié)也必須兼顧能力提升與成本控制。
展望未來(lái),Sebastian Borgeaud充滿信心。他預(yù)測(cè),Gemini將更好地服務(wù)于科學(xué)研究,甚至有望助力重大發(fā)現(xiàn)拿下諾貝爾獎(jiǎng);同時(shí)也會(huì)更深入地融入普通人的生活,解決各類實(shí)際問(wèn)題。“進(jìn)步的腳步看不到盡頭,至少未來(lái)一年,這種加速前進(jìn)的勢(shì)頭不會(huì)放緩。”
結(jié)語(yǔ)
Gemini 3的強(qiáng)勢(shì)突圍,不僅展現(xiàn)了頂級(jí)AI模型的強(qiáng)悍實(shí)力,更揭示了行業(yè)發(fā)展的底層邏輯——從追求單一技術(shù)突破到構(gòu)建系統(tǒng)能力,從盲目堆規(guī)模到重視創(chuàng)新與效率的平衡。在數(shù)據(jù)受限的新范式下,架構(gòu)創(chuàng)新、持續(xù)學(xué)習(xí)、精準(zhǔn)評(píng)估將成為AI行業(yè)的核心競(jìng)爭(zhēng)力。而Google DeepMind的探索,也為整個(gè)行業(yè)指明了方向:真正的AI進(jìn)步,從來(lái)不是孤軍奮戰(zhàn)的結(jié)果,而是研究、工程與基礎(chǔ)設(shè)施深度融合的必然。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.