「這確實是一個很棒的逆襲故事。」
11 月 19 日凌晨,Gemini 3 的發(fā)布徹底打破了平淡。上線當(dāng)日,全球訪問量便突破 5400 萬次,創(chuàng)平臺歷史新高。
![]()
Google 這一次王者歸來,震感甚至直接傳導(dǎo)到了競爭對手的神經(jīng)中樞。據(jù) The Information 報道,面對 Google 步步緊逼的攻勢,OpenAI CEO Sam Altman 本周一緊急在內(nèi)部備忘錄中宣布公司進(jìn)入「紅色警戒(code red)」?fàn)顟B(tài),準(zhǔn)備調(diào)動一切戰(zhàn)略資源對 ChatGPT 的能力進(jìn)行大幅升級。
據(jù) The Verge 援引知情人士消息稱,OpenAI 計劃最早于下周初發(fā)布 GPT-5.2 模型, 這一時間表較原定的 12 月下旬計劃大幅提前。
![]()
這不僅側(cè)面印證了 Gemini 3 帶來的壓迫感,也讓接下來的對話顯得更加意味深長。
近日,DeepMind CTO、Google 新任首席 AI 架構(gòu)師 Koray Kavukcuoglu 在 Logan Kilpatrick 的訪談節(jié)目中亮相,他說「我們曾是追趕者,但創(chuàng)新是唯一的出路。」
![]()
亮點速覽:
1. Koray Kavukcuoglu 強(qiáng)調(diào),Gemini 的優(yōu)化重點集中在以下幾個關(guān)鍵領(lǐng)域:
指令遵循: 確保模型能準(zhǔn)確理解并執(zhí)行用戶的具體需求,而非隨意生成內(nèi)容。
國際化: 提升多語言支持能力,確保全球用戶都能獲得高質(zhì)量體驗。
代理與工具能力:模型不僅能自然使用我們已有的工具和函數(shù),還能自主編寫工具。
2. Gemini 3 是一款「全 Google 團(tuán)隊協(xié)作的模型」。來自歐洲、亞洲等世界各地的團(tuán)隊都做出了貢獻(xiàn),不僅有 DeepMind 團(tuán)隊,還有 Google 各個部門的團(tuán)隊。
3. 隨著技術(shù)進(jìn)步,文本模型和圖像模型的架構(gòu)、理念正在不斷融合。過去,兩者的架構(gòu)差異很大,但現(xiàn)在越來越趨同。這是技術(shù)自然演進(jìn)的結(jié)果:大家都在探索更高效的方案,理念逐漸統(tǒng)一,最終形成了共同的發(fā)展路徑。
視頻鏈接:
https://youtu.be/fXtna7UrL44?si=A5xEGWGeEM4EEDhp
以下為完整內(nèi)容的轉(zhuǎn)錄和翻譯。(順序有改動)
基準(zhǔn)測試只是第一步,用戶反饋是 Step Two
Logan Kilpatrick: 大家好,歡迎回到 Release Notes。我是 Logan Kilpatrick,我在 DeepMind 團(tuán)隊。今天很榮幸邀請到 DeepMind 的 CTO、Google 的新任首席 AI 架構(gòu)師——Koray。Koray,感謝你的到來,期待與你深入交流。
Koray Kavukcuoglu: 我也很期待。謝謝邀請!
Logan Kilpatrick: 當(dāng)然,Gemini 3 已經(jīng)發(fā)布。我們此前就預(yù)感這款模型會表現(xiàn)出色,基準(zhǔn)測試結(jié)果也非常亮眼,但真正將它交到用戶手中后,實際反響……
Koray Kavukcuoglu: 這才是最終的考驗。基準(zhǔn)測試只是第一步,之后我們也做了大量測試,包括讓可信測試者參與預(yù)發(fā)布體驗等。所以我們能感受到這是一款優(yōu)秀的模型,能力出眾,雖然不完美,但用戶的反饋確實讓我很滿意。大家似乎很喜歡這款模型,而且我們覺得有意思的部分,他們也同樣感興趣。所以目前來看挺好的,一切都很順利。
Logan Kilpatrick: 沒錯,我們昨天還在聊,核心話題就是感慨 AI 的發(fā)展速度從未放緩。回想上次,也就是去年 IO 大會上我們發(fā)布 Gemini 2.5 時,聽著演示、Serge 談?wù)?AI 的未來,當(dāng)時就覺得 2.5 已經(jīng)是最先進(jìn)的模型,在多個維度上都突破了前沿。而現(xiàn)在,Gemini 3.0 再次實現(xiàn)了突破。我很好奇,關(guān)于「這種進(jìn)步能否持續(xù)」的討論一直存在,你現(xiàn)在的看法是什么?
Koray Kavukcuoglu: 我對目前的進(jìn)展和研究都充滿信心。身處研究一線,你會發(fā)現(xiàn)各個領(lǐng)域都洋溢著創(chuàng)新的熱情,從數(shù)據(jù)、預(yù)訓(xùn)練、微調(diào),到每一個環(huán)節(jié),都有大量新想法、新突破涌現(xiàn)。
歸根結(jié)底,這一切都依賴于創(chuàng)新和創(chuàng)意。當(dāng)我們的技術(shù)能切實影響現(xiàn)實世界、被人們廣泛使用時,我們能獲得更多反饋信號,接觸面也會擴(kuò)大,進(jìn)而催生更多靈感。
而且我認(rèn)為,未來的問題會更復(fù)雜、更多元,這會帶來新的挑戰(zhàn),但這些挑戰(zhàn)是有益的,也是推動我們邁向通用智能的動力。
有時候,如果你只看一兩個基準(zhǔn)測試,可能會覺得進(jìn)步放緩了,但這很正常。基準(zhǔn)測試是在某個技術(shù)難題凸顯時設(shè)立的,隨著技術(shù)發(fā)展,它不再是前沿的代名詞,這時就需要制定新的基準(zhǔn)。
這在機(jī)器學(xué)習(xí)領(lǐng)域很常見:基準(zhǔn)測試與模型開發(fā)是相輔相成的,基準(zhǔn)測試指導(dǎo)模型迭代,而只有接近當(dāng)前前沿,才能明確下一個目標(biāo),進(jìn)而制定新的基準(zhǔn)。
Logan Kilpatrick: 我完全認(rèn)同。比如早期的 Hle 基準(zhǔn)測試,所有模型的正確率都只有 1% 到 2%,而現(xiàn)在 DeepMind 的最新模型已經(jīng)能達(dá)到 40% 左右,這太驚人了。ArcGIS 基準(zhǔn)測試最初也幾乎沒有模型能應(yīng)對,現(xiàn)在正確率也超過了 40%。
不過有些靜態(tài)基準(zhǔn)測試確實經(jīng)受住了時間的考驗,比如 GPQA Diamond,雖然我們現(xiàn)在只能一點點提升 1% 左右的正確率,但它依然被廣泛使用,可能已經(jīng)接近飽和了。
![]()
Koray Kavukcuoglu: 這些基準(zhǔn)測試中確實有很多難題,我們目前還無法完全攻克,但它們依然具有測試價值。以 GPQA 為例,我們沒必要追求 90% 以上的極致正確率,現(xiàn)在已經(jīng)接近目標(biāo)了,所以尚未解決的問題數(shù)量自然在減少。
因此,尋找新前沿、制定新基準(zhǔn)至關(guān)重要。基準(zhǔn)測試是衡量進(jìn)步的一種方式,但并非絕對對齊。理想情況下兩者完全一致,但現(xiàn)實中永遠(yuǎn)無法完全契合。
對我來說,衡量進(jìn)步最重要的標(biāo)準(zhǔn)是:我們的模型是否在現(xiàn)實世界中被廣泛使用?科學(xué)家、學(xué)生、律師、工程師是否在用它解決問題?人們是否用它進(jìn)行寫作、收發(fā)郵件等?無論簡單還是復(fù)雜,能在更多領(lǐng)域、更多場景中持續(xù)為用戶創(chuàng)造更大價值,這才是真正的進(jìn)步。而基準(zhǔn)測試只是幫助我們量化這種進(jìn)步的工具。
Logan Kilpatrick: 我有一個不算爭議性的問題:Gemini 3 在眾多基準(zhǔn)測試中表現(xiàn)出色,同步登陸 Google 所有產(chǎn)品端和合作伙伴生態(tài),用戶反饋也非常積極。如果展望下一次 Google 重大模型發(fā)布,你覺得還有哪些方面是我們需要改進(jìn)的?比如「我們希望能在 X、Y、Z 方面做得更好」,還是說我們應(yīng)該先享受 Gemini 3 帶來的成果?
Koray Kavukcuoglu: 我覺得兩者可以兼顧。我們應(yīng)該享受當(dāng)下,畢竟發(fā)布日值得慶祝,團(tuán)隊也應(yīng)該為自己的成就感到自豪。但與此同時,我們也清楚地看到,模型在各個領(lǐng)域都存在不足:寫作能力并不完美,編碼能力也有提升空間。
尤其是在智能體行動和編碼方面,還有很大的進(jìn)步空間,這也是最令人興奮的增長領(lǐng)域。我們需要找出可以優(yōu)化的方向,然后持續(xù)改進(jìn)。我認(rèn)為我們已經(jīng)取得了長足的進(jìn)步:對于 90% 到 95% 的編碼相關(guān)用戶(無論是軟件工程師,還是想構(gòu)建產(chǎn)品的創(chuàng)意人士)來說,Gemini 3 可能是目前最好用的工具,但確實還有一些場景需要進(jìn)一步優(yōu)化。
從「有創(chuàng)意」變得「能落地」
Logan Kilpatrick: 你如何看待「逐步優(yōu)化」?比如從Gemini 2.5 到 3.0,或者其他版本迭代中,我們的優(yōu)化重點是什么?如今基準(zhǔn)測試數(shù)量繁多,我們?nèi)绾芜x擇優(yōu)化方向,無論是針對整個 Gemini 系列,還是專門針對 Pro 版本?
Koray Kavukcuoglu: 我認(rèn)為有幾個關(guān)鍵領(lǐng)域至關(guān)重要。首先是指令遵循能力。模型需要準(zhǔn)確理解用戶需求并執(zhí)行,而不是隨意輸出答案,這是我們一直重視的方向。其次是國際化。 Google 的業(yè)務(wù)遍布全球,我們希望讓全世界的用戶都能用上這款模型。
Logan Kilpatrick: 確實,我今天早上還和 Tulsi 聊過,她提到這款模型在一些我們過去表現(xiàn)不佳的語言上,表現(xiàn)得非常出色。
Koray Kavukcuoglu: 這真的很棒。所以我們必須持續(xù)聚焦這些領(lǐng)域,它們可能不是知識前沿,但對用戶交互至關(guān)重要。正如我之前所說,我們需要從用戶那里獲取反饋信號。
再說到更技術(shù)化的領(lǐng)域,函數(shù)調(diào)用、工具調(diào)用、智能體行動和代碼能力也極為關(guān)鍵。
函數(shù)調(diào)用和工具調(diào)用能極大提升模型的智能乘數(shù)效應(yīng):模型不僅能自然使用我們已有的工具和函數(shù),還能自主編寫工具。本質(zhì)上,模型本身也是一種工具。
代碼能力之所以重要,不僅因為我們團(tuán)隊中有很多工程師,更因為代碼是數(shù)字世界的基礎(chǔ)。無論是軟件開發(fā),還是將任何想法變?yōu)楝F(xiàn)實,代碼都不可或缺。它能讓模型與人們生活中的諸多場景深度融合。
我舉個例子,比如「即時編碼」(vibe coding),我很看好這個功能。很多人富有創(chuàng)造力,但缺乏將想法落地的能力,而即時編碼能讓他們從「有創(chuàng)意」變得「能落地」:只需寫下想法,就能看到對應(yīng)的應(yīng)用程序呈現(xiàn)在眼前,而且大多數(shù)時候都能正常運行。這種從創(chuàng)意到產(chǎn)品的閉環(huán)非常棒,它讓更多人有機(jī)會成為創(chuàng)造者。
![]()
Logan Kilpatrick: 太贊了!這簡直是 AI Studio 的完美宣傳點,我們會把這段剪輯出來發(fā)布到網(wǎng)上。你剛才提到的一個重要話題是,在 Gemini 3 發(fā)布之際,我們同步推出了 Google Anti-gravity 平臺。從模型角度來看,你認(rèn)為這種產(chǎn)品架構(gòu)對提升模型質(zhì)量的重要性有多大?顯然,這和工具調(diào)用、編碼能力息息相關(guān)。
Koray Kavukcuoglu: 對我來說,這至關(guān)重要。平臺本身確實令人興奮,但從模型角度看,這是雙向作用的。首先,模型能通過與終端用戶(指軟件工程師)直接集成,獲取他們的反饋,進(jìn)而明確模型需要改進(jìn)的方向,這對我們來說至關(guān)重要。
就像 Gemini、AI Studio 一樣,Anti-gravity 平臺也是如此。這些產(chǎn)品能讓我們與用戶緊密相連,獲取真實的反饋信號,這是巨大的財富。Anti-gravity 平臺作為我們的關(guān)鍵發(fā)布合作伙伴,雖然加入時間不長,但在過去兩三周的發(fā)布籌備中,它的反饋起到了決定性作用。
搜索 AI 模式(AI Mode)也是如此,我們從那里獲得了大量反饋。基準(zhǔn)測試能幫助我們推動科學(xué)、數(shù)學(xué)等領(lǐng)域的智能提升,但了解現(xiàn)實世界的使用場景同樣重要,模型必須能解決實際問題。
Gemini 3,一款全 Google 團(tuán)隊協(xié)作的模型
Logan Kilpatrick: 在你擔(dān)任新任首席 AI 架構(gòu)師后,你的職責(zé)不僅是確保我們擁有優(yōu)秀的模型,還要推動產(chǎn)品團(tuán)隊將模型落地,在 Google 的所有產(chǎn)品中打造出色的用戶體驗。 Gemini 3 在發(fā)布當(dāng)天就同步登陸 Google 所有產(chǎn)品端,這對用戶來說是巨大的驚喜,也希望未來能覆蓋更多產(chǎn)品。從DeepMind 的角度來看,這種跨團(tuán)隊協(xié)作是否增加了額外的復(fù)雜性?畢竟一年半前,事情可能還簡單得多。
Koray Kavukcuoglu: 但我們的目標(biāo)是構(gòu)建智能,對吧?很多人問我,身兼 CTO 和首席 AI 架構(gòu)師兩個職位,會不會有沖突,但對我來說,這兩個角色本質(zhì)上是一致的。
要構(gòu)建智能,就必須通過產(chǎn)品與用戶的聯(lián)動來實現(xiàn)。我的核心目標(biāo)是確保 Google 的所有產(chǎn)品都能用上最先進(jìn)的技術(shù)。我們不是產(chǎn)品團(tuán)隊,而是技術(shù)開發(fā)者,我們負(fù)責(zé)研發(fā)模型和技術(shù),當(dāng)然,我們也會對產(chǎn)品有自己的看法,但最重要的是,以最佳方式提供技術(shù)支持,與產(chǎn)品團(tuán)隊合作,在 AI 時代打造最優(yōu)秀的產(chǎn)品。
這是一個全新的時代,新技術(shù)正在重新定義用戶期望、產(chǎn)品行為和信息傳遞方式。因此,我希望能在 Google 內(nèi)部推動這種技術(shù)賦能,與所有產(chǎn)品團(tuán)隊合作。這不僅對產(chǎn)品和用戶有益,對我們自身也至關(guān)重要。
只有貼近用戶,才能感受到他們的需求,獲取真實的反饋信號,這是推動模型迭代的核心動力。這就是我們構(gòu)建通用人工智能(AGI)的方式:通過產(chǎn)品與用戶共同成長。
Logan Kilpatrick: 我完全認(rèn)同。這簡直可以作為你的推特文案了!我也覺得,我們本質(zhì)上是在與客戶、合作伙伴共同構(gòu)建通用人工智能(AGI)——這不是某個實驗室的孤立研究,而是與全世界共同推進(jìn)的聯(lián)合事業(yè)。
Koray Kavukcuoglu: 我認(rèn)為這也是一個「可信測試體系」——我們越來越強(qiáng)調(diào)工程思維。這種思維很重要,因為精心設(shè)計的系統(tǒng)才會更穩(wěn)健、更安全。
我們在構(gòu)建現(xiàn)實世界的產(chǎn)品時,借鑒了很多「可信測試」的理念,這體現(xiàn)在我們對安全、隱私的重視上:我們從一開始就將安全隱私作為核心原則,而不是事后補(bǔ)充。
無論是預(yù)訓(xùn)練、微調(diào),還是數(shù)據(jù)篩選,團(tuán)隊中的每個人都需要考慮安全問題。我們當(dāng)然有專門的安全團(tuán)隊和隱私團(tuán)隊,他們會提供相關(guān)技術(shù)支持,但我們更希望 Gemini 團(tuán)隊的每個人都深度參與其中,將安全隱私融入開發(fā)的每一個環(huán)節(jié),這些團(tuán)隊本身也是微調(diào)團(tuán)隊的一部分。
因此,在模型迭代、發(fā)布候選版本時,我們不僅會參考 GPQA、Hle 等基準(zhǔn)測試結(jié)果,還會嚴(yán)格審查安全隱私指標(biāo)。這種工程思維至關(guān)重要。
Logan Kilpatrick: 我完全同意。這也很符合 Google 的企業(yè)文化,畢竟,發(fā)布 Gemini 模型是一項需要全球團(tuán)隊協(xié)作的龐大工程。
Koray Kavukcuoglu: 說到 Gemini 3,我覺得最值得一提的是,它是一款「全 Google 團(tuán)隊協(xié)作的模型」。
Logan Kilpatrick: 我們可以看看相關(guān)數(shù)據(jù),這可能是史上參與人數(shù)最多的項目之一,就像 NASA 的阿波羅計劃一樣,這是一項全球性的龐大工程。
Koray Kavukcuoglu: 沒錯,是全球性的。
Logan Kilpatrick: Google 所有團(tuán)隊都參與其中,這太不可思議了。
Koray Kavukcuoglu: 來自歐洲、亞洲等世界各地的團(tuán)隊都做出了貢獻(xiàn),不僅有 DeepMind 團(tuán)隊,還有 Google 各個部門的團(tuán)隊。這是一項巨大的集體努力:我們與 AI 模式(AI Mode)、Gemini 應(yīng)用程序同步發(fā)布,這不容易。
這些產(chǎn)品團(tuán)隊在模型開發(fā)階段就與我們深度協(xié)作,這也是為什么我們能在發(fā)布當(dāng)天實現(xiàn)全平臺同步上線。所謂「全 Google 參與」,不僅指直接參與模型構(gòu)建的團(tuán)隊,還包括所有各司其職、默默付出的團(tuán)隊。
Nano Banana,自發(fā)的名字,自然地融合
Logan Kilpatrick: 另一個我關(guān)心的話題是生成式媒體模型——雖然我們一直有關(guān)注,但過去并未作為重點。不過,隨著 Veo 3、Veo 3.1、Nano Banana 模型的推出,我們在產(chǎn)品落地方面取得了很大成功。
我很好奇,在追求通用人工智能(AGI)的過程中,你如何看待生成式視頻模型的作用?有時候我會覺得視頻模型似乎與 AGI 無關(guān),但仔細(xì)想想,它涉及對世界、物理規(guī)律的理解,所以兩者應(yīng)該是相互關(guān)聯(lián)的。
Koray Kavukcuoglu: 10 到 15 年前,生成式模型主要集中在圖像領(lǐng)域,因為當(dāng)時我們能更好地觀察圖像生成的過程,而且理解世界、物理規(guī)律也是圖像生成模型的核心目標(biāo)。
Google 在生成式模型方面的探索可以追溯到 10 年前,甚至更早。我讀博時,大家都在做生成式圖像模型,比如像素卷積神經(jīng)網(wǎng)絡(luò)(Pixel CNNs)。后來我們意識到,文本領(lǐng)域的進(jìn)步速度會更快。
但現(xiàn)在,圖像模型的重要性再次凸顯。DeepMind 長期以來在圖像、視頻、音頻模型方面積累了深厚的技術(shù)實力,將這些技術(shù)與文本模型融合是順理成章的。
我們一直強(qiáng)調(diào)多模態(tài),包括輸入多模態(tài)和輸出多模態(tài)。隨著技術(shù)進(jìn)步,文本模型和圖像模型的架構(gòu)、理念正在不斷融合。過去,兩者的架構(gòu)差異很大,但現(xiàn)在越來越趨同。這不是我們刻意推動的,而是技術(shù)自然演進(jìn)的結(jié)果:大家都在探索更高效的方案,理念逐漸統(tǒng)一,最終形成了共同的發(fā)展路徑。
這種融合的核心價值在于,文本模型擁有豐富的世界知識,而圖像模型從另一個視角理解世界,將兩者結(jié)合,能讓模型更好地理解用戶的意圖,創(chuàng)造出更令人驚喜的成果。
Logan Kilpatrick: 我還有一個關(guān)于 Nano Banana 的問題:你覺得我們應(yīng)該給所有模型起一些有趣的名字嗎?這會不會有幫助?
Koray Kavukcuoglu: 不一定。我覺得名字應(yīng)該自然產(chǎn)生,而不是刻意為之。比如 Gemini 3,我們并沒有刻意設(shè)計名字。
Logan Kilpatrick: 如果 Gemini 3 不叫這個名字,你會起什么?會不會是很搞笑的名字?
Koray Kavukcuoglu: 我不知道,我不擅長起名字。其實我們的 Gemini 模型有內(nèi)部代號,有些代號甚至是用 Gemini 模型自己生成的,但 Nano Banana 不是,它沒有經(jīng)過模型生成。
這個名字背后有個故事,我記得已經(jīng)公開了。我覺得只要名字是自然、自發(fā)產(chǎn)生的,就很好。構(gòu)建模型的團(tuán)隊能對名字產(chǎn)生情感共鳴,這很有意義。
「Nano Banana」這個名字之所以被沿用,是因為我們在測試時用了這個代號,大家都很喜歡,它是自發(fā)傳播開來的。我覺得這種自然形成的名字很難通過流程刻意創(chuàng)造,有就用,沒有的話,用標(biāo)準(zhǔn)名稱也很好。
Logan Kilpatrick: 那我們來聊聊 Nano Banana Pro,這是基于 Gemini 3 Pro 打造的最先進(jìn)的圖像生成模型。我聽說團(tuán)隊在完成 Nano Banana 后,發(fā)現(xiàn)將其升級為 Pro 版本后,在文本渲染、世界知識理解等更精細(xì)的場景中,性能有了很大提升。對于這方面的發(fā)展,你有什么看法?
Koray Kavukcuoglu: 這正是不同技術(shù)融合的體現(xiàn)。我們一直說,每個版本的 Gemini 都是一個模型家族,比如 Pro、Flash 等,不同尺寸的模型在速度、準(zhǔn)確率、成本等方面各有取舍。圖像生成模型也是如此,自然會形成不同定位的產(chǎn)品。
團(tuán)隊基于 Gemini 3.0 Pro 的架構(gòu),結(jié)合第一代模型的經(jīng)驗,通過擴(kuò)大模型規(guī)模、優(yōu)化調(diào)優(yōu)方式,打造出了更強(qiáng)大的圖像生成模型,這很合理。
它的核心優(yōu)勢在于處理復(fù)雜場景:比如輸入大量復(fù)雜文檔,模型不僅能回答相關(guān)問題,還能生成對應(yīng)的信息圖表,而且效果很好。這就是輸入多模態(tài)與輸出多模態(tài)自然融合的體現(xiàn),非常棒。
![]()
Logan Kilpatrick: 是啊,這簡直像魔法一樣!希望大家在這段視頻發(fā)布時已經(jīng)看到了相關(guān)示例,內(nèi)部分享的一些案例真的太驚人了。
Koray Kavukcuoglu: 完全同意!當(dāng)你看到模型能將海量文本、復(fù)雜概念,用一張清晰直觀的圖片呈現(xiàn)出來時,真的會驚嘆「太厲害了」。這能直觀地體現(xiàn)模型的能力。
Logan Kilpatrick: 而且其中還有很多細(xì)節(jié)值得品味。我還有一個相關(guān)問題:去年 12 月,Tulsi 曾承諾我們會推出統(tǒng)一的 Gemini 模型檢查點(checkpoint)。你剛才描述的內(nèi)容,是不是意味著我們現(xiàn)在已經(jīng)非常接近這個目標(biāo)了?
Koray Kavukcuoglu:從歷史上看,生成式模型的架構(gòu)一直是統(tǒng)一的……
Logan Kilpatrick: 所以我猜這是我們的目標(biāo):讓這些功能真正融入一個模型中,但現(xiàn)實中肯定有一些阻礙。你能從宏觀層面解釋一下嗎?
Koray Kavukcuoglu: 正如我之前所說,技術(shù)和架構(gòu)正在不斷趨同,這種統(tǒng)一是必然趨勢,但這需要驗證。我們不能憑主觀臆斷,必須遵循科學(xué)方法:提出假設(shè)、進(jìn)行測試、觀察結(jié)果,有時成功,有時失敗,但這就是技術(shù)進(jìn)步的過程。
我們正在逐步接近目標(biāo),我相信在不久的將來,我們會看到更統(tǒng)一的模型,但這需要大量的創(chuàng)新。
這其實很難——模型的輸出空間至關(guān)重要,因為它直接關(guān)系到學(xué)習(xí)信號的質(zhì)量。目前,我們的學(xué)習(xí)信號主要來自代碼和文本,這也是模型在這些領(lǐng)域表現(xiàn)出色的原因。
而圖像生成則不同:它對質(zhì)量要求極高,不僅需要像素級的精準(zhǔn)度,還需要圖像概念的連貫性,也就是每個像素都要符合整體畫面的邏輯。要同時做好文本和圖像生成,難度很大。但我認(rèn)為這絕對是可行的,只是需要找到合適的模型創(chuàng)新方向。
Logan Kilpatrick: 太令人期待了!希望這也能讓我們的工作更高效,比如擁有一個統(tǒng)一的模型檢查點。
Koray Kavukcuoglu: 這很難說,但可能性很大。
一切都建立在學(xué)習(xí)之上
Logan Kilpatrick: 我再追問一個關(guān)于編碼和工具使用的問題。回顧 Gemini 的發(fā)展歷程:1.0 版本聚焦多模態(tài),2.0 版本開始搭建基礎(chǔ)設(shè)施。雖然我們的進(jìn)步速度很快,但為什么在多模態(tài)領(lǐng)域,我們沒能從一開始就在智能體工具使用方面達(dá)到最先進(jìn)水平?畢竟 Gemini 1.0 在多模態(tài)領(lǐng)域一直保持領(lǐng)先。
Koray Kavukcuoglu: 我不認(rèn)為這是刻意為之。說實話,我覺得這與模型開發(fā)環(huán)境是否貼近現(xiàn)實世界密切相關(guān),越貼近現(xiàn)實,就越能理解用戶的真實需求。
Gemini 的發(fā)展歷程,也是我們從「純研究」轉(zhuǎn)向「工程思維」、與產(chǎn)品深度綁定的過程。Google 在 AI 研究方面有著深厚的積淀,擁有眾多優(yōu)秀的研究人員,但 Gemini 的特別之處在于,它讓我們從「寫論文、做研究」轉(zhuǎn)向了「通過產(chǎn)品和用戶共同開發(fā)」。
我為我們的團(tuán)隊感到驕傲——包括我在內(nèi),大多數(shù)人四五年前還在專注于發(fā)表論文、開展 AI 研究,而現(xiàn)在,我們站在技術(shù)前沿,通過產(chǎn)品和用戶共同推進(jìn)技術(shù)迭代。
這種轉(zhuǎn)變非常驚人:我們每 6 個月就推出一個新模型,每 1 到 1.5 個月就進(jìn)行一次更新。我認(rèn)為,我們正是在這個過程中逐步完善智能體工具使用能力的。
Logan Kilpatrick: 還有一個有趣的話題:現(xiàn)在 DeepMind 擁有眾多世界頂尖的 AI 產(chǎn)品,比如即時編碼(vibe coding)、AI Studio、Gemini、Anti-gravity 平臺等, Google 旗下也有很多前沿模型,比如 Gemini 3、Nano Banana、Veo 等。10 年甚至 15 年前,世界完全不是這樣的。
我很好奇,回顧你的個人歷程,你昨天提到,你是 DeepMind 的第一位深度學(xué)習(xí)研究員,這一點我和其他人都感到很意外。從 13 年前(2012年)人們對深度學(xué)習(xí)并不看好,到現(xiàn)在這項技術(shù)支撐著眾多產(chǎn)品、成為核心驅(qū)動力,你有什么感想?這一切是在意料之中,還是讓你感到意外?
Koray Kavukcuoglu: 我覺得這是最理想的結(jié)果。就像所有讀博的人一樣,你會堅信自己所做的事情很重要,會產(chǎn)生重大影響——我當(dāng)時就是這種心態(tài)。
所以當(dāng) Demi 和 Shane 聯(lián)系我,告訴我 DeepMind 是一個專注于構(gòu)建智能、以深度學(xué)習(xí)為核心的團(tuán)隊時,我非常興奮。我和我的朋友 Carl Greger(我們都來自紐約大學(xué) Jan 的實驗室)同時加入了 DeepMind。在當(dāng)時,專注于深度學(xué)習(xí)和 AI 的初創(chuàng)公司非常罕見,所以 DeepMind 的理念非常有遠(yuǎn)見,能在那里工作真的很令人激動。后來,我組建了深度學(xué)習(xí)團(tuán)隊,看著它不斷發(fā)展壯大。
我對深度學(xué)習(xí)的態(tài)度一直是:以第一性原理為基礎(chǔ),堅持「基于學(xué)習(xí)」的思維方式,這也是 DeepMind 的核心理念:一切都建立在學(xué)習(xí)之上。
回顧這段旅程,從早期的 DQN、AlphaGo、AlphaZero、Alpha Fold,到現(xiàn)在的 Gemini,真的很令人感慨。我們一直懷著積極的期望推進(jìn)工作,但同時也覺得自己很幸運。
我們有幸生活在這個時代,很多人曾為 AI 或自己熱愛的領(lǐng)域奮斗一生,希望能見證技術(shù)爆發(fā),但這一切現(xiàn)在真的發(fā)生了。AI 的崛起不僅得益于機(jī)器學(xué)習(xí)和深度學(xué)習(xí)的進(jìn)步,還離不開硬件、互聯(lián)網(wǎng)和數(shù)據(jù)的發(fā)展,這些因素共同促成了今天的局面。所以,我既為自己選擇了 AI 領(lǐng)域而自豪,也為能身處這個時代而感到幸運。這真的太令人興奮了。
Logan Kilpatrick: 我最近看了《思維游戲》(The Thinking Game)的視頻,了解了 Alpha Fold 的相關(guān)故事。我沒有親歷那個時代,只能通過資料和他人的講述來了解。你經(jīng)歷了 DeepMind 的多個重要項目,你覺得現(xiàn)在的工作與過去相比有什么不同?比如你之前提到的,「我們已經(jīng)掌握了將模型推向世界的方法」,這種感覺與之前的項目有什么相似或不同之處?
Koray Kavukcuoglu: 如何組織團(tuán)隊、培養(yǎng)文化,才能將復(fù)雜的科學(xué)技術(shù)問題轉(zhuǎn)化為成功的成果?我認(rèn)為我們從多個項目中積累了很多經(jīng)驗,從 DQN、AlphaGo、AlphaZero 到 Alpha Fold,這些項目都產(chǎn)生了深遠(yuǎn)影響。我們學(xué)會了如何圍繞特定目標(biāo)和使命,組織大規(guī)模團(tuán)隊開展工作。
我記得 DeepMind 早期,我們曾有 25 人共同參與一個項目,共同發(fā)表一篇論文——當(dāng)時很多人都質(zhì)疑「25 人怎么可能合作完成一篇論文」,但我們確實做到了。
在科研領(lǐng)域,這種大規(guī)模協(xié)作并不常見,但我們通過有效的組織實現(xiàn)了。這種經(jīng)驗和思維方式,隨著時間的推移不斷演進(jìn),變得越來越重要。
而在過去兩三年里,我們又融入了工程思維——我們有了模型的主線開發(fā)方向,學(xué)會了在主線基礎(chǔ)上進(jìn)行探索。
我覺得「深度思維模型」(Deep Think)就是一個很好的例子:我們用它參加國際數(shù)學(xué)奧林匹克(IMO)、國際大學(xué)生程序設(shè)計競賽(ICPC)等頂級賽事。這些競賽的問題難度極大,很多人會想為賽事定制專門的模型,但我們選擇將其作為優(yōu)化現(xiàn)有模型的機(jī)會。
我們堅信技術(shù)的通用性,通過賽事探索新想法,并將這些想法融入現(xiàn)有模型,最終打造出能參加頂級賽事的模型,再將其開放給所有人使用。
Logan Kilpatrick: 這讓我想到了一個對應(yīng):以前是 25 人共同發(fā)表一篇論文,現(xiàn)在 Gemini 3 的貢獻(xiàn)者名單可能已經(jīng)有 2500 人了——很多人可能會覺得「 2500 人怎么可能都參與其中」,但事實確實如此。這種大規(guī)模協(xié)作解決問題的方式,真的很令人驚嘆。
Koray Kavukcuoglu: 這一點非常重要,也是 Google 的優(yōu)勢所在。 Google 擁有全棧技術(shù)能力,我們能從中受益:從數(shù)據(jù)中心、芯片、網(wǎng)絡(luò),到大規(guī)模模型的部署,每個環(huán)節(jié)都有專家坐鎮(zhèn)。
回到工程思維的話題,這些環(huán)節(jié)是密不可分的。我們設(shè)計模型時,會考慮它將運行的硬件;而設(shè)計下一代硬件時,也會預(yù)判模型的發(fā)展方向。這種協(xié)同非常美妙,但要協(xié)調(diào)這么多環(huán)節(jié),確實需要數(shù)千人的共同努力。我們應(yīng)該認(rèn)可這種協(xié)作的價值,這真的很了不起。
Logan Kilpatrick: 這絕非易事。再回到 DeepMind 的傳統(tǒng):我們一直采用多元科學(xué)方法,嘗試解決各種有趣的問題。而現(xiàn)在,我們已經(jīng)明確這項技術(shù)在多個領(lǐng)域都有效,只需持續(xù)擴(kuò)大規(guī)模。當(dāng)然,這也需要創(chuàng)新支撐。
你認(rèn)為在當(dāng)今時代,DeepMind 如何平衡「純科學(xué)探索」和「擴(kuò)大 Gemini 規(guī)模」?比如「Gemini 擴(kuò)散模型」(Gemini diffusion),就是這種決策的一個體現(xiàn)。
Koray Kavukcuoglu: 這是最關(guān)鍵的問題:找到兩者的平衡至關(guān)重要。
現(xiàn)在很多人問我,Gemini 最大的風(fēng)險是什么?我認(rèn)真思考過,答案是「缺乏創(chuàng)新」。我絕不相信我們已經(jīng)找到了「萬能公式」,只需按部就班執(zhí)行即可。
我們的目標(biāo)是構(gòu)建通用智能,這需要與用戶、產(chǎn)品深度綁定,但這個目標(biāo)本身依然極具挑戰(zhàn)性,我們并沒有現(xiàn)成的解決方案——創(chuàng)新才是實現(xiàn)目標(biāo)的核心動力。
創(chuàng)新可以有不同的規(guī)模和方向:在 Gemini 項目內(nèi)部,我們會探索新架構(gòu)、新想法、新方法;而作為 Google DeepMind 整體,我們還會開展更多跨領(lǐng)域的探索,因為有些想法可能在 Gemini 項目內(nèi)部過于受限,無法充分發(fā)展。
所以, Google DeepMind 和 Google 研究院需要共同探索各類想法,然后將這些想法融入 Gemini,因為 Gemini 不是一種架構(gòu),而是一個目標(biāo):構(gòu)建通用智能,讓 Google 的所有產(chǎn)品都能依托這個 AI 引擎運行。
無論最終采用哪種架構(gòu),我們都會持續(xù)演進(jìn),而創(chuàng)新將永遠(yuǎn)是核心驅(qū)動力。找到平衡,或以不同方式推進(jìn)探索,這至關(guān)重要。
Logan Kilpatrick: 我有一個相關(guān)的問題:在 IO 大會上,我曾和 Sergey 聊過,當(dāng)你把這么多人聚集在一起,共同發(fā)布模型、推動創(chuàng)新時,你能感受到一種「人性的溫度」——這一點我深有體會。我當(dāng)時坐在你旁邊,也感受到了你的熱情。
這一點對我個人來說很有意義,因為它也反映了 DeepMind 的整體文化:既有深厚的科學(xué)底蘊,又有友善、包容的團(tuán)隊氛圍。很多人可能沒有意識到這種文化的重要性,以及它如何影響工作。作為團(tuán)隊的領(lǐng)導(dǎo)者,你如何看待這種文化的體現(xiàn)?
Koray Kavukcuoglu: 首先,謝謝你的夸獎,這讓我有點不好意思。但我確實相信團(tuán)隊的力量,也堅信要信任他人、給予他人機(jī)會。團(tuán)隊協(xié)作至關(guān)重要,這一點我也是在 DeepMind 工作期間學(xué)到的。
我們從一個小團(tuán)隊起步,在成長過程中始終保持信任。我認(rèn)為,營造一個「專注于解決有影響力的復(fù)雜技術(shù)和科學(xué)問題」的環(huán)境,非常重要,這也是我們現(xiàn)在正在做的。
Gemini 的核心是構(gòu)建通用智能,這是一個極具挑戰(zhàn)性的技術(shù)和科學(xué)問題,我們需要以謙遜的態(tài)度去面對,不斷質(zhì)疑自己、優(yōu)化自己。希望團(tuán)隊也能感受到這一點,我真的為我們的團(tuán)隊感到驕傲,他們齊心協(xié)力、相互支持。
就像我剛才在茶水間和團(tuán)隊聊的那樣:「這很辛苦,我們都很累,但這就是構(gòu)建前沿技術(shù)的常態(tài)。我們沒有完美的流程,但每個人都在全力以赴、相互支持。」 而讓這一切變得有趣、有意義,讓我們有勇氣面對挑戰(zhàn)的,很大程度上是「擁有一支優(yōu)秀的團(tuán)隊」,大家共同為技術(shù)的潛力而奮斗。
我可以肯定地說,20 年后,我們現(xiàn)在使用的大語言模型(LLM)架構(gòu)肯定會被淘汰。所以,持續(xù)探索新方向是正確的選擇。 Google DeepMind、 Google 研究院,以及整個學(xué)術(shù)研究社區(qū),都需要共同推進(jìn)多個領(lǐng)域的探索。
我認(rèn)為,不必糾結(jié)于「什么是對的、什么是錯的」,真正重要的是技術(shù)在現(xiàn)實世界中的能力和表現(xiàn)。
Logan Kilpatrick: 最后一個問題:我個人在 Google 的第一年多時間里,感受到了一種「 Google 逆襲」的氛圍。盡管 Google 擁有強(qiáng)大的基礎(chǔ)設(shè)施優(yōu)勢,但在 AI 領(lǐng)域,我們似乎一直在追趕。比如在 AI Studio 的早期階段,我們沒有用戶(后來增長到3萬人),沒有收入,Gemini 模型也處于早期階段。
而現(xiàn)在,隨著 Gemini 3 的發(fā)布,我最近收到了很多來自生態(tài)系統(tǒng)各方的反饋,人們似乎終于意識到「 Google 的AI時代已經(jīng)到來」。你是否也有過這種「逆襲」的感受?你相信我們能走到今天嗎?對于團(tuán)隊來說,這種角色的轉(zhuǎn)變會帶來什么影響?
Koray Kavukcuoglu: 在大語言模型(LLM)的潛力逐漸顯現(xiàn)時,我坦誠地說,我既認(rèn)為 DeepMind 是前沿 AI 實驗室,也意識到我們作為研究人員,在某些領(lǐng)域的投入還不夠,這對我來說是一個重要的教訓(xùn):我們必須拓寬探索范圍,創(chuàng)新至關(guān)重要,而不是局限于某一種架構(gòu)。
我一直對團(tuán)隊坦誠相待:大約 2.5 年前,當(dāng)我們開始認(rèn)真對待大語言模型、啟動 Gemini 項目時,我們在很多方面都與最先進(jìn)水平有差距,我們有很多不懂的東西,雖然也有自己的優(yōu)勢,但確實處于追趕狀態(tài)。
這種追趕持續(xù)了很長時間,而現(xiàn)在,我認(rèn)為我們已經(jīng)進(jìn)入了領(lǐng)先梯隊。我對我們的發(fā)展速度、團(tuán)隊動態(tài)和協(xié)作節(jié)奏感到非常滿意。但我們必須正視過去的追趕歷程。
在追趕過程中,我們既要學(xué)習(xí)他人的優(yōu)點,也要堅持自己的創(chuàng)新,找到適合自己的解決方案:無論是技術(shù)、模型、流程,還是團(tuán)隊運作方式,這些都是我們獨有的。
很多人說「 Google 太大了,做事效率低」,但我認(rèn)為這可以轉(zhuǎn)化為優(yōu)勢。我們有能力做一些獨特的、大規(guī)模的事情,比如讓 Gemini 同步登陸所有 Google 產(chǎn)品。我對我們現(xiàn)在的狀態(tài)很滿意,但這是通過持續(xù)學(xué)習(xí)和創(chuàng)新實現(xiàn)的。這確實是一個很棒的「逆襲」故事。
當(dāng)然,總會有各種比較,但我們的目標(biāo)始終是構(gòu)建通用智能——我們希望以正確的方式實現(xiàn)這一目標(biāo),并為此傾注全部心力和創(chuàng)新。
Logan Kilpatrick: 我覺得未來六個月可能會和過去六個月、乃至之前的六個月一樣令人振奮。再次感謝你抽出時間接受采訪,非常愉快!希望在明年 IO 大會前我們能再聊一次。
雖然感覺還有很久,但時間肯定會過得很快。我相信下周就會有關(guān)于 2026 年 IO 大會的規(guī)劃會議了。再次祝賀你和 DeepMind 團(tuán)隊,以及所有模型研究人員,成功推出 Gemini 3、Nano Banana Pro 等一系列產(chǎn)品!
Koray Kavukcuoglu: 謝謝!這次交流非常棒。感謝團(tuán)隊的付出,也感謝你的邀請!
歡迎加入 APPSO AI 社群,一起暢聊 AI 產(chǎn)品,獲取,解鎖更多 AI 新知
我們正在招募伙伴
簡歷投遞郵箱hr@ifanr.com
?? 郵件標(biāo)題「姓名+崗位名稱」(請隨簡歷附上項目/作品或相關(guān)鏈接)
![]()
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.