逼得奧特曼緊急掏出GPT-5.2，Gemini 3 憑什么逆風(fēng)翻盤 | Google 首席 AI 架構(gòu)師首次揭秘

2025-12-07 17:36:54　來源: AppSo

廣東舉報

分享至

「這確實是一個很棒的逆襲故事。」

11 月 19 日凌晨，Gemini 3 的發(fā)布徹底打破了平淡。上線當(dāng)日，全球訪問量便突破 5400 萬次，創(chuàng)平臺歷史新高。

Google 這一次王者歸來，震感甚至直接傳導(dǎo)到了競爭對手的神經(jīng)中樞。據(jù) The Information 報道，面對 Google 步步緊逼的攻勢，OpenAI CEO Sam Altman 本周一緊急在內(nèi)部備忘錄中宣布公司進(jìn)入「紅色警戒（code red）」?fàn)顟B(tài)，準(zhǔn)備調(diào)動一切戰(zhàn)略資源對 ChatGPT 的能力進(jìn)行大幅升級。

據(jù) The Verge 援引知情人士消息稱，OpenAI 計劃最早于下周初發(fā)布 GPT-5.2 模型，這一時間表較原定的 12 月下旬計劃大幅提前。

這不僅側(cè)面印證了 Gemini 3 帶來的壓迫感，也讓接下來的對話顯得更加意味深長。

近日，DeepMind CTO、Google 新任首席 AI 架構(gòu)師 Koray Kavukcuoglu 在 Logan Kilpatrick 的訪談節(jié)目中亮相，他說「我們曾是追趕者，但創(chuàng)新是唯一的出路。」

亮點速覽：

1. Koray Kavukcuoglu 強(qiáng)調(diào)，Gemini 的優(yōu)化重點集中在以下幾個關(guān)鍵領(lǐng)域：

指令遵循：確保模型能準(zhǔn)確理解并執(zhí)行用戶的具體需求，而非隨意生成內(nèi)容。

國際化：提升多語言支持能力，確保全球用戶都能獲得高質(zhì)量體驗。

代理與工具能力：模型不僅能自然使用我們已有的工具和函數(shù)，還能自主編寫工具。

2. Gemini 3 是一款「全 Google 團(tuán)隊協(xié)作的模型」。來自歐洲、亞洲等世界各地的團(tuán)隊都做出了貢獻(xiàn)，不僅有 DeepMind 團(tuán)隊，還有 Google 各個部門的團(tuán)隊。

3. 隨著技術(shù)進(jìn)步，文本模型和圖像模型的架構(gòu)、理念正在不斷融合。過去，兩者的架構(gòu)差異很大，但現(xiàn)在越來越趨同。這是技術(shù)自然演進(jìn)的結(jié)果：大家都在探索更高效的方案，理念逐漸統(tǒng)一，最終形成了共同的發(fā)展路徑。

視頻鏈接：

https://youtu.be/fXtna7UrL44?si=A5xEGWGeEM4EEDhp

以下為完整內(nèi)容的轉(zhuǎn)錄和翻譯。(順序有改動)

基準(zhǔn)測試只是第一步，用戶反饋是 Step Two

Logan Kilpatrick: 大家好，歡迎回到 Release Notes。我是 Logan Kilpatrick，我在 DeepMind 團(tuán)隊。今天很榮幸邀請到 DeepMind 的 CTO、Google 的新任首席 AI 架構(gòu)師——Koray。Koray，感謝你的到來，期待與你深入交流。

Koray Kavukcuoglu: 我也很期待。謝謝邀請！

Logan Kilpatrick: 當(dāng)然，Gemini 3 已經(jīng)發(fā)布。我們此前就預(yù)感這款模型會表現(xiàn)出色，基準(zhǔn)測試結(jié)果也非常亮眼，但真正將它交到用戶手中后，實際反響……

Koray Kavukcuoglu: 這才是最終的考驗。基準(zhǔn)測試只是第一步，之后我們也做了大量測試，包括讓可信測試者參與預(yù)發(fā)布體驗等。所以我們能感受到這是一款優(yōu)秀的模型，能力出眾，雖然不完美，但用戶的反饋確實讓我很滿意。大家似乎很喜歡這款模型，而且我們覺得有意思的部分，他們也同樣感興趣。所以目前來看挺好的，一切都很順利。

Logan Kilpatrick: 沒錯，我們昨天還在聊，核心話題就是感慨 AI 的發(fā)展速度從未放緩。回想上次，也就是去年 IO 大會上我們發(fā)布 Gemini 2.5 時，聽著演示、Serge 談?wù)?AI 的未來，當(dāng)時就覺得 2.5 已經(jīng)是最先進(jìn)的模型，在多個維度上都突破了前沿。而現(xiàn)在，Gemini 3.0 再次實現(xiàn)了突破。我很好奇，關(guān)于「這種進(jìn)步能否持續(xù)」的討論一直存在，你現(xiàn)在的看法是什么？

Koray Kavukcuoglu: 我對目前的進(jìn)展和研究都充滿信心。身處研究一線，你會發(fā)現(xiàn)各個領(lǐng)域都洋溢著創(chuàng)新的熱情，從數(shù)據(jù)、預(yù)訓(xùn)練、微調(diào)，到每一個環(huán)節(jié)，都有大量新想法、新突破涌現(xiàn)。

歸根結(jié)底，這一切都依賴于創(chuàng)新和創(chuàng)意。當(dāng)我們的技術(shù)能切實影響現(xiàn)實世界、被人們廣泛使用時，我們能獲得更多反饋信號，接觸面也會擴(kuò)大，進(jìn)而催生更多靈感。

而且我認(rèn)為，未來的問題會更復(fù)雜、更多元，這會帶來新的挑戰(zhàn)，但這些挑戰(zhàn)是有益的，也是推動我們邁向通用智能的動力。

有時候，如果你只看一兩個基準(zhǔn)測試，可能會覺得進(jìn)步放緩了，但這很正常。基準(zhǔn)測試是在某個技術(shù)難題凸顯時設(shè)立的，隨著技術(shù)發(fā)展，它不再是前沿的代名詞，這時就需要制定新的基準(zhǔn)。

這在機(jī)器學(xué)習(xí)領(lǐng)域很常見：基準(zhǔn)測試與模型開發(fā)是相輔相成的，基準(zhǔn)測試指導(dǎo)模型迭代，而只有接近當(dāng)前前沿，才能明確下一個目標(biāo)，進(jìn)而制定新的基準(zhǔn)。

Logan Kilpatrick: 我完全認(rèn)同。比如早期的 Hle 基準(zhǔn)測試，所有模型的正確率都只有 1% 到 2%，而現(xiàn)在 DeepMind 的最新模型已經(jīng)能達(dá)到 40% 左右，這太驚人了。ArcGIS 基準(zhǔn)測試最初也幾乎沒有模型能應(yīng)對，現(xiàn)在正確率也超過了 40%。

不過有些靜態(tài)基準(zhǔn)測試確實經(jīng)受住了時間的考驗，比如 GPQA Diamond，雖然我們現(xiàn)在只能一點點提升 1% 左右的正確率，但它依然被廣泛使用，可能已經(jīng)接近飽和了。

Koray Kavukcuoglu: 這些基準(zhǔn)測試中確實有很多難題，我們目前還無法完全攻克，但它們依然具有測試價值。以 GPQA 為例，我們沒必要追求 90% 以上的極致正確率，現(xiàn)在已經(jīng)接近目標(biāo)了，所以尚未解決的問題數(shù)量自然在減少。

因此，尋找新前沿、制定新基準(zhǔn)至關(guān)重要。基準(zhǔn)測試是衡量進(jìn)步的一種方式，但并非絕對對齊。理想情況下兩者完全一致，但現(xiàn)實中永遠(yuǎn)無法完全契合。

對我來說，衡量進(jìn)步最重要的標(biāo)準(zhǔn)是：我們的模型是否在現(xiàn)實世界中被廣泛使用？科學(xué)家、學(xué)生、律師、工程師是否在用它解決問題？人們是否用它進(jìn)行寫作、收發(fā)郵件等？無論簡單還是復(fù)雜，能在更多領(lǐng)域、更多場景中持續(xù)為用戶創(chuàng)造更大價值，這才是真正的進(jìn)步。而基準(zhǔn)測試只是幫助我們量化這種進(jìn)步的工具。

Logan Kilpatrick: 我有一個不算爭議性的問題：Gemini 3 在眾多基準(zhǔn)測試中表現(xiàn)出色，同步登陸 Google 所有產(chǎn)品端和合作伙伴生態(tài)，用戶反饋也非常積極。如果展望下一次 Google 重大模型發(fā)布，你覺得還有哪些方面是我們需要改進(jìn)的？比如「我們希望能在 X、Y、Z 方面做得更好」，還是說我們應(yīng)該先享受 Gemini 3 帶來的成果？

Koray Kavukcuoglu: 我覺得兩者可以兼顧。我們應(yīng)該享受當(dāng)下，畢竟發(fā)布日值得慶祝，團(tuán)隊也應(yīng)該為自己的成就感到自豪。但與此同時，我們也清楚地看到，模型在各個領(lǐng)域都存在不足：寫作能力并不完美，編碼能力也有提升空間。

尤其是在智能體行動和編碼方面，還有很大的進(jìn)步空間，這也是最令人興奮的增長領(lǐng)域。我們需要找出可以優(yōu)化的方向，然后持續(xù)改進(jìn)。我認(rèn)為我們已經(jīng)取得了長足的進(jìn)步：對于 90% 到 95% 的編碼相關(guān)用戶（無論是軟件工程師，還是想構(gòu)建產(chǎn)品的創(chuàng)意人士）來說，Gemini 3 可能是目前最好用的工具，但確實還有一些場景需要進(jìn)一步優(yōu)化。

從「有創(chuàng)意」變得「能落地」

Logan Kilpatrick: 你如何看待「逐步優(yōu)化」？比如從Gemini 2.5 到 3.0，或者其他版本迭代中，我們的優(yōu)化重點是什么？如今基準(zhǔn)測試數(shù)量繁多，我們?nèi)绾芜x擇優(yōu)化方向，無論是針對整個 Gemini 系列，還是專門針對 Pro 版本？

Koray Kavukcuoglu: 我認(rèn)為有幾個關(guān)鍵領(lǐng)域至關(guān)重要。首先是指令遵循能力。模型需要準(zhǔn)確理解用戶需求并執(zhí)行，而不是隨意輸出答案，這是我們一直重視的方向。其次是國際化。 Google 的業(yè)務(wù)遍布全球，我們希望讓全世界的用戶都能用上這款模型。

Logan Kilpatrick: 確實，我今天早上還和 Tulsi 聊過，她提到這款模型在一些我們過去表現(xiàn)不佳的語言上，表現(xiàn)得非常出色。

Koray Kavukcuoglu: 這真的很棒。所以我們必須持續(xù)聚焦這些領(lǐng)域，它們可能不是知識前沿，但對用戶交互至關(guān)重要。正如我之前所說，我們需要從用戶那里獲取反饋信號。

再說到更技術(shù)化的領(lǐng)域，函數(shù)調(diào)用、工具調(diào)用、智能體行動和代碼能力也極為關(guān)鍵。

函數(shù)調(diào)用和工具調(diào)用能極大提升模型的智能乘數(shù)效應(yīng)：模型不僅能自然使用我們已有的工具和函數(shù)，還能自主編寫工具。本質(zhì)上，模型本身也是一種工具。

代碼能力之所以重要，不僅因為我們團(tuán)隊中有很多工程師，更因為代碼是數(shù)字世界的基礎(chǔ)。無論是軟件開發(fā)，還是將任何想法變?yōu)楝F(xiàn)實，代碼都不可或缺。它能讓模型與人們生活中的諸多場景深度融合。

我舉個例子，比如「即時編碼」（vibe coding），我很看好這個功能。很多人富有創(chuàng)造力，但缺乏將想法落地的能力，而即時編碼能讓他們從「有創(chuàng)意」變得「能落地」：只需寫下想法，就能看到對應(yīng)的應(yīng)用程序呈現(xiàn)在眼前，而且大多數(shù)時候都能正常運行。這種從創(chuàng)意到產(chǎn)品的閉環(huán)非常棒，它讓更多人有機(jī)會成為創(chuàng)造者。

Logan Kilpatrick: 太贊了！這簡直是 AI Studio 的完美宣傳點，我們會把這段剪輯出來發(fā)布到網(wǎng)上。你剛才提到的一個重要話題是，在 Gemini 3 發(fā)布之際，我們同步推出了 Google Anti-gravity 平臺。從模型角度來看，你認(rèn)為這種產(chǎn)品架構(gòu)對提升模型質(zhì)量的重要性有多大？顯然，這和工具調(diào)用、編碼能力息息相關(guān)。

Koray Kavukcuoglu: 對我來說，這至關(guān)重要。平臺本身確實令人興奮，但從模型角度看，這是雙向作用的。首先，模型能通過與終端用戶（指軟件工程師）直接集成，獲取他們的反饋，進(jìn)而明確模型需要改進(jìn)的方向，這對我們來說至關(guān)重要。

就像 Gemini、AI Studio 一樣，Anti-gravity 平臺也是如此。這些產(chǎn)品能讓我們與用戶緊密相連，獲取真實的反饋信號，這是巨大的財富。Anti-gravity 平臺作為我們的關(guān)鍵發(fā)布合作伙伴，雖然加入時間不長，但在過去兩三周的發(fā)布籌備中，它的反饋起到了決定性作用。

搜索 AI 模式（AI Mode）也是如此，我們從那里獲得了大量反饋。基準(zhǔn)測試能幫助我們推動科學(xué)、數(shù)學(xué)等領(lǐng)域的智能提升，但了解現(xiàn)實世界的使用場景同樣重要，模型必須能解決實際問題。

Gemini 3，一款全 Google 團(tuán)隊協(xié)作的模型

Logan Kilpatrick: 在你擔(dān)任新任首席 AI 架構(gòu)師后，你的職責(zé)不僅是確保我們擁有優(yōu)秀的模型，還要推動產(chǎn)品團(tuán)隊將模型落地，在 Google 的所有產(chǎn)品中打造出色的用戶體驗。 Gemini 3 在發(fā)布當(dāng)天就同步登陸 Google 所有產(chǎn)品端，這對用戶來說是巨大的驚喜，也希望未來能覆蓋更多產(chǎn)品。從DeepMind 的角度來看，這種跨團(tuán)隊協(xié)作是否增加了額外的復(fù)雜性？畢竟一年半前，事情可能還簡單得多。

Koray Kavukcuoglu: 但我們的目標(biāo)是構(gòu)建智能，對吧？很多人問我，身兼 CTO 和首席 AI 架構(gòu)師兩個職位，會不會有沖突，但對我來說，這兩個角色本質(zhì)上是一致的。

要構(gòu)建智能，就必須通過產(chǎn)品與用戶的聯(lián)動來實現(xiàn)。我的核心目標(biāo)是確保 Google 的所有產(chǎn)品都能用上最先進(jìn)的技術(shù)。我們不是產(chǎn)品團(tuán)隊，而是技術(shù)開發(fā)者，我們負(fù)責(zé)研發(fā)模型和技術(shù)，當(dāng)然，我們也會對產(chǎn)品有自己的看法，但最重要的是，以最佳方式提供技術(shù)支持，與產(chǎn)品團(tuán)隊合作，在 AI 時代打造最優(yōu)秀的產(chǎn)品。

這是一個全新的時代，新技術(shù)正在重新定義用戶期望、產(chǎn)品行為和信息傳遞方式。因此，我希望能在 Google 內(nèi)部推動這種技術(shù)賦能，與所有產(chǎn)品團(tuán)隊合作。這不僅對產(chǎn)品和用戶有益，對我們自身也至關(guān)重要。

只有貼近用戶，才能感受到他們的需求，獲取真實的反饋信號，這是推動模型迭代的核心動力。這就是我們構(gòu)建通用人工智能（AGI）的方式：通過產(chǎn)品與用戶共同成長。

Logan Kilpatrick: 我完全認(rèn)同。這簡直可以作為你的推特文案了！我也覺得，我們本質(zhì)上是在與客戶、合作伙伴共同構(gòu)建通用人工智能（AGI）——這不是某個實驗室的孤立研究，而是與全世界共同推進(jìn)的聯(lián)合事業(yè)。

Koray Kavukcuoglu: 我認(rèn)為這也是一個「可信測試體系」——我們越來越強(qiáng)調(diào)工程思維。這種思維很重要，因為精心設(shè)計的系統(tǒng)才會更穩(wěn)健、更安全。

我們在構(gòu)建現(xiàn)實世界的產(chǎn)品時，借鑒了很多「可信測試」的理念，這體現(xiàn)在我們對安全、隱私的重視上：我們從一開始就將安全隱私作為核心原則，而不是事后補(bǔ)充。

無論是預(yù)訓(xùn)練、微調(diào)，還是數(shù)據(jù)篩選，團(tuán)隊中的每個人都需要考慮安全問題。我們當(dāng)然有專門的安全團(tuán)隊和隱私團(tuán)隊，他們會提供相關(guān)技術(shù)支持，但我們更希望 Gemini 團(tuán)隊的每個人都深度參與其中，將安全隱私融入開發(fā)的每一個環(huán)節(jié)，這些團(tuán)隊本身也是微調(diào)團(tuán)隊的一部分。

因此，在模型迭代、發(fā)布候選版本時，我們不僅會參考 GPQA、Hle 等基準(zhǔn)測試結(jié)果，還會嚴(yán)格審查安全隱私指標(biāo)。這種工程思維至關(guān)重要。

Logan Kilpatrick: 我完全同意。這也很符合 Google 的企業(yè)文化，畢竟，發(fā)布 Gemini 模型是一項需要全球團(tuán)隊協(xié)作的龐大工程。

Koray Kavukcuoglu: 說到 Gemini 3，我覺得最值得一提的是，它是一款「全 Google 團(tuán)隊協(xié)作的模型」。

Logan Kilpatrick: 我們可以看看相關(guān)數(shù)據(jù)，這可能是史上參與人數(shù)最多的項目之一，就像 NASA 的阿波羅計劃一樣，這是一項全球性的龐大工程。

Koray Kavukcuoglu: 沒錯，是全球性的。

Logan Kilpatrick: Google 所有團(tuán)隊都參與其中，這太不可思議了。

Koray Kavukcuoglu: 來自歐洲、亞洲等世界各地的團(tuán)隊都做出了貢獻(xiàn)，不僅有 DeepMind 團(tuán)隊，還有 Google 各個部門的團(tuán)隊。這是一項巨大的集體努力：我們與 AI 模式（AI Mode）、Gemini 應(yīng)用程序同步發(fā)布，這不容易。

這些產(chǎn)品團(tuán)隊在模型開發(fā)階段就與我們深度協(xié)作，這也是為什么我們能在發(fā)布當(dāng)天實現(xiàn)全平臺同步上線。所謂「全 Google 參與」，不僅指直接參與模型構(gòu)建的團(tuán)隊，還包括所有各司其職、默默付出的團(tuán)隊。

Nano Banana，自發(fā)的名字，自然地融合

Logan Kilpatrick: 另一個我關(guān)心的話題是生成式媒體模型——雖然我們一直有關(guān)注，但過去并未作為重點。不過，隨著 Veo 3、Veo 3.1、Nano Banana 模型的推出，我們在產(chǎn)品落地方面取得了很大成功。

我很好奇，在追求通用人工智能（AGI）的過程中，你如何看待生成式視頻模型的作用？有時候我會覺得視頻模型似乎與 AGI 無關(guān)，但仔細(xì)想想，它涉及對世界、物理規(guī)律的理解，所以兩者應(yīng)該是相互關(guān)聯(lián)的。

Koray Kavukcuoglu: 10 到 15 年前，生成式模型主要集中在圖像領(lǐng)域，因為當(dāng)時我們能更好地觀察圖像生成的過程，而且理解世界、物理規(guī)律也是圖像生成模型的核心目標(biāo)。

Google 在生成式模型方面的探索可以追溯到 10 年前，甚至更早。我讀博時，大家都在做生成式圖像模型，比如像素卷積神經(jīng)網(wǎng)絡(luò)（Pixel CNNs）。后來我們意識到，文本領(lǐng)域的進(jìn)步速度會更快。

但現(xiàn)在，圖像模型的重要性再次凸顯。DeepMind 長期以來在圖像、視頻、音頻模型方面積累了深厚的技術(shù)實力，將這些技術(shù)與文本模型融合是順理成章的。

我們一直強(qiáng)調(diào)多模態(tài)，包括輸入多模態(tài)和輸出多模態(tài)。隨著技術(shù)進(jìn)步，文本模型和圖像模型的架構(gòu)、理念正在不斷融合。過去，兩者的架構(gòu)差異很大，但現(xiàn)在越來越趨同。這不是我們刻意推動的，而是技術(shù)自然演進(jìn)的結(jié)果：大家都在探索更高效的方案，理念逐漸統(tǒng)一，最終形成了共同的發(fā)展路徑。

這種融合的核心價值在于，文本模型擁有豐富的世界知識，而圖像模型從另一個視角理解世界，將兩者結(jié)合，能讓模型更好地理解用戶的意圖，創(chuàng)造出更令人驚喜的成果。

Logan Kilpatrick: 我還有一個關(guān)于 Nano Banana 的問題：你覺得我們應(yīng)該給所有模型起一些有趣的名字嗎？這會不會有幫助？

Koray Kavukcuoglu: 不一定。我覺得名字應(yīng)該自然產(chǎn)生，而不是刻意為之。比如 Gemini 3，我們并沒有刻意設(shè)計名字。

Logan Kilpatrick: 如果 Gemini 3 不叫這個名字，你會起什么？會不會是很搞笑的名字？

Koray Kavukcuoglu: 我不知道，我不擅長起名字。其實我們的 Gemini 模型有內(nèi)部代號，有些代號甚至是用 Gemini 模型自己生成的，但 Nano Banana 不是，它沒有經(jīng)過模型生成。

這個名字背后有個故事，我記得已經(jīng)公開了。我覺得只要名字是自然、自發(fā)產(chǎn)生的，就很好。構(gòu)建模型的團(tuán)隊能對名字產(chǎn)生情感共鳴，這很有意義。

「Nano Banana」這個名字之所以被沿用，是因為我們在測試時用了這個代號，大家都很喜歡，它是自發(fā)傳播開來的。我覺得這種自然形成的名字很難通過流程刻意創(chuàng)造，有就用，沒有的話，用標(biāo)準(zhǔn)名稱也很好。

Logan Kilpatrick: 那我們來聊聊 Nano Banana Pro，這是基于 Gemini 3 Pro 打造的最先進(jìn)的圖像生成模型。我聽說團(tuán)隊在完成 Nano Banana 后，發(fā)現(xiàn)將其升級為 Pro 版本后，在文本渲染、世界知識理解等更精細(xì)的場景中，性能有了很大提升。對于這方面的發(fā)展，你有什么看法？

Koray Kavukcuoglu: 這正是不同技術(shù)融合的體現(xiàn)。我們一直說，每個版本的 Gemini 都是一個模型家族，比如 Pro、Flash 等，不同尺寸的模型在速度、準(zhǔn)確率、成本等方面各有取舍。圖像生成模型也是如此，自然會形成不同定位的產(chǎn)品。

團(tuán)隊基于 Gemini 3.0 Pro 的架構(gòu)，結(jié)合第一代模型的經(jīng)驗，通過擴(kuò)大模型規(guī)模、優(yōu)化調(diào)優(yōu)方式，打造出了更強(qiáng)大的圖像生成模型，這很合理。

它的核心優(yōu)勢在于處理復(fù)雜場景：比如輸入大量復(fù)雜文檔，模型不僅能回答相關(guān)問題，還能生成對應(yīng)的信息圖表，而且效果很好。這就是輸入多模態(tài)與輸出多模態(tài)自然融合的體現(xiàn)，非常棒。

Logan Kilpatrick: 是啊，這簡直像魔法一樣！希望大家在這段視頻發(fā)布時已經(jīng)看到了相關(guān)示例，內(nèi)部分享的一些案例真的太驚人了。

Koray Kavukcuoglu: 完全同意！當(dāng)你看到模型能將海量文本、復(fù)雜概念，用一張清晰直觀的圖片呈現(xiàn)出來時，真的會驚嘆「太厲害了」。這能直觀地體現(xiàn)模型的能力。

Logan Kilpatrick: 而且其中還有很多細(xì)節(jié)值得品味。我還有一個相關(guān)問題：去年 12 月，Tulsi 曾承諾我們會推出統(tǒng)一的 Gemini 模型檢查點（checkpoint）。你剛才描述的內(nèi)容，是不是意味著我們現(xiàn)在已經(jīng)非常接近這個目標(biāo)了？

Koray Kavukcuoglu:從歷史上看，生成式模型的架構(gòu)一直是統(tǒng)一的……

Logan Kilpatrick: 所以我猜這是我們的目標(biāo)：讓這些功能真正融入一個模型中，但現(xiàn)實中肯定有一些阻礙。你能從宏觀層面解釋一下嗎？

Koray Kavukcuoglu: 正如我之前所說，技術(shù)和架構(gòu)正在不斷趨同，這種統(tǒng)一是必然趨勢，但這需要驗證。我們不能憑主觀臆斷，必須遵循科學(xué)方法：提出假設(shè)、進(jìn)行測試、觀察結(jié)果，有時成功，有時失敗，但這就是技術(shù)進(jìn)步的過程。

我們正在逐步接近目標(biāo)，我相信在不久的將來，我們會看到更統(tǒng)一的模型，但這需要大量的創(chuàng)新。

這其實很難——模型的輸出空間至關(guān)重要，因為它直接關(guān)系到學(xué)習(xí)信號的質(zhì)量。目前，我們的學(xué)習(xí)信號主要來自代碼和文本，這也是模型在這些領(lǐng)域表現(xiàn)出色的原因。

而圖像生成則不同：它對質(zhì)量要求極高，不僅需要像素級的精準(zhǔn)度，還需要圖像概念的連貫性，也就是每個像素都要符合整體畫面的邏輯。要同時做好文本和圖像生成，難度很大。但我認(rèn)為這絕對是可行的，只是需要找到合適的模型創(chuàng)新方向。

Logan Kilpatrick: 太令人期待了！希望這也能讓我們的工作更高效，比如擁有一個統(tǒng)一的模型檢查點。

Koray Kavukcuoglu: 這很難說，但可能性很大。

一切都建立在學(xué)習(xí)之上

Logan Kilpatrick: 我再追問一個關(guān)于編碼和工具使用的問題。回顧 Gemini 的發(fā)展歷程：1.0 版本聚焦多模態(tài)，2.0 版本開始搭建基礎(chǔ)設(shè)施。雖然我們的進(jìn)步速度很快，但為什么在多模態(tài)領(lǐng)域，我們沒能從一開始就在智能體工具使用方面達(dá)到最先進(jìn)水平？畢竟 Gemini 1.0 在多模態(tài)領(lǐng)域一直保持領(lǐng)先。

Koray Kavukcuoglu: 我不認(rèn)為這是刻意為之。說實話，我覺得這與模型開發(fā)環(huán)境是否貼近現(xiàn)實世界密切相關(guān)，越貼近現(xiàn)實，就越能理解用戶的真實需求。

Gemini 的發(fā)展歷程，也是我們從「純研究」轉(zhuǎn)向「工程思維」、與產(chǎn)品深度綁定的過程。Google 在 AI 研究方面有著深厚的積淀，擁有眾多優(yōu)秀的研究人員，但 Gemini 的特別之處在于，它讓我們從「寫論文、做研究」轉(zhuǎn)向了「通過產(chǎn)品和用戶共同開發(fā)」。

我為我們的團(tuán)隊感到驕傲——包括我在內(nèi)，大多數(shù)人四五年前還在專注于發(fā)表論文、開展 AI 研究，而現(xiàn)在，我們站在技術(shù)前沿，通過產(chǎn)品和用戶共同推進(jìn)技術(shù)迭代。

這種轉(zhuǎn)變非常驚人：我們每 6 個月就推出一個新模型，每 1 到 1.5 個月就進(jìn)行一次更新。我認(rèn)為，我們正是在這個過程中逐步完善智能體工具使用能力的。

Logan Kilpatrick: 還有一個有趣的話題：現(xiàn)在 DeepMind 擁有眾多世界頂尖的 AI 產(chǎn)品，比如即時編碼（vibe coding）、AI Studio、Gemini、Anti-gravity 平臺等， Google 旗下也有很多前沿模型，比如 Gemini 3、Nano Banana、Veo 等。10 年甚至 15 年前，世界完全不是這樣的。

我很好奇，回顧你的個人歷程，你昨天提到，你是 DeepMind 的第一位深度學(xué)習(xí)研究員，這一點我和其他人都感到很意外。從 13 年前（2012年）人們對深度學(xué)習(xí)并不看好，到現(xiàn)在這項技術(shù)支撐著眾多產(chǎn)品、成為核心驅(qū)動力，你有什么感想？這一切是在意料之中，還是讓你感到意外？

Koray Kavukcuoglu: 我覺得這是最理想的結(jié)果。就像所有讀博的人一樣，你會堅信自己所做的事情很重要，會產(chǎn)生重大影響——我當(dāng)時就是這種心態(tài)。

所以當(dāng) Demi 和 Shane 聯(lián)系我，告訴我 DeepMind 是一個專注于構(gòu)建智能、以深度學(xué)習(xí)為核心的團(tuán)隊時，我非常興奮。我和我的朋友 Carl Greger（我們都來自紐約大學(xué) Jan 的實驗室）同時加入了 DeepMind。在當(dāng)時，專注于深度學(xué)習(xí)和 AI 的初創(chuàng)公司非常罕見，所以 DeepMind 的理念非常有遠(yuǎn)見，能在那里工作真的很令人激動。后來，我組建了深度學(xué)習(xí)團(tuán)隊，看著它不斷發(fā)展壯大。

我對深度學(xué)習(xí)的態(tài)度一直是：以第一性原理為基礎(chǔ)，堅持「基于學(xué)習(xí)」的思維方式，這也是 DeepMind 的核心理念：一切都建立在學(xué)習(xí)之上。

回顧這段旅程，從早期的 DQN、AlphaGo、AlphaZero、Alpha Fold，到現(xiàn)在的 Gemini，真的很令人感慨。我們一直懷著積極的期望推進(jìn)工作，但同時也覺得自己很幸運。

我們有幸生活在這個時代,很多人曾為 AI 或自己熱愛的領(lǐng)域奮斗一生，希望能見證技術(shù)爆發(fā)，但這一切現(xiàn)在真的發(fā)生了。AI 的崛起不僅得益于機(jī)器學(xué)習(xí)和深度學(xué)習(xí)的進(jìn)步，還離不開硬件、互聯(lián)網(wǎng)和數(shù)據(jù)的發(fā)展，這些因素共同促成了今天的局面。所以，我既為自己選擇了 AI 領(lǐng)域而自豪，也為能身處這個時代而感到幸運。這真的太令人興奮了。

Logan Kilpatrick: 我最近看了《思維游戲》（The Thinking Game）的視頻，了解了 Alpha Fold 的相關(guān)故事。我沒有親歷那個時代，只能通過資料和他人的講述來了解。你經(jīng)歷了 DeepMind 的多個重要項目，你覺得現(xiàn)在的工作與過去相比有什么不同？比如你之前提到的，「我們已經(jīng)掌握了將模型推向世界的方法」，這種感覺與之前的項目有什么相似或不同之處？

Koray Kavukcuoglu: 如何組織團(tuán)隊、培養(yǎng)文化，才能將復(fù)雜的科學(xué)技術(shù)問題轉(zhuǎn)化為成功的成果？我認(rèn)為我們從多個項目中積累了很多經(jīng)驗，從 DQN、AlphaGo、AlphaZero 到 Alpha Fold，這些項目都產(chǎn)生了深遠(yuǎn)影響。我們學(xué)會了如何圍繞特定目標(biāo)和使命，組織大規(guī)模團(tuán)隊開展工作。

我記得 DeepMind 早期，我們曾有 25 人共同參與一個項目，共同發(fā)表一篇論文——當(dāng)時很多人都質(zhì)疑「25 人怎么可能合作完成一篇論文」，但我們確實做到了。

在科研領(lǐng)域，這種大規(guī)模協(xié)作并不常見，但我們通過有效的組織實現(xiàn)了。這種經(jīng)驗和思維方式，隨著時間的推移不斷演進(jìn)，變得越來越重要。

而在過去兩三年里，我們又融入了工程思維——我們有了模型的主線開發(fā)方向，學(xué)會了在主線基礎(chǔ)上進(jìn)行探索。

我覺得「深度思維模型」（Deep Think）就是一個很好的例子：我們用它參加國際數(shù)學(xué)奧林匹克（IMO）、國際大學(xué)生程序設(shè)計競賽（ICPC）等頂級賽事。這些競賽的問題難度極大，很多人會想為賽事定制專門的模型，但我們選擇將其作為優(yōu)化現(xiàn)有模型的機(jī)會。

我們堅信技術(shù)的通用性，通過賽事探索新想法，并將這些想法融入現(xiàn)有模型，最終打造出能參加頂級賽事的模型，再將其開放給所有人使用。

Logan Kilpatrick: 這讓我想到了一個對應(yīng)：以前是 25 人共同發(fā)表一篇論文，現(xiàn)在 Gemini 3 的貢獻(xiàn)者名單可能已經(jīng)有 2500 人了——很多人可能會覺得「 2500 人怎么可能都參與其中」，但事實確實如此。這種大規(guī)模協(xié)作解決問題的方式，真的很令人驚嘆。

Koray Kavukcuoglu: 這一點非常重要，也是 Google 的優(yōu)勢所在。 Google 擁有全棧技術(shù)能力，我們能從中受益：從數(shù)據(jù)中心、芯片、網(wǎng)絡(luò)，到大規(guī)模模型的部署，每個環(huán)節(jié)都有專家坐鎮(zhèn)。

回到工程思維的話題，這些環(huán)節(jié)是密不可分的。我們設(shè)計模型時，會考慮它將運行的硬件；而設(shè)計下一代硬件時，也會預(yù)判模型的發(fā)展方向。這種協(xié)同非常美妙，但要協(xié)調(diào)這么多環(huán)節(jié)，確實需要數(shù)千人的共同努力。我們應(yīng)該認(rèn)可這種協(xié)作的價值，這真的很了不起。

Logan Kilpatrick: 這絕非易事。再回到 DeepMind 的傳統(tǒng)：我們一直采用多元科學(xué)方法，嘗試解決各種有趣的問題。而現(xiàn)在，我們已經(jīng)明確這項技術(shù)在多個領(lǐng)域都有效，只需持續(xù)擴(kuò)大規(guī)模。當(dāng)然，這也需要創(chuàng)新支撐。

你認(rèn)為在當(dāng)今時代，DeepMind 如何平衡「純科學(xué)探索」和「擴(kuò)大 Gemini 規(guī)模」？比如「Gemini 擴(kuò)散模型」（Gemini diffusion），就是這種決策的一個體現(xiàn)。

Koray Kavukcuoglu: 這是最關(guān)鍵的問題：找到兩者的平衡至關(guān)重要。

現(xiàn)在很多人問我，Gemini 最大的風(fēng)險是什么？我認(rèn)真思考過，答案是「缺乏創(chuàng)新」。我絕不相信我們已經(jīng)找到了「萬能公式」，只需按部就班執(zhí)行即可。

我們的目標(biāo)是構(gòu)建通用智能，這需要與用戶、產(chǎn)品深度綁定，但這個目標(biāo)本身依然極具挑戰(zhàn)性，我們并沒有現(xiàn)成的解決方案——創(chuàng)新才是實現(xiàn)目標(biāo)的核心動力。

創(chuàng)新可以有不同的規(guī)模和方向：在 Gemini 項目內(nèi)部，我們會探索新架構(gòu)、新想法、新方法；而作為 Google DeepMind 整體，我們還會開展更多跨領(lǐng)域的探索，因為有些想法可能在 Gemini 項目內(nèi)部過于受限，無法充分發(fā)展。

所以， Google DeepMind 和 Google 研究院需要共同探索各類想法，然后將這些想法融入 Gemini，因為 Gemini 不是一種架構(gòu)，而是一個目標(biāo)：構(gòu)建通用智能，讓 Google 的所有產(chǎn)品都能依托這個 AI 引擎運行。

無論最終采用哪種架構(gòu)，我們都會持續(xù)演進(jìn)，而創(chuàng)新將永遠(yuǎn)是核心驅(qū)動力。找到平衡，或以不同方式推進(jìn)探索，這至關(guān)重要。

Logan Kilpatrick: 我有一個相關(guān)的問題：在 IO 大會上，我曾和 Sergey 聊過，當(dāng)你把這么多人聚集在一起，共同發(fā)布模型、推動創(chuàng)新時，你能感受到一種「人性的溫度」——這一點我深有體會。我當(dāng)時坐在你旁邊，也感受到了你的熱情。

這一點對我個人來說很有意義，因為它也反映了 DeepMind 的整體文化：既有深厚的科學(xué)底蘊，又有友善、包容的團(tuán)隊氛圍。很多人可能沒有意識到這種文化的重要性，以及它如何影響工作。作為團(tuán)隊的領(lǐng)導(dǎo)者，你如何看待這種文化的體現(xiàn)？

Koray Kavukcuoglu: 首先，謝謝你的夸獎，這讓我有點不好意思。但我確實相信團(tuán)隊的力量，也堅信要信任他人、給予他人機(jī)會。團(tuán)隊協(xié)作至關(guān)重要，這一點我也是在 DeepMind 工作期間學(xué)到的。

我們從一個小團(tuán)隊起步，在成長過程中始終保持信任。我認(rèn)為，營造一個「專注于解決有影響力的復(fù)雜技術(shù)和科學(xué)問題」的環(huán)境，非常重要，這也是我們現(xiàn)在正在做的。

Gemini 的核心是構(gòu)建通用智能，這是一個極具挑戰(zhàn)性的技術(shù)和科學(xué)問題，我們需要以謙遜的態(tài)度去面對，不斷質(zhì)疑自己、優(yōu)化自己。希望團(tuán)隊也能感受到這一點，我真的為我們的團(tuán)隊感到驕傲，他們齊心協(xié)力、相互支持。

就像我剛才在茶水間和團(tuán)隊聊的那樣：「這很辛苦，我們都很累，但這就是構(gòu)建前沿技術(shù)的常態(tài)。我們沒有完美的流程，但每個人都在全力以赴、相互支持。」而讓這一切變得有趣、有意義，讓我們有勇氣面對挑戰(zhàn)的，很大程度上是「擁有一支優(yōu)秀的團(tuán)隊」，大家共同為技術(shù)的潛力而奮斗。

我可以肯定地說，20 年后，我們現(xiàn)在使用的大語言模型（LLM）架構(gòu)肯定會被淘汰。所以，持續(xù)探索新方向是正確的選擇。 Google DeepMind、 Google 研究院，以及整個學(xué)術(shù)研究社區(qū)，都需要共同推進(jìn)多個領(lǐng)域的探索。

我認(rèn)為，不必糾結(jié)于「什么是對的、什么是錯的」，真正重要的是技術(shù)在現(xiàn)實世界中的能力和表現(xiàn)。

Logan Kilpatrick: 最后一個問題：我個人在 Google 的第一年多時間里，感受到了一種「 Google 逆襲」的氛圍。盡管 Google 擁有強(qiáng)大的基礎(chǔ)設(shè)施優(yōu)勢，但在 AI 領(lǐng)域，我們似乎一直在追趕。比如在 AI Studio 的早期階段，我們沒有用戶（后來增長到3萬人），沒有收入，Gemini 模型也處于早期階段。

而現(xiàn)在，隨著 Gemini 3 的發(fā)布，我最近收到了很多來自生態(tài)系統(tǒng)各方的反饋，人們似乎終于意識到「 Google 的AI時代已經(jīng)到來」。你是否也有過這種「逆襲」的感受？你相信我們能走到今天嗎？對于團(tuán)隊來說，這種角色的轉(zhuǎn)變會帶來什么影響？

Koray Kavukcuoglu: 在大語言模型（LLM）的潛力逐漸顯現(xiàn)時，我坦誠地說，我既認(rèn)為 DeepMind 是前沿 AI 實驗室，也意識到我們作為研究人員，在某些領(lǐng)域的投入還不夠，這對我來說是一個重要的教訓(xùn)：我們必須拓寬探索范圍，創(chuàng)新至關(guān)重要，而不是局限于某一種架構(gòu)。

我一直對團(tuán)隊坦誠相待：大約 2.5 年前，當(dāng)我們開始認(rèn)真對待大語言模型、啟動 Gemini 項目時，我們在很多方面都與最先進(jìn)水平有差距，我們有很多不懂的東西，雖然也有自己的優(yōu)勢，但確實處于追趕狀態(tài)。

這種追趕持續(xù)了很長時間，而現(xiàn)在，我認(rèn)為我們已經(jīng)進(jìn)入了領(lǐng)先梯隊。我對我們的發(fā)展速度、團(tuán)隊動態(tài)和協(xié)作節(jié)奏感到非常滿意。但我們必須正視過去的追趕歷程。

在追趕過程中，我們既要學(xué)習(xí)他人的優(yōu)點，也要堅持自己的創(chuàng)新，找到適合自己的解決方案：無論是技術(shù)、模型、流程，還是團(tuán)隊運作方式，這些都是我們獨有的。

很多人說「 Google 太大了，做事效率低」，但我認(rèn)為這可以轉(zhuǎn)化為優(yōu)勢。我們有能力做一些獨特的、大規(guī)模的事情，比如讓 Gemini 同步登陸所有 Google 產(chǎn)品。我對我們現(xiàn)在的狀態(tài)很滿意，但這是通過持續(xù)學(xué)習(xí)和創(chuàng)新實現(xiàn)的。這確實是一個很棒的「逆襲」故事。

當(dāng)然，總會有各種比較，但我們的目標(biāo)始終是構(gòu)建通用智能——我們希望以正確的方式實現(xiàn)這一目標(biāo)，并為此傾注全部心力和創(chuàng)新。

Logan Kilpatrick: 我覺得未來六個月可能會和過去六個月、乃至之前的六個月一樣令人振奮。再次感謝你抽出時間接受采訪，非常愉快！希望在明年 IO 大會前我們能再聊一次。

雖然感覺還有很久，但時間肯定會過得很快。我相信下周就會有關(guān)于 2026 年 IO 大會的規(guī)劃會議了。再次祝賀你和 DeepMind 團(tuán)隊，以及所有模型研究人員，成功推出 Gemini 3、Nano Banana Pro 等一系列產(chǎn)品！

Koray Kavukcuoglu: 謝謝！這次交流非常棒。感謝團(tuán)隊的付出，也感謝你的邀請！

歡迎加入 APPSO AI 社群，一起暢聊 AI 產(chǎn)品，獲取，解鎖更多 AI 新知

我們正在招募伙伴

簡歷投遞郵箱hr@ifanr.com

?? 郵件標(biāo)題「姓名+崗位名稱」（請隨簡歷附上項目/作品或相關(guān)鏈接）

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.