<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      Nano Banana爆火背后,深聊谷歌多模態(tài)五大主線布局

      0
      分享至

      撰稿 |張珺玥

      編輯|陳茜

      幾周前,這個(gè)頂著神秘“香蕉”代號(hào)的模型在評(píng)測(cè)平臺(tái)上悄然登場(chǎng),沒(méi)有任何公告、沒(méi)有官方文檔,但卻憑借著驚人的圖像質(zhì)量和角色一致性,憑實(shí)力吊打了一票老牌模型,在AI社區(qū)里引發(fā)轟動(dòng)。

      當(dāng)時(shí),有人猜它是OpenAI的秘密實(shí)驗(yàn)品,也有人認(rèn)為可能是獨(dú)立研究團(tuán)隊(duì)的“黑馬之作”。而8月底,謎底終于揭曉,Google親自下場(chǎng)認(rèn)領(lǐng):Nano Banana,就是Google最新發(fā)布的文生圖模型——Gemini 2.5 Flash Image。


      作為Gemini 2.0 Flash的升級(jí)版,Nano Banana是一個(gè)更加貼近真實(shí)工作流的AI編輯器。它不僅能在多次編輯中保持角色和畫面的高度一致,還讓用戶只需用自然語(yǔ)言就能完成精細(xì)的局部修改和多圖合成。

      相比過(guò)去大部分模型“生成一張好圖”的目標(biāo),Nano Banana則更像是一個(gè)隨時(shí)待命的設(shè)計(jì)助手,能夠幫你不斷去迭代、調(diào)整、優(yōu)化、創(chuàng)造。

      大量網(wǎng)友們?cè)跍y(cè)試完后之后都表示,這可能是Photoshop時(shí)代的終結(jié)。


      那么,在已經(jīng)嚴(yán)重內(nèi)卷的文生圖模型賽道,Nano Banana憑什么能再次掀起一陣狂潮? 相比OpenAI、Flux這些強(qiáng)勁對(duì)手,它有什么特別之處,真實(shí)的效果到底如何?Google的多模態(tài)能力如今又究竟發(fā)展到什么程度了呢?

      (本文為視頻改寫,歡迎大家收看以下視頻)

      01

      “橫空出世”的Nano Banana

      在Nano?Banana還沒(méi)被Google正式認(rèn)領(lǐng)之前,它匿名登場(chǎng)于目前全球最火、最權(quán)威的大模型測(cè)評(píng)平臺(tái)LMArena。這是一個(gè)以社區(qū)投票為主導(dǎo)的AI模型競(jìng)技場(chǎng),主要形式就是讓兩個(gè)模型匿名對(duì)戰(zhàn),用戶“盲選”出自己更滿意的結(jié)果,網(wǎng)站再根據(jù)社區(qū)用戶的投票基于一系列算法來(lái)對(duì)各家模型進(jìn)行排名。

      大約在8月中旬左右,大家開(kāi)始注意到,在LMArena的文生圖和圖片編輯榜單上突然出現(xiàn)了一個(gè)陌生而神秘的模型代號(hào)——Nano Banana,并且在之后幾天內(nèi)憑借著超極穩(wěn)定和驚艷的輸出在排行榜上迅速躥升,最后穩(wěn)坐榜首。


      一時(shí)間,Nano?Banana的名字迅速傳開(kāi),并引發(fā)了大量的關(guān)注與討論。大家都在猜測(cè),這個(gè)神秘的模型,究竟是誰(shuí)的手筆?

      就在關(guān)于Nano Banana的討論進(jìn)入白熱化的時(shí)候,8月25日前后,包括DeepMind CEO Demis Hassabis等在內(nèi)的谷歌工程高管開(kāi)始在社交平臺(tái)上“暗戳戳”地發(fā)帶有香蕉元素的帖子,讓懸念逐漸落地。

      而就在Gemini 2.5 Flash Image被正式官宣發(fā)布前,谷歌CEO Pichai更是連發(fā)了3根香蕉宣誓了對(duì)Nano Banana的“主權(quán)”。


      上一次文生圖模型如此熱鬧的場(chǎng)面,還要追溯到幾個(gè)月前GPT-4o的吉卜力熱潮,這次的Nano Banana究竟好在哪里?

      我們采訪了一些開(kāi)發(fā)者,大家都首先表示,Nano Banana此次最大的一個(gè)突破就是它的“一致性”能力


      張宋揚(yáng) 亞馬遜AGI部門Applied Scientist: 我覺(jué)得最驚艷的就是它在角色的一致性上做得效果非常好,相比之前的模型,這應(yīng)該是做得最好的一個(gè)。


      Nathan Wang 硅谷101特邀研究員 Agent資深開(kāi)發(fā)者: 我覺(jué)得Nano Banana讓我覺(jué)得比較震撼的地方,就是它的一次生成成功,保持這種一致性,包括它的可編輯性是讓我很驚訝的地方。


      過(guò)去,很多模型在對(duì)圖片進(jìn)行反復(fù)修改時(shí),最常見(jiàn)的問(wèn)題就是“換了衣服,人也變了臉”。比如你想把照片里的外套換個(gè)顏色,結(jié)果系統(tǒng)順手把五官也拉歪了。這種“不夠像”的小偏差,讓人很難把AI當(dāng)作可靠的創(chuàng)作工具。

      而Nano Banana的改進(jìn)之處就在于,它能在多輪編輯中牢牢鎖住人物或物體的核心特征,不論是調(diào)整姿勢(shì)、換服裝,還是把狗狗放進(jìn)新的背景里,主體能夠始終保持不變。

      第二個(gè)大的突破在于多圖融合。過(guò)去把兩張完全不同的照片合成在一起,常見(jiàn)問(wèn)題包括不同圖像間的不協(xié)調(diào)、空間扭曲、細(xì)節(jié)丟失或變形等等,人在場(chǎng)景里往往看起來(lái)都像是被“貼上去的”。而Nano Banana能夠在多圖合成時(shí)自動(dòng)處理風(fēng)格和邏輯一致性,讓畫面看上去渾然一體。


      第三個(gè)亮點(diǎn)是自然語(yǔ)言驅(qū)動(dòng)的精準(zhǔn)修改。以前想要改動(dòng)一張照片,往往要自己畫蒙版、或者用專業(yè)工具反復(fù)擦拭。現(xiàn)在,你只需要簡(jiǎn)單的描述:“換一個(gè)背景”、“從照片中移除整個(gè)人物”、“改變?nèi)宋锏淖藙?shì)”……Nano Banana 就能在其他部分保持不變的前提下,精準(zhǔn)執(zhí)行用戶的要求,將圖片編輯的操作門檻幾乎降到零。甚至,你都可以不使用語(yǔ)言跟它交流,隨手畫個(gè)簡(jiǎn)筆畫都可以。

      此外,它還加入了多輪對(duì)話式編輯風(fēng)格混配。你可以先讓它把房間刷成薄荷綠,再補(bǔ)上書架、換個(gè)地毯,模型會(huì)一步步記住上下文,不會(huì)把之前的成果推翻。甚至,你還可以要求它把花瓣的紋理應(yīng)用到鞋子上,蝴蝶翅膀的圖案變成一條裙子,生成一種全新的創(chuàng)意風(fēng)格。


      當(dāng)然,安全性也被擺在了前面。Google給所有Nano Banana生成的圖片加上了可見(jiàn)水印,同時(shí)還有肉眼不可見(jiàn)的數(shù)字水印SynthID,以保證未來(lái)能識(shí)別和追溯AI作品。

      在Nano Banana正式發(fā)布之后,背后的DeepMind團(tuán)隊(duì)也首次走到臺(tái)前,講述了這款模型背后的研發(fā)故事。

      團(tuán)隊(duì)介紹說(shuō),Nano Banana最核心的突破,是使用了一種叫做“交替生成” 的圖像生成的新范式。它會(huì)把用戶的復(fù)雜指令拆分成多個(gè)步驟,每一步只做一個(gè)小調(diào)整,比如先換衣服,再改背景,然后再加寵物。

      這樣的方式,可以讓AI編輯不再“失憶“性的一次性亂改,而是帶著每一輪修改的”記憶“,從而保持主體的一致性。


      研發(fā)人員還透露,Nano Banana之所以能在創(chuàng)意場(chǎng)景里表現(xiàn)得更自然,是因?yàn)樗浞掷昧薌emini的世界知識(shí)。此次,Gemini團(tuán)隊(duì)和Imagen強(qiáng)強(qiáng)聯(lián)合,Gemini團(tuán)隊(duì)帶來(lái)了語(yǔ)言理解和世界知識(shí)的能力,讓模型能聽(tīng)懂復(fù)雜的指令;而Imagen團(tuán)隊(duì)則提供了高質(zhì)量圖像生成和風(fēng)格控制的經(jīng)驗(yàn)

      兩者結(jié)合,讓Nano Banana不僅能畫,還能理解邏輯和語(yǔ)義,讓模型在“理解—?jiǎng)?chuàng)造—理解”的循環(huán)中表現(xiàn)全面。

      對(duì)于Nano Banana未來(lái)發(fā)展方向,DeepMind的研究員表示,他們希望Nano Banana并不只是一個(gè)“生成圖片”的模型,而是能夠成為一個(gè)可靠的、能夠陪伴用戶進(jìn)行思考和創(chuàng)作的智能體。


      根據(jù)LMArena的匿名測(cè)評(píng)結(jié)果以及谷歌公布的測(cè)試數(shù)據(jù)來(lái)看,此次的Gemini 2.5 Flash Image基本上全方位碾壓了ChatGPT 4o、FLUX Kontext、QWEN Image Edit等競(jìng)爭(zhēng)對(duì)手。而且其生成成本更是讓人驚掉下巴,單張圖像的生成成本僅需0.039美元,也就是不到3毛人民幣。

      Nano Banana的真實(shí)效果真的有這么好嗎?

      02

      Nano Banana的實(shí)力與反饋

      目前,普通用戶都可以在Google Gemini應(yīng)用程序、Google AI Studio中直接調(diào)用Nano Banana,也可以使用Gemini API和Vertex AI平臺(tái),而Adobe、Lovart等平臺(tái)也陸續(xù)宣布已經(jīng)將其集成進(jìn)創(chuàng)意工具中。

      這些渠道的開(kāi)放,使得普通用戶、專業(yè)設(shè)計(jì)人士和開(kāi)發(fā)者都能輕松訪問(wèn)。


      尤其值得注意的是,用戶不僅可以免費(fèi)用,跟之前很多模型的龜速出圖不同,這次Nano Banana的生成速度也非常得快,輸入指令后,大約幾秒鐘就能完成出圖或者修改。也因?yàn)檫@樣便捷、高效的操作,網(wǎng)友們可以說(shuō)是已經(jīng)“玩瘋了”。

      首先,大家?guī)缀醵紝?duì)Nano Banana的“人物一致性效果”感到驚艷。給一張普通的游客照換個(gè)背景、換個(gè)衣服,假裝自己在球賽現(xiàn)場(chǎng),動(dòng)動(dòng)手指,幾秒搞定。影棚里的側(cè)面照變成正臉證件照,發(fā)型、造型換一換,更是輕輕松松就能完成。


      以前品牌方需要花大量經(jīng)費(fèi)的棚拍、置景、造型,現(xiàn)在也就只需打幾行字,0成本就能出片。

      此外,還能用一張卡通人物的圖片生成各式各樣的人物表情和動(dòng)作。自家的寵物也能隨意地?fù)Q個(gè)毛色或品種。

      看到網(wǎng)友們發(fā)的效果這么好,我自己當(dāng)然也忍不住上手試了一下。先把我們家的薩摩耶小D換個(gè)顏色,薩摩耶秒變藏獒;再換個(gè)品種試試,哈士奇也不錯(cuò)。


      再來(lái)玩玩我家兒子Benjamin,我上傳了一張我在后院抱著寶寶的照片。首先讓Nano Banana把我們瞬移去馬爾代夫、去巴黎、去北京故宮,看起來(lái)周游世界毫無(wú)難度。


      接著,我讓它把我懷里的寶寶變成一只猩猩寶寶。大家可以看到,效果也非常自然,在我完全能夠保持不變的情況下,猩猩寶寶的墨鏡、表情、動(dòng)作都保留了原片。


      我決定再給它加點(diǎn)難度。首先讓它把我的表情從微笑變成驚訝,接著把我的姿態(tài)從看向鏡頭轉(zhuǎn)為驚訝地看向?qū)殞殹H宋锏囊恢滦砸廊槐3值梅浅:谩?/p>

      而且大家注意看,我側(cè)頭之后,我的墨鏡中的反光竟然變成了沙灘的鏡像,整個(gè)邏輯和細(xì)節(jié)真的太贊了。


      雖然目前谷歌還沒(méi)有發(fā)布Nano Banana相關(guān)的技術(shù)報(bào)告, 但亞馬遜AGI部門Applied Scientis張宋揚(yáng)猜測(cè),這次Nano Bnanan的一致性控制能力之所以得到了很大提升,可能是在數(shù)據(jù)上花了很多功夫。


      張宋揚(yáng) 亞馬遜AGI部門Applied Scientist: 他們有一些自己的用戶數(shù)據(jù),也需要做一些數(shù)據(jù)的清洗。因?yàn)椴⒉皇撬械臄?shù)據(jù),直接拿過(guò)來(lái)用就能做到想要的效果。比如說(shuō)有些數(shù)據(jù)你需要進(jìn)行一些篩選,把一些高質(zhì)量數(shù)據(jù),包括一些我覺(jué)得比較重要,比如像人臉這種比較難做的(數(shù)據(jù)),這種你需要增加它的比例。數(shù)據(jù)的清理是一個(gè)很大的工作要做。一個(gè)是數(shù)據(jù)來(lái)源,一個(gè)是數(shù)據(jù)清理,主要是這兩點(diǎn)。

      除了超穩(wěn)定的人物一致性之外,它的“多圖融合”功能看起來(lái)也已經(jīng)到了出神入化的程度。

      想讓人物跨時(shí)空會(huì)面?它生成的照片幾乎能到以假亂真的程度,從人物表情到光線對(duì)焦都毫無(wú)違和感。甚至上傳幾個(gè)食材,就能幫你“做”出一道色香味俱全的菜。

      首先,讓我給“老冤家”馬斯克和Altman來(lái)攢個(gè)局。


      感覺(jué)大家聊得還不錯(cuò)。接著讓我們都穿上一個(gè)香蕉服裝試試。


      挺可愛(ài)的,再加點(diǎn)難度,讓它把“路人”Pichai和扎克伯克來(lái)跟我們合影:可是馬斯克怎么變成小扎了?還有,Pichai去哪了?


      再次對(duì)話調(diào)整后,人是回來(lái)了,不過(guò)不是馬斯克,好像也不是Pichai?


      跟它確認(rèn)一下,最右這位是Pichai嗎?它居然斬釘截鐵的告訴我他是!自家老板都不認(rèn)識(shí),這可是要扣工資的呀。我決定再幫它一把,把Pichai的照片給它,看看它能不能糾正過(guò)來(lái),結(jié)果還是不行,看來(lái)只能扣工資了。


      大家可以看出來(lái),Nano Banana還是有很多bug的地方,這個(gè)我們稍后來(lái)說(shuō),但一般的合影需求,其實(shí)做得還是非常絲滑,非常出神入化。

      比起娛樂(lè)、玩梗,其實(shí)更重要的是,多圖融合能力現(xiàn)在已經(jīng)顯現(xiàn)出一種專業(yè)化替代的能力。

      比如,有網(wǎng)友一次性輸入了包括模特照片、產(chǎn)品、布景元素在內(nèi)的十幾張圖片,讓Nano Banana進(jìn)行融合設(shè)計(jì)。最后的效果令人驚艷,幾乎可以媲美、甚至超越廣告設(shè)計(jì)公司。


      而對(duì)于服裝品牌們來(lái)說(shuō),Nano Banana幾乎可以幫忙省去他們以后找模特拍產(chǎn)品圖的工作。比如讓Tylor Swift換身西裝,只需上傳一張衣服的平面照片就能搞定。


      甚至還可以調(diào)整各種姿勢(shì)、光影,連續(xù)生成各種角度、各種姿勢(shì)的模特上身效果。

      此外,擁有了“世界知識(shí)”的Nano Banana對(duì)抽象指令的理解能力也迎來(lái)了大幅躍升

      比如網(wǎng)友們隨手畫的一個(gè)簡(jiǎn)筆畫,它就能準(zhǔn)確地結(jié)合上傳的人物圖片進(jìn)行姿勢(shì)改變與創(chuàng)意設(shè)計(jì)。讓奧特曼給你表演鞍馬,一張圖就能搞定。


      再比如,在平面地圖上隨便畫一根線,它就能給你展示從這根線的視角能看到什么樣的實(shí)際風(fēng)景。


      此外,官方介紹中的多輪對(duì)話式編輯和風(fēng)格混配能力也并沒(méi)有夸大其詞。

      比如把它用于室內(nèi)設(shè)計(jì)和繪圖渲染,或者讓它用不同的花朵紋理給我設(shè)計(jì)一個(gè)新衣服等等。


      針對(duì)目前Nano Banana所展現(xiàn)出來(lái)的能力,Nathan表示,在某種程度上來(lái)說(shuō)我們對(duì)圖片的編輯能力已經(jīng)開(kāi)始達(dá)到了文字的類似水平。


      Nathan Wang 硅谷101特邀研究員 Agent資深開(kāi)發(fā)者: 它現(xiàn)在實(shí)現(xiàn)的功能相當(dāng)我們?cè)谖淖值倪@個(gè)階段,你把其中一段話劃出來(lái),說(shuō)你幫我改一下,或者這段話的語(yǔ)義不對(duì),你幫我重新描述一下。現(xiàn)在它能夠在圖片上做到和文字編輯一樣的效果,比如說(shuō)把某個(gè)窗簾的顏色換成紅色、換成藍(lán)色,或者把物件給去掉,從一個(gè)圖片中加這個(gè)物件,就很像我們?cè)诰庉嬑淖质降模ピ诤芗?xì)微、細(xì)枝末節(jié)的地方進(jìn)行一定程度的優(yōu)化和改變。 我覺(jué)得它是真正地在多模態(tài)的模型中做到了單一的語(yǔ)言模型可以達(dá)到的效果,這一點(diǎn)是很大的一個(gè)突破。

      但其實(shí),我們以上展示都還只是Nano Banana能力的冰山一角。自發(fā)布這幾天來(lái),網(wǎng)友們還正在不斷挖出Nano Banana的各種玩法。


      比如已經(jīng)火爆全網(wǎng)的”手辦模型”,我也忍不住上手制作了一個(gè),效果真的是非常可愛(ài)。

      除了“手辦”等靜態(tài)操作之外,另外一個(gè)爆火的趨勢(shì)是將Nano Banana的能力跟其他平臺(tái)結(jié)合,創(chuàng)作出效果驚艷的視頻。

      比如有人把Nano Banana和Seedance、 Kling結(jié)合使用,實(shí)現(xiàn)了讓梵高、蒙娜麗莎從油畫里走出來(lái)變成真人坐在中央公園聊天,有人使用Nano Banana和Seedance僅用不到兩小時(shí)就做出一個(gè)動(dòng)畫短片,有人使用Nano Banana跟Weavy制作出細(xì)節(jié)滿滿的3D產(chǎn)品介紹等等。


      那么,跟其他模型相比,Nano Banana的能力是不是真的要強(qiáng)大很多呢?我們自己也進(jìn)行了幾個(gè)簡(jiǎn)單的測(cè)試。

      同樣改變照片背景的指令。這是GPT-5的,人物幾乎變了樣。


      這是FLUX的。人物倒是摳出來(lái)了,但是頭發(fā)少了一塊,人像是被貼上去的。


      而到了讓照片融合進(jìn)行合影的指令,GPT不僅不能一次性理解并完成我的指令,生成出來(lái)的照片也完全不可用。不僅像貼上去的,甚至我這個(gè)人都變樣了。


      同樣的Prompt在GPT上試了一下創(chuàng)建手辦,人物比例、五官、背景等細(xì)節(jié)也都出現(xiàn)了不同程度的瑕疵。


      對(duì)比使用下來(lái)最大的感受是,目前在生成速度上其他模型不僅比Nano Banana慢了幾倍,效果和輸出穩(wěn)定性方面也遜色不少。

      當(dāng)然,Nano Banana目前也并非沒(méi)有翻車的時(shí)候。首先,在中文能力方面,Nano Banana依然沒(méi)有出現(xiàn)質(zhì)的突破。生成的圖片依然存在文字亂碼、亂讀的現(xiàn)象。

      對(duì)編輯指令的理解和執(zhí)行也會(huì)出現(xiàn)偏差,比如我在要求對(duì)這個(gè)“手辦”加上一雙腿時(shí)它直接加到了盒子上,順帶著背景里的圖片也不翼而飛。


      還在多輪對(duì)話編輯中,它在面對(duì)復(fù)雜指令時(shí)可能突然就凌亂了。比如我在前文對(duì)話中想繼續(xù)讓它嘗試多圖融合,生成一張馬斯克、扎克伯格、皮柴一起圍觀我懷里猩猩寶寶的照片。不僅人物比例和表情及其不協(xié)調(diào),就連我這個(gè)照片主體變了一個(gè)人。

      除此之外,網(wǎng)友對(duì)它不滿意的地方還有圖片分辨率不高、對(duì)提示詞的審查太嚴(yán)格、藝術(shù)性和審美上比不上Midjourney、Imagen等等。

      但總體來(lái)說(shuō),大家對(duì)于Nano Banana評(píng)價(jià)主要還是以積極、正面為主,幾乎都認(rèn)為這是文生圖的又一里程碑。


      03

      五條主線

      谷歌的多模態(tài)生態(tài)大爆發(fā)

      如果把Nano Banana放在更長(zhǎng)的時(shí)間線上來(lái)看,你會(huì)發(fā)現(xiàn),這并不是谷歌的一次“偶然爆發(fā)”。

      事實(shí)上,在過(guò)去的一年多時(shí)間里,谷歌幾乎用一種“密集轟炸”的節(jié)奏,把多模態(tài)產(chǎn)品一口氣推到了前臺(tái)。各種模型、各種迭代甚至可以用眼花繚亂來(lái)形容。

      目前谷歌到底有哪些多模態(tài)產(chǎn)品線呢?我們來(lái)跟你一起理一理。

      谷歌的多模態(tài)產(chǎn)品目前已經(jīng)基本形成了一個(gè)完整的矩陣,它們大致可以分成五條主線。


      第一條主線,是文生圖Imagen系列。

      Imagen系列最早可以追溯到2022年5月,當(dāng)時(shí)Google Research首次提出這一文生圖模型。它的特點(diǎn)是結(jié)合大語(yǔ)言模型理解提示,再用擴(kuò)散模型生成圖像,在當(dāng)時(shí)就被認(rèn)為是超越DALL·E 2的新一代方案。不過(guò)因?yàn)榘踩桶鏅?quán)風(fēng)險(xiǎn),Imagen一開(kāi)始并沒(méi)有開(kāi)放給公眾使用。直到2024年I/O大會(huì),谷歌才正式推出Imagen 3,真正走向產(chǎn)品化。到2025年5月,Imagen 4發(fā)布,進(jìn)一步強(qiáng)化了光影表現(xiàn)和細(xì)節(jié)質(zhì)量,朝著“接近真實(shí)攝影”的方向邁進(jìn)。

      第二條主線,是文生視頻的Veo系列。

      2024年1月,谷歌研究院首次發(fā)布了Lumiere,用“時(shí)空一致性擴(kuò)散”的方式直接生成整段視頻,讓動(dòng)作和背景更加連貫自然。隨后在2024年5月,I/O大會(huì)上正式亮相Veo 1,可以生成1080p高清視頻。到了同年12月,Veo 2升級(jí)至4K,并首次接入Vertex AI平臺(tái)。而在2025年5月I/O,谷歌再次亮相 Veo 3,不僅能生成視頻,還能同步生成音樂(lè)和旁白,把文生視頻真正推進(jìn)到影視級(jí)創(chuàng)作的階段。


      第三條主線,是Genie系列,也就是“交互世界生成”,也被稱為“世界模型”。

      和文生視頻的模型不同,Genie的目標(biāo)不是做一段“看”的視頻,而是直接生成一個(gè)“能玩”的虛擬世界。

      Genie 1于2024年初首次亮相,作為第一個(gè)能夠根據(jù)圖像生成可玩2D游戲環(huán)境的模型,它展示了AI創(chuàng)造互動(dòng)世界的潛力。緊隨其后,Genie 2在2024年底發(fā)布,在一代基礎(chǔ)上取得了巨大進(jìn)步,它能生成更長(zhǎng)、更復(fù)雜的3D互動(dòng)世界,將AI生成的虛擬環(huán)境從二維平面擴(kuò)展到了三維空間。

      而最新的Genie 3在今年的8月5日推出,能力再次提升到了一個(gè)新高度,能夠從文本或圖像提示生成動(dòng)態(tài)、可導(dǎo)航的3D世界,并首次支持實(shí)時(shí)交互和“提示性世界事件”,允許用戶在生成環(huán)境中實(shí)時(shí)修改物體或天氣,使其成為了一個(gè)真正意義上的“世界模型”。


      換句話說(shuō),它不僅能幫你生成一段畫面,還能讓你能真正地“走進(jìn)去”,去玩、去體驗(yàn)。

      這讓Genie成為了谷歌多模態(tài)矩陣?yán)镆粋€(gè)特別的分支:它不是單純的視頻生成,而是文生視頻和虛擬交互的結(jié)合,預(yù)示著谷歌的多模態(tài)探索正在觸碰“沉浸式體驗(yàn)”和“虛擬世界構(gòu)建”的邊界。

      第四條主線,是面向創(chuàng)作者的工具集。

      2024年5月,谷歌在I/O上同時(shí)推出了ImageFXVideoFX,讓用戶可以直接在Labs中體驗(yàn)文生圖與文生視頻。到了2025年5月,谷歌又發(fā)布了Flow,這是一個(gè)專為影視敘事設(shè)計(jì)的工具,把Veo和Imagen的能力整合到分鏡、鏡頭、敘事風(fēng)格的工作流里。


      最后一條主線,就是Gemini多模態(tài)底座。

      Gemini是谷歌的通用多模態(tài)基礎(chǔ)模型,是整個(gè)系統(tǒng)的“大腦”。它的核心能力在于理解、推理和處理各種信息,包括文本、圖像、音頻、視頻等。Gemini扮演著一個(gè)通用智能體的角色,為其他更專業(yè)的模型提供強(qiáng)大的基礎(chǔ)支持和世界知識(shí)。


      2023年底,Gemini 1.0發(fā)布,確立了Ultra、Pro、Nano三個(gè)不同尺寸的模型家族形態(tài)。

      2024年2月,Gemini 1.5發(fā)布,帶來(lái)了革命性的進(jìn)步,尤其是其突破性的長(zhǎng)上下文窗口,讓它能一次性處理海量的文本、代碼、圖像甚至視頻,這讓模型在理解復(fù)雜、冗長(zhǎng)的文檔或視頻方面有了前所未有的能力。

      2025年2月,Gemini 2.0系列登場(chǎng),推出了Flash和Flash-Lite,能夠更好地應(yīng)對(duì)需要低延遲和大規(guī)模部署的應(yīng)用場(chǎng)景。

      2025年8月,Gemini 2.5 Flash Image也就是大家熟知的Nano Banana正式現(xiàn)身,把“AI修圖”直接變成了人人可用的體驗(yàn)。


      盤點(diǎn)下來(lái)你會(huì)發(fā)現(xiàn),谷歌的多模態(tài)戰(zhàn)略已經(jīng)逐漸清晰成型:文生圖的Imagen ,文生視頻的Veo,探索交互世界的Genie,再通過(guò)Flow、ImageFX、VideoFX把這些能力嵌進(jìn)創(chuàng)作工作流,而背后的支撐,是快速迭代的多模態(tài)底座Gemini。

      在采訪中Nathan談到,谷歌所擁有的非常好的人才、基建和數(shù)據(jù)底座,是它在當(dāng)前激烈的大模型競(jìng)爭(zhēng)中的優(yōu)勢(shì)所在。在這看似復(fù)雜、龐大的產(chǎn)品線背后,谷歌其實(shí)也有著比較清晰的產(chǎn)品路線。


      Nathan Wang 硅谷101特邀研究員 Agent資深開(kāi)發(fā)者: 它每一次發(fā)不同的模型背后還是有著消費(fèi)場(chǎng)景,或者是一定的用戶案例,其實(shí)是針對(duì)不同的用戶畫像,因?yàn)榇蠹以诋a(chǎn)品第一件事就是要去了解你的客戶人群是誰(shuí),你才會(huì)去做產(chǎn)品,而不是說(shuō)做了產(chǎn)品再去找客戶人群。 所以在我看來(lái)谷歌的產(chǎn)品主線,還是根據(jù)客戶人群、應(yīng)用場(chǎng)景去開(kāi)發(fā)和迭代它的模型和產(chǎn)品,思路其實(shí)是比較清晰的。

      與此同時(shí),谷歌也正在漸進(jìn)式地朝著“大而全”的智能體方向推進(jìn)。


      張宋揚(yáng) 亞馬遜AGI部門Applied Sci: 現(xiàn)在很多大公司都希望做一個(gè)大而全的模型,能夠支持不同的模態(tài),是一個(gè)端到端的生成模型,包括語(yǔ)音、包括圖片、包括視頻、包括文字甚至包括代碼,都希望做一個(gè)大而全的,因?yàn)檫@應(yīng)該更符合大家對(duì)智能的認(rèn)知。 但這是一個(gè)很大的框架,但在這個(gè)框架之下,我們可能需要針對(duì)每一種任務(wù)去進(jìn)行研究,比如先研究怎么去生成圖片,再怎么生成視頻。所以你會(huì)發(fā)現(xiàn),它們的模型是不同的團(tuán)隊(duì)在做,它們得先把某一個(gè)任務(wù)先突破了然后發(fā)布了一個(gè)產(chǎn)品,然后另外一個(gè)突破了再發(fā)一個(gè)產(chǎn)品。但我相信或者作為用戶的角度,我們肯定也是希望它能夠把這些模型融合在一起,這樣使用界面也更簡(jiǎn)潔。

      對(duì)于未來(lái)谷歌多模態(tài)的發(fā)展,大家目前普遍猜測(cè),谷歌或許會(huì)把更多的模型能力向Gemini融合,進(jìn)而面向普通用戶打造一個(gè)的多模態(tài)的超級(jí)流量入口。

      而如Imagen、Veo、Genie等模型未來(lái)則將繼續(xù)向縱深發(fā)展,主要為專業(yè)級(jí)的開(kāi)發(fā)提供服務(wù)。


      圖源:ai.google

      從Nano Banana,到一整套多模態(tài)矩陣,我們看到了谷歌過(guò)去一年多的加速爆發(fā)。在這場(chǎng)生成式AI的競(jìng)賽里,谷歌曾被質(zhì)疑掉隊(duì)。但現(xiàn)在,無(wú)論是圖像、視頻,還是虛擬世界和創(chuàng)作工作流,谷歌幾乎把所有環(huán)節(jié)都重新補(bǔ)齊。

      這種“連環(huán)拳”式的產(chǎn)品發(fā)布,似乎在向外界釋放出一個(gè)信號(hào):谷歌不只是在追趕,而是在試圖用一個(gè)完整矩陣去重新定義生成式AI的邊界。

      但問(wèn)題是,這樣的爆發(fā)能不能真正轉(zhuǎn)化為市場(chǎng)優(yōu)勢(shì)?在這場(chǎng)速度與創(chuàng)新的較量中,Nano Banana又能領(lǐng)先多久呢?

      歡迎在評(píng)論區(qū)告訴我們,你覺(jué)得谷歌的這波多模態(tài)大爆發(fā)如何,Nano Banana到底好不好用?

      另外,硅谷101將在9月11日下午于上海主持由特工宇宙和螞蟻集團(tuán)共同舉辦的見(jiàn)解論壇,感興趣的朋友可以查看下方信息進(jìn)行參與!


      視頻有視覺(jué)和音樂(lè)的加持,更能呈現(xiàn)出這些精彩的故事細(xì)節(jié)。 請(qǐng)?zhí)D(zhuǎn)至硅谷101【視頻號(hào)】收看完整版

      注:部分圖片來(lái)源于網(wǎng)絡(luò)

      【本期節(jié)目不構(gòu)成任何投資建議】

      【視頻播放渠道】

      國(guó)內(nèi):B站|騰訊|視頻號(hào)|西瓜|頭條|百家號(hào)|36kr|微博|虎嗅

      海外:Youtube

      聯(lián)系我們:video@sv101.net

      【創(chuàng)作團(tuán)隊(duì)】

      監(jiān)制|泓君 陳茜

      撰稿 |張珺玥

      編輯|陳茜

      主持|陳茜

      剪輯|橘子

      動(dòng)效|踹 AK12

      運(yùn)營(yíng)|王梓沁 孫澤平 何源清

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      俄國(guó)防部前副部長(zhǎng)薩多文科上將在莫斯科突然去世,享年56歲

      俄國(guó)防部前副部長(zhǎng)薩多文科上將在莫斯科突然去世,享年56歲

      山河路口
      2025-12-26 19:47:21
      女兒非親生!多部門勸放棄索賠,這種調(diào)解還被宣傳成經(jīng)典例子?

      女兒非親生!多部門勸放棄索賠,這種調(diào)解還被宣傳成經(jīng)典例子?

      你食不食油餅
      2025-12-25 23:26:55
      多地整治“世襲崗”,網(wǎng)友:都是交叉安置,換形式不變本質(zhì),為啥

      多地整治“世襲崗”,網(wǎng)友:都是交叉安置,換形式不變本質(zhì),為啥

      你食不食油餅
      2025-12-25 23:38:53
      2036年奧運(yùn)會(huì)舉辦地,有兩個(gè)國(guó)家很頭痛,一個(gè)中國(guó),另一個(gè)是印度

      2036年奧運(yùn)會(huì)舉辦地,有兩個(gè)國(guó)家很頭痛,一個(gè)中國(guó),另一個(gè)是印度

      扶蘇聊歷史
      2025-12-26 18:01:18
      26央視春晚再度官宣,出來(lái)一群“牛鬼蛇神”,他們不再被追捧

      26央視春晚再度官宣,出來(lái)一群“牛鬼蛇神”,他們不再被追捧

      小張帥
      2025-12-24 15:56:14
      前TVB花旦被前未婚夫溫暖舉動(dòng)感動(dòng),坦誠(chéng)有被愛(ài)感覺(jué):我覺(jué)得很甜蜜

      前TVB花旦被前未婚夫溫暖舉動(dòng)感動(dòng),坦誠(chéng)有被愛(ài)感覺(jué):我覺(jué)得很甜蜜

      TVB劇評(píng)社
      2025-12-26 18:03:06
      周大福回應(yīng)黃金牛馬吊墜陰陽(yáng)打工人

      周大福回應(yīng)黃金牛馬吊墜陰陽(yáng)打工人

      界面新聞
      2025-12-26 15:42:10
      WTCC首日:王欣瑜惜敗戰(zhàn)袍受好評(píng),絲襪復(fù)仇萊巴透露喜歡拼樂(lè)高

      WTCC首日:王欣瑜惜敗戰(zhàn)袍受好評(píng),絲襪復(fù)仇萊巴透露喜歡拼樂(lè)高

      網(wǎng)球之家
      2025-12-26 22:33:08
      已經(jīng)亡國(guó)49年,國(guó)王卻依舊健在,仍繼續(xù)號(hào)召同胞企圖復(fù)國(guó)

      已經(jīng)亡國(guó)49年,國(guó)王卻依舊健在,仍繼續(xù)號(hào)召同胞企圖復(fù)國(guó)

      芊芊子吟
      2025-12-26 21:50:02
      臺(tái)灣青年實(shí)拍!島內(nèi)隨處可見(jiàn)“臺(tái)灣省”車牌

      臺(tái)灣青年實(shí)拍!島內(nèi)隨處可見(jiàn)“臺(tái)灣省”車牌

      看看新聞Knews
      2025-12-25 15:17:01
      分手14年,再迎喜訊的劉詩(shī)雯,早已是張繼科“高攀不起”的存在

      分手14年,再迎喜訊的劉詩(shī)雯,早已是張繼科“高攀不起”的存在

      銀河史記
      2025-12-26 12:15:34
      江蘇一學(xué)生在校墜樓后已昏迷月余 公安及教育部門介入調(diào)查

      江蘇一學(xué)生在校墜樓后已昏迷月余 公安及教育部門介入調(diào)查

      封面新聞
      2025-12-26 19:01:04
      60:51!韓國(guó)瑜落錘,彈劾賴清德提案通過(guò),鄭麗文有個(gè)擔(dān)憂或成真

      60:51!韓國(guó)瑜落錘,彈劾賴清德提案通過(guò),鄭麗文有個(gè)擔(dān)憂或成真

      南宮一二
      2025-12-26 15:40:37
      廣東3消息!徐杰破紀(jì)錄,宏遠(yuǎn)確定回購(gòu)徐昕,崔永熙更新復(fù)出時(shí)間

      廣東3消息!徐杰破紀(jì)錄,宏遠(yuǎn)確定回購(gòu)徐昕,崔永熙更新復(fù)出時(shí)間

      多特體育說(shuō)
      2025-12-26 22:48:23
      廣州恒大給9歲萬(wàn)項(xiàng)開(kāi)合同!違約金1億 董路驚了:以為最多500萬(wàn)

      廣州恒大給9歲萬(wàn)項(xiàng)開(kāi)合同!違約金1億 董路驚了:以為最多500萬(wàn)

      念洲
      2025-12-26 19:09:49
      北京某國(guó)企設(shè)計(jì)院:兩年多沒(méi)發(fā)工資了!

      北京某國(guó)企設(shè)計(jì)院:兩年多沒(méi)發(fā)工資了!

      黯泉
      2025-12-26 22:16:11
      一大早,被群毆兩次的女人!

      一大早,被群毆兩次的女人!

      鈞言堂
      2025-12-25 09:42:17
      “大傻”去世14年后,兒子入獄孫子身亡:有件事他騙了我們好多年

      “大傻”去世14年后,兒子入獄孫子身亡:有件事他騙了我們好多年

      小熊侃史
      2025-12-26 11:26:05
      1981年,華國(guó)鋒并未辭去所有職位,仍留著一個(gè)關(guān)鍵職務(wù)直到2002年

      1981年,華國(guó)鋒并未辭去所有職位,仍留著一個(gè)關(guān)鍵職務(wù)直到2002年

      賈文彬的史書
      2025-12-25 17:28:15
      姜昆翻車,美國(guó)境內(nèi)唱紅歌,早年抵制洋節(jié)掛在嘴邊,回應(yīng)未移民!

      姜昆翻車,美國(guó)境內(nèi)唱紅歌,早年抵制洋節(jié)掛在嘴邊,回應(yīng)未移民!

      你食不食油餅
      2025-12-26 06:13:35
      2025-12-27 01:03:00
      硅谷101 incentive-icons
      硅谷101
      從這里駛向未來(lái)
      134文章數(shù) 102關(guān)注度
      往期回顧 全部

      科技要聞

      收割3000億!拼多多"土辦法"熬死所有巨頭

      頭條要聞

      老人婚宴上被提醒孫女非親生 做鑒定后忍3年忍不了了

      頭條要聞

      老人婚宴上被提醒孫女非親生 做鑒定后忍3年忍不了了

      體育要聞

      開(kāi)翻航母之后,他決定親手造一艘航母

      娛樂(lè)要聞

      王傳君生病后近照變化大,面部浮腫

      財(cái)經(jīng)要聞

      投資巨鱷羅杰斯最新持倉(cāng):只留四種資產(chǎn)

      汽車要聞

      兩大CEO試駕 華為乾崑*啟境開(kāi)啟首款獵裝轎跑路測(cè)

      態(tài)度原創(chuàng)

      房產(chǎn)
      時(shí)尚
      健康
      教育
      旅游

      房產(chǎn)要聞

      炸裂,三亞360億超級(jí)清單發(fā)布,又一批重大配套要來(lái)了!

      我們?yōu)槭裁葱枰?jié)日穿搭?

      這些新療法,讓化療不再那么痛苦

      教育要聞

      鼓樓熱門民辦動(dòng)了!2026小升初最新消息

      旅游要聞

      多家博物館公告:暫停開(kāi)放

      無(wú)障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 人妻丰满熟妇av无码区波多野| 一本大道久久香蕉成人网| 国产亚洲精品久久久久蜜臀| 波多野结衣二区| 四虎在线视频| 钦州市| 少妇特殊按摩高潮惨叫无码| 人妻熟女一区二区三区app下载| 99久久激情国产精品| 3Pav图| 国产精品高潮呻吟久久| 亚洲欧美另类久久久精品播放的| 国产精品99久久久久久成人| 大香蕉久久综合| 亚洲人成网站色7799| 欧美肥妇bwbwbwbxx| 中文字幕人妻中文AV不卡专区| 亚洲无码色| 亚洲一本在线| 牛牛视频一区二区三区| 99无码中文字幕视频| 成人小说一区二区三区| 临安市| 92成人午夜福利一区二区| 91人妻丰满熟妇Aⅴ无码| 蜜桃91精品秘?入口| 色中色中文字幕| 亚洲 丝袜 另类 校园 欧美 | 亚洲综合av色婷婷| 成人国产乱对白在线观看| 污污内射在线观看一区二区少妇| 色综合天天综合网国产成人网| 少妇人妻偷人精品视蜜桃| 国产95在线 | 欧美| 国产偷伦| 精品av无码国产一区二区| 亚洲无码性爱| 久久麻豆精品| 无码国内精品久久人妻中文成人| 国内老熟妇对白hdxxxx| 久久精品国产亚洲av麻豆小说|