最初爆火的Nano Banana正式發(fā)布了,果然是谷歌新出的大模型 Gemini 2.5 Flash Image !
可以說(shuō),繼Gemini 2.5、Veo 3實(shí)現(xiàn)多模態(tài)推理、視頻音畫(huà)同步的『 TIP 』后,2.5 Flash Image又實(shí)現(xiàn)了AI 圖像創(chuàng)作一致性、真實(shí)性的新高度!
一開(kāi)始是網(wǎng)友在 LMArena 這個(gè)網(wǎng)站上, 玩讓不同的 AI 模型隱去名字,互相比拼的“AI 對(duì)戰(zhàn)” 能力,發(fā)現(xiàn)有個(gè)叫 Nano Banana 的模型非常出色,人物一致性做的比任何圖像大模型都強(qiáng)!
在以往,圖像生成模型在圖像美感方面表現(xiàn)出色,但缺乏對(duì)現(xiàn)實(shí)世界的深度語(yǔ)義理解。而 Gemini 2.5 Flash Image則能夠讀取和理解手繪圖表、幫助解答實(shí)際問(wèn)題以及一步完成復(fù)雜編輯指令的能力。
現(xiàn)在該模型可以在Gemini和Google AI Studio上免費(fèi)使用,同時(shí)API以每張圖像0.039$(折合人民幣0.28¥)的價(jià)格開(kāi)放。
鯨哥對(duì)它進(jìn)行了一些實(shí)際測(cè)試,總的來(lái)說(shuō),它的表現(xiàn)只能用Niubility來(lái)形容,AI對(duì)真實(shí)圖片的PS,已經(jīng)達(dá)到了以假亂真的地步。
首先測(cè)試的是圖片生成3D手辦的測(cè)試,將歐豪和海清的原圖放進(jìn)去,經(jīng)典梗:你是我的神!不知大家記得不。然后告訴AI提示詞。
提示詞:把這張照片變成一個(gè)人物模型。在它后面放一個(gè)印有人物圖像的盒子,以及一臺(tái)顯示 Blender 建模過(guò)程的電腦。在盒子前面放一個(gè)圓形塑料底座,人物模型就站在上面。場(chǎng)景設(shè)置在室內(nèi)。Google:你是我的神!
再繼續(xù)測(cè)試,讓 角色互換 ,歐豪和海清位置互換,其他動(dòng)作和場(chǎng)景一點(diǎn)都不變,生成的圖片也沒(méi)有絲毫違和感。不過(guò)原圖清晰度(梗圖太老了),其實(shí)還是影響了生成的結(jié)果。
接下來(lái)測(cè)試,給阿姨做了不同的 風(fēng)格變換 ,有慕夏繪畫(huà)、流行波普、孟菲斯、藍(lán)線技術(shù)等風(fēng)格。不同風(fēng)格中,人物一致性得到了高度統(tǒng)一。
它的無(wú)縫融合多張圖片的能力,也是Gemini 2.5 Flash Image的最強(qiáng)能力之一。
最近即時(shí)零售大戰(zhàn),送外賣補(bǔ)貼比較多。我們讓馬斯克騎著電動(dòng)車去送外賣。。。
提示詞:讓圖片中的男性馬斯克,在老居民小區(qū)里面,帶著美團(tuán)的頭盔,騎電動(dòng)車送外賣。我們可以看見(jiàn)圖片中的馬斯克帶上了某團(tuán)的頭盔,騎著特定的電動(dòng)車在老巷子里送外賣,人物頭像沒(méi)有變臉,姿勢(shì)和光線的一致性恰到好處。
據(jù)野史記載,秦始皇曾在南極騎著北極熊,"有圖有真相",這個(gè)網(wǎng)絡(luò)熱梗不知道大家有沒(méi)有聽(tīng)說(shuō)過(guò),在這里,我們也測(cè)試一下它能不能將兩張完全不是一個(gè)平面的照片合在一起。
提示詞:根據(jù)圖片,合成一張秦始皇騎北極熊的圖片,要求整體保持一致的和諧。秦始皇還真騎上了北極熊......兩張圖完全不在一個(gè)維度,但硬是拼出了和諧畫(huà)面,雖然有點(diǎn)違和但不多。
將多人放在同一照片中合照的測(cè)試,這個(gè)很考驗(yàn)?zāi)P蛯?duì)細(xì)節(jié)的還原。
生成的圖片中,不管是人物的穿搭搭配還是動(dòng)作表情,都非常的和諧,人物站位也有前后的順序調(diào)整,這是實(shí)拍照片嗎?AI已經(jīng)讓我傻掉了。
隨后測(cè)試了,在不同姿勢(shì)中保持人物形象的一致性。
提示詞:將圖中的女性360度旋轉(zhuǎn),展示她的左側(cè)、后側(cè)、右側(cè),保持衣服,發(fā)型,五官,人物特點(diǎn)的一致。圖片中的女性四方位圖,不管是體型還是表情都沒(méi)有變化,椅子的朝向也跟隨著人物的變化而變化,只在右側(cè)圖中,手勢(shì)和放腳的地方變了。
不知道大家有沒(méi)有看最近爆火的《浪浪山小妖怪》,小孩看是喜劇,大人看是職場(chǎng)諷刺。我讓它基于四個(gè)動(dòng)漫角色生成不同表情包。
提示詞:給圖片中的四個(gè)動(dòng)漫角色生成四張不同的表情包每張都保持了角色一致性,表情豐富多樣,完美做成表情包套裝。國(guó)外有人擴(kuò)展到10張不同風(fēng)格,意義各異,還挺有創(chuàng)意的。 這功能對(duì) meme 愛(ài)好者來(lái)說(shuō)是福音,但如果角色太復(fù)雜,偶爾會(huì)丟點(diǎn)細(xì)節(jié)。
鯨哥再測(cè)試使用提示詞進(jìn)行圖片精準(zhǔn)的調(diào)整,給幾百年沒(méi)穿衣服的大衛(wèi)和沒(méi)有手臂的維納斯,分別穿上西裝和長(zhǎng)出手臂。
提示詞:給大衛(wèi)和維納斯穿上衣服,給大衛(wèi)穿上一件高級(jí)感的西裝,黑色有質(zhì)感的西裝,系著一個(gè)紅色的領(lǐng)結(jié),穿著一雙棕色的皮鞋,手里捧著一束紅玫瑰花束。讓維納斯長(zhǎng)出雙手,給給她穿上一件漂亮的大拖尾婚紗。大衛(wèi)穿上西裝后變瘦了,這就是“穿衣顯瘦,脫衣有肉”的真實(shí)寫(xiě)照嗎,維納斯也長(zhǎng)出了手臂,身穿白色禮服站在那里。這種提示詞編輯很方便,能局部改姿勢(shì)、加顏色或去污漬,但有時(shí)會(huì)過(guò)度平滑或忽略小指令。
最后測(cè)試的是 風(fēng)格遷移 的能力,我讓它把一張普通圖轉(zhuǎn)成吉卜力風(fēng)格插畫(huà),要求保持原圖核心又突出吉卜力辨識(shí)度。
提示詞:請(qǐng)將提供的圖片轉(zhuǎn)換為吉卜力工作室風(fēng)格的插畫(huà),具有明顯的吉卜力風(fēng)格辨識(shí)度,又不影響原圖核心內(nèi)容的呈現(xiàn)。圖片顏色柔和、細(xì)節(jié)夢(mèng)幻,卻沒(méi)丟原意。X上還有人用它轉(zhuǎn)老照片成彩色高清,還修復(fù)污損,效果都很驚艷。
總而言之:
Gemini 2.5 Flash Image的核心功能是 根據(jù)文本提示生成細(xì)節(jié)豐富的圖片、無(wú)縫融合多張圖片、在不同編輯中保持人物形象的一致性,以及使用自然語(yǔ)言進(jìn)行精準(zhǔn)的調(diào)整,例如更換服裝或場(chǎng)景。它甚至還具備多模態(tài)智能,你可以混合文本和圖片,獲得意想不到的效果。此外,它還內(nèi)置了水印等安全功能,可以識(shí)別 AI 生成的內(nèi)容。
毫無(wú)疑問(wèn),Gemini 2.5 Flash Image 會(huì)是一款顛覆性的快速創(chuàng)意圖像處理工具——速度快、價(jià)格實(shí)惠(例如每張圖片 0.039 美元)以后將取代很多PS任務(wù)。
如果您對(duì) AI 圖片編輯感興趣,不妨試試它!歡迎在底下評(píng)論區(qū)交流!
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.