在Google的Banana淫威之下。
OpenAI憋了很久之后,終于把他們的圖片生成模型給掏出來了。
![]()
看一下他們的宣傳視頻。
突然想起了今年3月26號(hào)的時(shí)候,OpenAI第一次掏出GPT-4o的生圖模型,也就是GPT Image 1.0,然后同天,Google發(fā)布了 Gemini 2.5 Pro,事后看,Gemini 2.5 Pro肯定是一個(gè)偉大的模型。
但是那一天的時(shí)候,在整個(gè)X上、各種群里,大家討論的全部是GPT-4o。
那時(shí)候,我們說, 1.5 Pro被Sora淹,2.5 Pro被4o淹。
結(jié)果半年過去,風(fēng)水輪流轉(zhuǎn),現(xiàn)在屬于OpenAI天天被Google摁在地上打。。。
所以這一次,不是傳聞中的GPT Image 2.0,跟Nano Banana Pro一樣,用了一個(gè)小版本號(hào)去升級(jí),用了1.5。
有一種感覺,就是怕被Google打臉。。。
半年前,OpenAI意氣風(fēng)發(fā),誰能想到,如今是這樣的結(jié)局。
跟隨著新模型的上線,ChatGPT上,也上了一個(gè)全新的圖像界面。
![]()
點(diǎn)開以后,是這個(gè)樣子的。
就是這個(gè)粉粉的背景色,放在深色模式下,真的不好看。
![]()
OpenAI其實(shí)明顯感覺到,在C端體驗(yàn)上,做的確實(shí)還是比Google更上心,把風(fēng)格和部分的快捷指令,單獨(dú)拎了出來。
比如我們選中這個(gè)躺曲奇風(fēng)格。
![]()
在點(diǎn)擊以后,會(huì)彈出一個(gè)彈窗,讓你選擇最近你發(fā)給ChatGPT的圖片,或者上傳一個(gè)圖片。
![]()
我就傳了了我的那個(gè)AI固定模特染夏,就是那個(gè)粉頭發(fā)的妹子。
![]()
然后,他真的,就把我的圖片,和這一段默認(rèn)的Prompt,直接以對(duì)話的形式,發(fā)給了ChatGPT。
說實(shí)話,這個(gè)交互設(shè)計(jì)的體驗(yàn)真的并不是很好,各個(gè)界面跳來跳去,非常混亂。。。
不過生成的速度確實(shí)比之前有提升,測(cè)了一下,在ChatGPT上,大概40s到1分鐘不等。
在這個(gè)時(shí)間之后,你就能得到一個(gè),糖曲奇風(fēng)格的小圖了。
![]()
當(dāng)然,還有毛絨玩具風(fēng)格的。
![]()
除了快速轉(zhuǎn)風(fēng)格之外,也有一些快捷的操作預(yù)設(shè)。
比如創(chuàng)建專業(yè)產(chǎn)品照片、拍攝專業(yè)求職照片等等。
![]()
交互也都是一樣的,點(diǎn)開以后,傳圖,選擇。
比如,給染夏做一張,專業(yè)求職照片。
![]()
做出來的效果,確實(shí)也挺真誠。
![]()
也可以,直接用模板,變成名畫。
![]()
就是這個(gè)臉部,缺失了一些筆觸的風(fēng)格,變得過于平整了。
而模型本體能力上,在我測(cè)了一夜之后,還是發(fā)現(xiàn)有些比較可圈可點(diǎn)比較好玩的地方。
這次,我想讓X個(gè)跟Nano Banana Pro直接對(duì)比的案例,讓大家直觀的感受一下,他的特點(diǎn)和邊界,以及跟Nano Banana Pro孰強(qiáng)孰弱。
一. 信息準(zhǔn)確性
文字準(zhǔn)確性,絕對(duì)是現(xiàn)在的多模態(tài)AI繪圖模型,大家最為關(guān)注的。
所以,我們首先開始,肯定先看這個(gè)。
Prompt:生成一張桌面月歷照片,標(biāo)題必須逐字 "2026年2月",下方是標(biāo)準(zhǔn)7列表格(日一二三四五六)并填入日期1–28,要求網(wǎng)格對(duì)齊、數(shù)字清晰,除標(biāo)題與日期外不加其他字。
![]()
左邊是GPT Image 1.5,右邊是Banana Pro。
上來第一個(gè)case,GPT就拉了坨大的,我要求是只寫到28,Banana精準(zhǔn)的執(zhí)行了任務(wù),所有的數(shù)字都是對(duì)的,但是GPT在寫到28后沒有停止,又重復(fù)了一個(gè)28,然后寫了29和31,這就是完全的錯(cuò)誤了。
Prompt(來自@卡爾的AI沃茨):生成一張3:4的圖片,畫面上方用書法寫著一首完整的《茅屋秋風(fēng)所破歌》,內(nèi)容是【完整全文】,每個(gè)字上方都要標(biāo)注上漢語拼音,同時(shí)畫面內(nèi)容主要用水墨畫的形式展示這首詩所表達(dá)的情景。
![]()
兩邊各有各的拉,GPT你完全不不知道他在寫個(gè)啥,中文完全崩成了一坨跟鬼畫符一樣。右邊中文倒是寫的很不錯(cuò),只有個(gè)別字拉了,但是不知道為什么Prompt要求的是上面掛拼音,寫著寫著就腦袋頂上就掛了個(gè)中文字?而且排版確實(shí)不好看。
Prompt:為我生成蘇繡工藝的詳細(xì)解說圖,配上詳細(xì)的中文知識(shí)解析。
![]()
GPT的中文字翻車的比較狠,而且信息圖的展示沒有Banana清晰,有很多無關(guān)內(nèi)容硬生生的塞進(jìn)去了。
Prompt:這個(gè)模特的Instagram動(dòng)態(tài)界面,3:4。
這里我是把染夏的照片扔過去了。
![]()
GPT完全沒有畫出 Instagram上任何信息,emoji還畫錯(cuò)了,Banana對(duì)界面的理解畫的非常的精準(zhǔn),雖然人物一致性上有很多問題,但是在信息準(zhǔn)確性上,還是要強(qiáng)出好幾個(gè)檔次。
綜合來看,在信息準(zhǔn)確性上,GPT Image 1.5,確實(shí)是不如Banana Pro,而在中文字上,有非常明顯的差距,Banana Pro的中文字還是很穩(wěn)的。
二. 真實(shí)質(zhì)感
這一趴,來看直接生成的照片質(zhì)感,看看誰的效果更加的真實(shí)。
Prompt:年輕白皙膚色的年輕女性肖像照:皮膚帶自然紅暈、鼻子與臉頰無雀斑。短款灰褐色波波頭,中分層次,幾縷松散發(fā)絲垂在臉側(cè);淺棕色眼睛、卷曲睫毛、飽滿有光澤的粉色嘴唇,鼻中隔穿刺。表情俏皮淘氣:眨一只眼、吐舌頭、可愛搞怪。保留她皮膚/面部/手部可見的原始紋身細(xì)節(jié)。她隨意坐在吧臺(tái)凳上,穿黑色背心,外搭淺藍(lán)/白/黑格紋法蘭絨襯衫(敞開或披著),下穿牛仔迷你裙,系小黑色腰帶。左手自然下垂,手里夾著一支點(diǎn)燃的香煙。場(chǎng)景為昏暗的戶外或半戶外酒吧/酒館/夜店:石質(zhì)或金屬質(zhì)感的圓桌與吧凳;桌上有一只裝滿飲料的玻璃杯、一個(gè)玻璃水壺、以及一包香煙(Gudang Garam Surya 16)。背景虛化,隱約可見坐著的人與夜晚氛圍燈光。拍攝為高角度俯拍(從上往下看主體),強(qiáng)烈直射閃光燈,人物后方產(chǎn)生銳利陰影,皮膚明亮略微過曝。整體風(fēng)格:隨手快照、Y2K 美學(xué)、街頭風(fēng)、垃圾搖滾、閃光攝影。3:4,真實(shí)膠片質(zhì)感、輕微噪點(diǎn)、淺景深。
![]()
語義理解這兩家確實(shí)都很強(qiáng),提到的所有元素幾乎全部實(shí)現(xiàn)了,在質(zhì)感上,GPT的圖會(huì)更加AI更加油膩一些,Banana Pro會(huì)更真實(shí)一點(diǎn)。
Prompt:生成一張照片級(jí)抓拍:一位年邁水手站在小漁船上整理漁網(wǎng),旁邊有一只狗安靜坐著。要求可見真實(shí)皮膚紋理(皺紋、毛孔、日曬痕)、衣物磨損與鹽漬;自然海邊日光。鏡頭語言:50mm,中近景,平視,淺景深,輕微膠片顆粒;不擺拍、不精修;3:4。
![]()
這兩家基本打個(gè)平手,但是GPT的飽和度和對(duì)比度總是更強(qiáng)一些,Banana Pro會(huì)更日常一些。
Prompt:生成一張照片級(jí)真實(shí)抓拍:演出后臺(tái)化妝間。 場(chǎng)景: 一排帶燈泡的化妝鏡,桌面有散亂的化妝刷、發(fā)夾、水杯、紙巾; 光源為鏡前燈泡(暖)+室內(nèi)頂燈(中性),混合光真實(shí)。 主體: 至少6位演員/工作人員: 前景:一位坐著化妝,化妝師在旁邊補(bǔ)妝(手部動(dòng)作清楚); 中景:兩位在整理衣服與耳返; 鏡子里必須能看到與現(xiàn)實(shí)一致的反射(人數(shù)、姿態(tài)、位置匹配,不能憑空多出人或少人)。 攝影參數(shù)/構(gòu)圖: 50mm,f/1.8,1/160s,ISO 2500;中近景;淺景深。
![]()
GPT還是那個(gè)問題,對(duì)比度和飽和度都有點(diǎn)高,整體色彩會(huì)看著有一點(diǎn)AI感,整體上,我個(gè)人還是喜歡Banana Pro的質(zhì)感一些。
更為自然。
三.精準(zhǔn)編輯
測(cè)一下用嘴改圖的能力,這次GPT不是說,自己的精準(zhǔn)編輯能力更強(qiáng)了嗎。
第一個(gè)case就是換內(nèi)容。
比較簡單。
比如,把這個(gè)發(fā)布會(huì)的奧特曼,替換成染夏。
![]()
效果是這樣的。
![]()
從光影感覺,人物比例和透視,Banana Pro更勝一籌,第一個(gè)的燃夏身上的衣服的光影明顯就不對(duì),然后明明是個(gè)圓桌,染夏是更靠近鏡頭的,所以肯定會(huì)顯得大一點(diǎn),原來的奧特曼也是這樣,這就是最基本的近大遠(yuǎn)小。
但是GPT做的圖,你會(huì)發(fā)現(xiàn),染夏跟中間的老哥直接平齊了,沒有前后關(guān)系了。
然后就是更復(fù)雜一點(diǎn)的,跨畫風(fēng)做替換,還替換天氣。
![]()
圖1的人物的衣服替換成圖2角色的衣服,其他不變。天氣變成小雨,3:4。
![]()
這時(shí)候,兩邊的處理差距就挺大了。
![]()
雖然Banana的人臉保持也有一點(diǎn)問題,不太像了,但是整體肯定是比GPT要好的,我只替換服裝,然后下雨,沒讓你把畫風(fēng)和色調(diào)也遷移過去啊。
還有換衣服。
比如我想給染夏的這張照片,換一些別的服裝。
![]()
結(jié)果是這樣。
![]()
GPT直接把我衣服改了,變成了還有一件內(nèi)搭,這個(gè)肯定不對(duì)的,Banana Pro是正確的。
還有一個(gè)@-Zho-佬的Prompt,就是讓3個(gè)角色,用夸張的造型合影。
我找了3個(gè)角色。
![]()
Prompt: 三人在 鏡前 頂視角 擺出夸張姿勢(shì)合影。
![]()
有一說一,這張整體的構(gòu)圖和感覺,我覺得GPT更好一點(diǎn),GPT只丟了鏡前這一個(gè)信息,但是Banan Pro丟了頂視角和鏡前兩個(gè)信息,而且姿勢(shì)也沒那么夸張。
綜合來看,我覺得整體上,還是Banana在一致性、精準(zhǔn)度上,還是會(huì)更甚一籌。
四. 世界知識(shí)
我最喜歡的一個(gè)案例,就還是海賊王排名。
![]()
這塊從設(shè)計(jì)角度來說,確實(shí)左邊的GPT會(huì)更有張力,包括風(fēng)格上,也更好看,戰(zhàn)力的排序我就不多說了,這個(gè)見仁見智,但是就是有一個(gè)非常明顯的知識(shí)錯(cuò)誤,就是第十名,紅犬庫贊是什么鬼???
人叫赤犬,真名叫薩卡斯基。庫贊是青雉。。。這就是完全的錯(cuò)誤了。
右邊目前看著沒啥硬傷,頭像都能對(duì)得上。
還有一個(gè)@卡爾的AI沃茨的Prompt,也很有意思:
用一組圖,描繪公元前260年5月至10月之間,東經(jīng)112°41到113°09′,,北緯35°39′到35°59′ 發(fā)生的事情,并給出詳細(xì)的信息圖,圖上要用中文說明發(fā)生了什么事情,以及結(jié)果的重要信息。
![]()
這個(gè)地方呢,讓GPT-5.2自己來判斷一下。
它自己說:
![]()
我選Banana Pro。。。
不過坦率的講,差距并不大,至少不會(huì)有錯(cuò)誤。
還有一個(gè)非常搞的。
Prompt:創(chuàng)建一個(gè)包含以下內(nèi)容的正方形圖像:一只手有七根手指,一面顯示時(shí)間為8:22的掛鐘,一杯裝滿紅酒的玻璃杯。
![]()
這塊是讓我非常驚喜的,GPT Image 1.5把時(shí)間畫對(duì)了,除了那個(gè)時(shí)針應(yīng)該在上去一點(diǎn),分針是正確的,然后7根手指,畫成了6根手指。
而Banana Pro,在這地方就翻了個(gè)大車,手和始終全部失敗了。
所以,在世界知識(shí)這塊,我覺得還是比較能打個(gè)平手的,各有勝負(fù)。
花了一個(gè)通宵的時(shí)間,把GPT Image 1.5測(cè)了個(gè)大概。
不算差,但是肯定也不能說是特別好,跟Banana Pro比,在很多地方,還是有一些不足的。
而且自從3月份發(fā)布,OpenAI憋了半年,才憋出來個(gè)這個(gè)。
而Google,最恐怖的是,Gemini 2.5的畫圖,花了3個(gè)月進(jìn)化到了Banana,Banana又花了3個(gè)月,進(jìn)化成了Banana Pro。
這家公司的進(jìn)化速度,還是太恐怖了。
Google,不愧是現(xiàn)如今,AI的王。
這次,該輪到OpenAI,奮起直追了。
以上,既然看到這里了,如果覺得不錯(cuò),隨手點(diǎn)個(gè)贊、在看、轉(zhuǎn)發(fā)三連吧,如果想第一時(shí)間收到推送,也可以給我個(gè)星標(biāo)?~謝謝你看我的文章,我們,下次再見。
>/ 作者:卡茲克
>/ 投稿或爆料,請(qǐng)聯(lián)系郵箱:wzglyay@virxact.com
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.