![]()
![]()
出品|搜狐科技
作者|常博碩
編輯| 楊 錦
美國當?shù)貢r間4月21日,OpenAI正式發(fā)布新一代圖像生成模型ChatGPT Images 2.0(以下簡稱 Images 2.0)。
OpenAI首席執(zhí)行官山姆·奧特曼在直播中將此次更新描述為從“穴居人壁畫”向“文藝復興”,他表示這次的進步程度可以類比為從GPT-3到GPT-5的飛躍。此次,Images 2.0一發(fā),直接鞏固了OpenAI 在創(chuàng)意生成領域的領導地位。
在此之前,谷歌的Nano Banana 2(即 Gemini 3.1 Flash Image)和Anthropic的Claude Design基本占據(jù)了生圖的大部分市場。雖然多模態(tài)模型的能力一直在進步,但AI圖像生成長期以來還是面臨文字渲染能力不足、物理邏輯缺失等問題。但現(xiàn)在,這些問題在Images 2.0面前,統(tǒng)統(tǒng)不算問題了。
![]()
馬斯克看見都要嚇一跳
在Images 2.0正式發(fā)布前,OpenAI就曾以 maskingtape-alpha、gaffertape-alpha 和 packingtape-alpha 為代號在LM Arena平臺進行了秘密的灰度測試,當時模型的早期表現(xiàn)就已經(jīng)能稱得上驚人了。
搜狐科技對正式版本進行了深入實測,模型確實在多個關鍵維度上實現(xiàn)了生產(chǎn)力級別的突破。
![]()
沒錯,這是一張在Images 2.0生成的微博熱搜圖。在DALL-E3和GPT Image 1.5時代,面對長句子、復雜排版或特定字體要求時,模型經(jīng)常會出現(xiàn)筆畫扭曲和拼寫錯誤,尤其是涉及中文,直接就變成“鬼畫符”,但現(xiàn)在Images 2.0徹底打破了這一瓶頸。
沒錯,搜狐科技和搜狐科技年度論壇就這樣“水靈靈”地喜提熱搜了。
不過從圖片生成的內(nèi)容來看,信息更新得并不是很及時,知識依然停留在去年。
Images 2.0的細節(jié)表達與控制能力也十分優(yōu)秀。比如,我們可以試著生成一堆大米,但是要求其中一粒米上刻著“GPT Image 2”,大小剛好能容納在這粒米上。
![]()
當你將圖片放大,就會發(fā)現(xiàn)上面刻著清晰的“GPT Image 2”。
![]()
官方表示,在 API 中,其輸出分辨率最高可達 2K,也就是說對于設計工作者,直接可以拿來即用了。
甚至,我們可以讓它生成一張抖音視頻截圖。
![]()
這個逼真程度,只能用恐怖來形容了。如果仔細看的話我們會發(fā)現(xiàn)右上角的運營商標識處有一點模糊,馬斯克的頭像好像也有點奇怪,但這些小細節(jié)其實完全不影響圖片整體效果。
如果乍一看,馬斯克來了可能都要嚇一跳。
除此之外,我們還可以生成一些細節(jié)更豐富的圖片,比如“用手機拍攝一張寫實風格的手寫文章照片,文章是用鉛筆寫的,字跡粗獷而優(yōu)雅,但略顯凌亂不均,寫在一張 8.5x11 英寸的橫格紙上,內(nèi)容是關于多倫多棒球的歷史。確保字跡呈現(xiàn)出非常自然的變化。在右上角添加一點咖啡漬。”
![]()
這個效果,第一眼完全看不出來是AI生圖啊!
![]()
穩(wěn)穩(wěn)接住多語言和不同風格
除此之外,Images 2.0還擁有強大的多語言理解能力,在日語、韓語、中文、印地語和孟加拉語方面,它不僅能正確渲染帶有非英語文本的圖像,還能使語言流暢連貫。
![]()
像這樣的韓國海報,或者是一張中文漫畫,都可以一次性生成。
![]()
這張官方海報實在是太搞笑了,原來官方一直都知道ChatGPT喜歡用“穩(wěn)穩(wěn)接住”這種油膩詞匯。
另外,漫畫中的男生的原型其實是OpenAI研究科學家陳博遠,江蘇人,本科畢業(yè)于伯克利,后于麻省理工取得博士學位。陳博遠的研究側(cè)重于世界模型、具身智能和強化學習,也是為數(shù)不多的從事訓練GPT圖像生成模型的研究者之一。
除此之外,在中文測試中,模型生成的漢字還能夠根據(jù)需求切換宋體、黑體或手寫體等多種風格。
在視覺風格上,Images 2.0也能夠更好地捕捉照片的特征,包括一些增加真實感的細微瑕疵同時在紋理、光照、構圖和細節(jié)方面保持更高的一致性。據(jù)官方表示,,模型能夠生成更真實反映用戶所需風格的輸出。這對于游戲原型設計、故事板繪制、營銷創(chuàng)意等類型的素材創(chuàng)作尤為有用。
搜狐科技也試著讓它生成了一張塞爾達風格的北京景點地圖,在只有一句話指令的情況下,模型生成圖片的細節(jié)依然很不錯。
![]()
還有在官方給出的示例中,讓模型生成一張2015年UBC 的一個階梯教室里,一位教授正在展示關于GPT image 2和照片級真實感圖像的幻燈片。幻燈片上,教授正在展示關于 GPT image 2的幻燈片,如此循環(huán)往復,永無止境。
![]()
可以看到,圖像在還原內(nèi)容之外,還能精準復刻我們想要的老照片的風格。
實測表明,Images 2.0徹底移除了GPT Image 1.5時代飽受詬病的“AI黃”現(xiàn)象。新模型的色彩表現(xiàn)更加趨向于中性與真實。在生成閃光燈下的人像攝影、電影感劇照以及極簡主義建筑圖時,暗部細節(jié)的處理非常扎實,不再出現(xiàn)那種過度銳化或色彩溢出的數(shù)碼味。
同時,模型對于手部、關節(jié)、陰影反射的刻畫也達到了極高的精細度,手指的比例與肌肉紋理能夠展現(xiàn)得更加自然。此外,模型還引入了細微的寫實瑕疵,比如皮膚上的汗毛、衣物的細碎褶皺或環(huán)境中的微塵,這些細節(jié)反而增強了圖像的沉浸感 。
![]()
會思考的生圖模型
為了應對最復雜的任務,Images 2.0 還具備思考能力。當在 ChatGPT 中選擇thinking或 pro 模式時,Images 2.0可以調(diào)用網(wǎng)絡獲取實時信息,從一個提示中生成多個不同版本的圖像,并對自身輸出進行二次檢查。
以往, AI生成模型很難維持同一角色或場景在多張圖像中的一致性。但現(xiàn)在,通過“思維模式”,模型可以一次性生成8張具有視覺連續(xù)性的圖像。同時,支持從3:1橫幅寬圖到1:3豎版長圖,覆蓋Twitter橫幅、Instagram Stories、LinkedIn方圖、手機壁紙等主流尺寸。
也就是說,如果想一次性生成適配不同平臺的海報或者封面,只需要和模型對話一次就可以了,不需要再像之前一樣重復交互。
Images 2.0也已打通至Codex工作區(qū),開發(fā)者無需單獨配置 API 密鑰,即可在同一環(huán)境中完成設計生成與開發(fā)落地。API 側(cè)由 gpt-image-2 提供支持,面向本地化營銷素材、信息可視化以及教育內(nèi)容等企業(yè)級需求。
雖然很厲害,但Images 2.0也并不是沒有缺陷。
目前,折紙步驟圖、魔方展開圖這類需要完整物理世界模型的任務對它來說還是比較困難的,還有對于那些需要在被遮擋、傾斜或反向表面上準確呈現(xiàn)的細節(jié),生圖也并不準確。
還有就是像細沙粒這樣非常密集或重復的視覺細節(jié),官方也承認這種細節(jié)超出了模型的處理能力。
回看Open AI在多模態(tài)上的探索,GPT-4o解決了理解和輸入輸出統(tǒng)一的問題,讓AI不再只是把文字翻譯成圖片,具備了跨模態(tài)的統(tǒng)一邏輯。Images 2.0則解決的是確定性問題。創(chuàng)作者不需要抽卡,而是需要 AI 聽指揮、能改細節(jié)、能直接用于商業(yè)工作流,真正實現(xiàn)可控、可用甚至可交付。
OpenAI正在向全球創(chuàng)作者宣告,AI生圖正式轉(zhuǎn)變?yōu)橐豁椖軌蚶斫鈴碗s意圖、完成專業(yè)視覺任務的生產(chǎn)力支柱。
![]()
![]()
運營編輯 |曹倩審核|孟莎莎
![]()
![]()
![]()
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.