文:城主
上周,AI繪畫領(lǐng)域一顆重磅炸彈突然降臨: Stability AI發(fā)布了備受期待的Stable Diffusion 3.0(簡稱SD3)。消息一出,整個(gè)AI繪畫圈為之轟動。一周后,官方放出了一篇詳盡的技術(shù)論文,闡述了SD3實(shí)現(xiàn)突破性進(jìn)展的底層原理,但同時(shí)也引發(fā)了一連串疑問: SD3能否在RTX 4090顯卡上流暢運(yùn)行? 對其他主流GPU的兼容性如何?
更重要的是,面對OpenAI的Sora等勁敵,這次Stability AI能否力挽狂瀾,重塑行業(yè)格局?
相比于這篇滿是復(fù)雜公式的論文。對普通讀者而言,Stability AI的論文概要無疑更具可讀性。這篇論文本質(zhì)上是介紹Stable Diffusion 3背后的研究,但并未明確指導(dǎo)如何實(shí)現(xiàn)其所有功能。官方公布了一些新方法,并分享了關(guān)于哪些訓(xùn)練決策提高了模型性能,哪些沒能完全達(dá)到預(yù)期,以及哪些組合賦予了Stable Diffusion 3驚人的能力。
Stability AI信心滿滿地表示,在大規(guī)模人類主觀評測中,SD3在排版質(zhì)量、對提示的理解和執(zhí)行度上全面碾壓了DALL-E 3、MidJourney v6、Ideagram v1等頂級產(chǎn)品。這里務(wù)必強(qiáng)調(diào)一下"提示",因?yàn)樗茿I繪畫的靈魂所在。MidJourney v6固然能生成讓人嘆為觀止的畫面,但稍微復(fù)雜抽象一點(diǎn)的提示,它就難以完全"照單全收"。造成這種局面的根本原因,是MidJourney v6過度迎合大眾的審美偏好。簡單來說,它只擅長畫人們愛看的那些東西。相比之下,Stable Diffusion的強(qiáng)項(xiàng)在于快速理解并忠實(shí)執(zhí)行提示,并能靈活調(diào)整畫面的局部細(xì)節(jié),而無需事后大動干戈地修修補(bǔ)補(bǔ)。
令人振奮的是,SD3祭出了全新的"多模態(tài)擴(kuò)散Transformer"架構(gòu)(MMDIT)。它采用獨(dú)立的權(quán)重來編碼圖像和文本特征,大幅提升了文本理解和拼寫能力。這是文圖生成領(lǐng)域的一大突破。此外,SD3還為排版單獨(dú)配備了編碼器和Transformer。它儼然將這個(gè)"小眾"領(lǐng)域做成了"極致"。
![]()
關(guān)于性能,從這張圖表可以看出,在視覺美感度、提示匹配度、排版質(zhì)量等方面,SD3在人類偏好調(diào)查中均取得了全面勝利。作為基準(zhǔn),它輕松碾壓了所有競品,穩(wěn)坐C位。至于SDXL系列終究略遜一籌。所有的評判都是由人工完成的,究竟是誰掌握了AI繪畫的"金標(biāo)準(zhǔn)"?
真正讓人驚喜的是SD3的硬件兼容性。Stability AI重點(diǎn)測試了SD3在主流消費(fèi)級顯卡上的表現(xiàn)。結(jié)果令人喜出望外:就算是那個(gè)"巨無霸"版本(模型參數(shù)高達(dá)80億),也能完整裝進(jìn)24GB顯存的RTX 4090。以1000x1000分辨率、50步迭代為例,生成一張圖片需約34秒。要知道,50步在SDXL時(shí)代已經(jīng)是頂配。如果你是"平民玩家",也不用灰心。SD3有多個(gè)輕量化版本,參數(shù)量從8億到80億不等,總有一款適合你。
![]()
從幾個(gè)令人驚艷的樣例圖來看,SD3能根據(jù)簡單的文字提示,靈活地生成各種主題和風(fēng)格迥異的圖像。這得益于它在主題理解和場景構(gòu)建上的重大進(jìn)步。比如讓一只鱷梨站在講臺前授課,或是給一只袋鼠戴上墨鏡,它都能完美呈現(xiàn)。從這些看似荒誕的創(chuàng)意中,我們依稀可見SD3驚人的想象力。它已經(jīng)初步具備了從文本中提取高層語義,并靈活組合成畫面的能力。
![]()
官方在論文中指出,對于從文本到圖像的生成,SD3必須兼顧文本和圖像兩種模態(tài)。這正是他們將新架構(gòu)命名為MMDIT(多模態(tài)擴(kuò)散Transformer)的原因所在。與前代Stable Diffusion一脈相承,SD3沿用了預(yù)訓(xùn)練模型來提取文本和圖像的特征表示。具體來說,它用上了三種不同的文本嵌入器、兩個(gè)CLIP模型和一個(gè)T5模型來對文本進(jìn)行編碼,同時(shí)采用了增強(qiáng)版的VAE來對圖像進(jìn)行編碼。說白了,這套流程就是為了理解用戶可能想要什么樣的文字內(nèi)容,以及與之匹配的圖像,從而更好地理解提示的真正意圖。
最妙的是,得益于嶄新的架構(gòu),SD3可以在同一個(gè)輸入中同時(shí)接受文本嵌入和圖像嵌入,并一次性完成所有操作。如下圖所示,文本嵌入和圖像嵌入被送入同一個(gè)注意力模塊進(jìn)行處理。在其內(nèi)部,信息通過一種循環(huán)反饋的方式流動,這是許多模型的標(biāo)準(zhǔn)配置。經(jīng)過匯總后,模型再輸出最終的生成結(jié)果。總的來說,這套流程是基于擴(kuò)散Transformer,并在此基礎(chǔ)上構(gòu)建出了SD3的架構(gòu)。
考慮到文本和圖像在本質(zhì)上的差異,SD3為它們各自采用了獨(dú)立的權(quán)重。這相當(dāng)于給每種模態(tài)配備了專屬的Transformer。它們在各自的特征空間中運(yùn)作,但又能通過注意力機(jī)制實(shí)現(xiàn)信息的交互,可謂"分工不分家"。正是這種機(jī)制,使得SD3能更全面地理解跨模態(tài)的聯(lián)系,進(jìn)而輸出更連貫的結(jié)果。這也是SD3力圖同時(shí)利用文圖兩種輸入,并在同一個(gè)注意力模塊中處理的原因所在,而不是采用串行的方式。這一設(shè)計(jì)與SDXL高度相似。
![]()
接下來看兩張驗(yàn)證損失的曲線圖。它們直觀地展示了不同模型及其變體在訓(xùn)練過程中的表現(xiàn)。理想情況下,隨著訓(xùn)練的推進(jìn),驗(yàn)證損失應(yīng)該逐步降低。可以欣喜地看到,實(shí)際結(jié)果與預(yù)期相符。
Stability AI表示,通過這種融會貫通的設(shè)計(jì),信息可以在圖像和文本之間自由流動,從而提升模型對生成內(nèi)容的整體把握。此外,這種架構(gòu)還可以輕松拓展至視頻等其他模態(tài)。盡管論文對此有所討論,但官方對技術(shù)細(xì)節(jié)依然諱莫如深。值得一提的是,與其他模型相比,SD3在保留原始提示意圖的同時(shí),還能靈活地生成多個(gè)差異化的版本。
尤其欣賞Stability AI在即時(shí)提示跟隨上的創(chuàng)新。官方表示,SD3能夠在保證畫面多樣性的同時(shí),還能緊扣主題,并對畫風(fēng)有很大的控制力。以往,將主題表達(dá)與風(fēng)格渲染割裂開來是件很頭疼的事。盡管有些玩家通過優(yōu)化UI和復(fù)雜的參數(shù)設(shè)置,在一定程度上實(shí)現(xiàn)了這一點(diǎn),但將其作為模型的內(nèi)在邏輯,無疑更有前瞻性。
![]()
![]()
![]()
以上是幾個(gè)例子,這一切僅憑一句簡單的文字提示就能實(shí)現(xiàn),充分證明了SD3驚人的理解力和創(chuàng)造力。它能從簡單的提示中提煉出豐富的細(xì)節(jié)和主題。
![]()
論文中還提到了另一項(xiàng)創(chuàng)新,即通過重新加權(quán)(reweighting)噪聲來改進(jìn)整流流(rectified flow)。這說明官方在模型訓(xùn)練中對噪聲的處理上別有心得。簡單來說,通過采用整流流公式或RF,可以"拉直"模型的推理路徑,從而以更少的迭代步數(shù)實(shí)現(xiàn)采樣。換言之,這項(xiàng)技術(shù)不僅能降低訓(xùn)練成本,還能幫助模型在推理時(shí)不偏離正軌,避免出現(xiàn)崩潰。
為了驗(yàn)證這一點(diǎn),他們在60多個(gè)主流擴(kuò)散模型上進(jìn)行了測試,每次都采用了不同的數(shù)據(jù)集、評估指標(biāo)和采樣器設(shè)置。結(jié)果表明,盡管現(xiàn)有的RF方法在少量迭代步數(shù)下表現(xiàn)優(yōu)異,但隨著步數(shù)的增加,性能反而出現(xiàn)下降。相比之下,SD3的RF版本卻能持續(xù)提升性能。簡而言之,在同等計(jì)算資源下,SD3能實(shí)現(xiàn)更高的目標(biāo),極大地提高了性價(jià)比。
這是Stability AI的一記重拳,尤其是對Midjourney等直接競爭對手而言。坦白講,這更像是在向投資者傳遞一個(gè)信號:如果給我們投錢,我們創(chuàng)造價(jià)值的效率將更高。細(xì)看那些AI初創(chuàng)公司的開銷,GPU的采購和租賃往往是最大的一塊。就連Stability AI這樣的獨(dú)角獸,也難逃被算力"繳械"的命運(yùn)。
另一個(gè)亮點(diǎn)在于,Stability AI成功地讓一個(gè)80億參數(shù)的"巨無霸"塞進(jìn)了24GB顯存的RTX 4090。盡管這與驗(yàn)證損失關(guān)系不大,但足以證明SD3在模型壓縮和推理優(yōu)化上的造詣。事實(shí)上,他們展示的指標(biāo)和驗(yàn)證損失之間存在強(qiáng)相關(guān)性,而后者是評判模型整體性能的重要依據(jù)。因此,如果訓(xùn)練更高效、猜測更準(zhǔn)確,模型的性能就會更優(yōu)秀。
此外,官方指出,SD3的擴(kuò)展趨勢尚未見頂,不太可能遇到云端服務(wù)中常見的瓶頸。換言之,通過架構(gòu)創(chuàng)新,他們在計(jì)算性能上取得了重大突破。在可預(yù)見的未來,SD3還有進(jìn)一步升級的空間。隨著算力的提升,我們有理由期待用更低的成本獲得更優(yōu)的結(jié)果。
說到文本理解,這是Stability AI長期以來的一個(gè)重點(diǎn),一以貫之地體現(xiàn)在其他實(shí)驗(yàn)性模型中。在SD3中,他們做了一些有趣的取舍。為了降低顯存占用,他們砍掉了此前SDXL中使用的一個(gè)內(nèi)存大戶——4.7億參數(shù)的T5編碼器。
有趣的是,借助全新的架構(gòu),去掉T5并未明顯影響視覺效果,只是略微損失了一點(diǎn)文本依附度。從基準(zhǔn)測試的結(jié)果來看,即便完全移除這一模塊,SD3的性能也基本無損。在保證畫質(zhì)的前提下,這種權(quán)衡可謂相當(dāng)高明。官方還展示了一個(gè)案例,給定同樣的雪貂提示,去掉T5前后的結(jié)果幾乎一樣。
這恐怕是Stability AI迄今為止最硬核的一篇論文,行文晦澀,不太好啃。但作為我們吃瓜讀者而言,只需要知道,Stability AI又拿出了一個(gè)含金量超高的的新繪畫模型就好了。開源是全世界AI愛好者的福音。
附:
雖然MidJourney一直非常強(qiáng)悍,但作為本地可以運(yùn)行且完全免費(fèi)的Stable Diffusion,無疑才是眾多專業(yè)級玩家的最愛。當(dāng)然了,本地運(yùn)行Stable Diffusion有一點(diǎn)點(diǎn)硬門檻。
如果讀者有興趣自己研究SD(畢竟強(qiáng)大的3.0馬上可以用上了)這里順便和大家友情推薦圖靈出品的一本書,這是一本為零基礎(chǔ)讀者量身打造的 Stable Diffusion “喂飯版”教程。讀完就可以上手操作,幫助你快速掌握新技能。
這本書本城也是推薦人之一,翻完全本,感想如推薦語:
“”本書從零開始,詳細(xì)介紹了 Stable Diffusion 的基本概念以及必須掌握的各種豐富設(shè)置參數(shù),讀者如能按照本書一步步實(shí)踐,必能熟練掌握 Stable Diffusion 這一強(qiáng)大而免費(fèi)的 AI 繪畫工具。”
——城主,公眾號“Web3天空之城”主理人
如果你希望自己入門SD并在本機(jī)跑起來,不妨可以考慮。網(wǎng)絡(luò)視頻雖然多,但案頭一本可以隨時(shí)翻查的工具書還是不錯(cuò)的。
![]()
作者介紹
關(guān)鍵幀,中科院博士,前阿里巴巴技術(shù)專家,公眾號“關(guān)鍵幀 Keyframe”主理人,長期從事互聯(lián)網(wǎng)內(nèi)容領(lǐng)域基礎(chǔ)技術(shù)和業(yè)務(wù)研發(fā)及管理工作,熱愛系統(tǒng)性分享行業(yè)技術(shù)經(jīng)驗(yàn)并廣受粉絲好評,熱衷于探索 AIGC技術(shù)發(fā)展和業(yè)務(wù)落地,對 AIGC 業(yè)務(wù)前景有著獨(dú)特的洞察。
這本 Stable Diffusion 入門書覆蓋內(nèi)容非常全面,文字通俗易懂,圖文并茂,是市面上不可多得的關(guān)于 Stable Diffusion 的實(shí)操大全,是平面設(shè)計(jì)工作者和業(yè)余繪圖愛好者的好幫手。——易子立,南京大學(xué)副教授,圖像生成算法 DualGAN 第一作者
《零基礎(chǔ)玩轉(zhuǎn) Stable Diffusion》是一把開啟 AI 繪畫世界大門的鑰匙。作者以實(shí)用為核心,分步驟教你如何本地部署并運(yùn)用 Stable Diffusion,使藝術(shù)創(chuàng)作更加自由和高效。本書不僅是藝術(shù)愛好者的新寵,也是設(shè)計(jì)師提升工作效率的利器。讓我們一起跟隨作者,探索 AI 繪畫的無限未來!——Reynold,公眾號“互聯(lián)網(wǎng) er 的早讀課”主理人
本書從零開始,詳細(xì)介紹了 Stable Diffusion 的基本概念以及必須掌握的各種豐富設(shè)置參數(shù),讀者如能按照本書一步步實(shí)踐,必能熟練掌握 Stable Diffusion 這一強(qiáng)大而免費(fèi)的 AI 繪畫工具。——城主,公眾號“Web3天空之城”主理人
初次涉足 AI 繪畫領(lǐng)域,在尋求一本入門書時(shí),一次偶然的機(jī)會讓我遇到了這本通俗易懂的 Stable Diffusion 教程。在看完幾頁后,我發(fā)現(xiàn)該書對零基礎(chǔ)同學(xué)非常友好,于是將它推薦給大家。本書介紹基礎(chǔ)概念和實(shí)際技巧,是你走進(jìn) AI 繪畫世界的不二之選!——賈文博,公眾號“壹念視覺”主理人
本書以簡明實(shí)用為特色,“手把手”帶領(lǐng)讀者探索Stable Diffusion。書中的實(shí)用操作指南和豐富的示例可以讓大家快速掌握 AI繪畫技巧。對所有對AI繪畫感興趣的人來說,這是一份不容錯(cuò)過的AI 繪畫入門指南,它將帶你進(jìn)入一個(gè)充滿創(chuàng)意和驚喜的藝術(shù)世界!——馮振,《OpenCV 4 快速入門》作者,公眾號“小白學(xué)視覺“主理人
當(dāng)藝術(shù)的奇妙之門向我們敞開,無論你是初涉繪畫的新手還是想要提高技能的繪畫愛好者,這本《零基礎(chǔ)玩轉(zhuǎn) Stable Diffusion》都將成為你探索 AI 繪畫創(chuàng)作世界的“靈魂伴侶”。—— @Jack Cui
隨著人工智能技術(shù)的普及,AI繪圖越來越受到人們的重視,特別是在繪圖設(shè)計(jì)領(lǐng)域中。本書從最基礎(chǔ)的軟件安裝開始,通過大量實(shí)操案例,全方位介紹免費(fèi)AI繪圖工具Stable Diffusion的各種使用方法,幫助大家快速掌握AI繪圖,相信這本書會是廣大AI繪圖學(xué)習(xí)者的福音。——寧海濤,公眾號“DataCharm”主理人,暢銷書《科研論文配圖繪制指南——基于 Python作者
這是一本通俗易懂的 AI 繪畫實(shí)戰(zhàn)書,作者以簡明干練的寫作方式,為讀者揭開 AIGC 的一層層神秘面紗。通過閱讀本書,你將全面深刻地掌握 Stable Diffusion 繪圖軟件的部署和使用方法,書中的案例也將從多角度提升你的 AI 繪畫實(shí)戰(zhàn)能力。—— @致敬大神
從零開始探索AI 繪畫,必定要有一本好書伴身,相信每一位朋友都能通過這本書體會到 AI 世界的魅力 ——@娜烏斯嘉,AI繪畫博主
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.