<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      Stable Diffusion3.0 官方技術報告重點分析

      0
      分享至

      文:城主

      上周,AI繪畫領域一顆重磅炸彈突然降臨: Stability AI發布了備受期待的Stable Diffusion 3.0(簡稱SD3)。消息一出,整個AI繪畫圈為之轟動。一周后,官方放出了一篇詳盡的技術論文,闡述了SD3實現突破性進展的底層原理,但同時也引發了一連串疑問: SD3能否在RTX 4090顯卡上流暢運行? 對其他主流GPU的兼容性如何?

      更重要的是,面對OpenAI的Sora等勁敵,這次Stability AI能否力挽狂瀾,重塑行業格局?

      相比于這篇滿是復雜公式的論文。對普通讀者而言,Stability AI的論文概要無疑更具可讀性。這篇論文本質上是介紹Stable Diffusion 3背后的研究,但并未明確指導如何實現其所有功能。官方公布了一些新方法,并分享了關于哪些訓練決策提高了模型性能,哪些沒能完全達到預期,以及哪些組合賦予了Stable Diffusion 3驚人的能力。

      Stability AI信心滿滿地表示,在大規模人類主觀評測中,SD3在排版質量、對提示的理解和執行度上全面碾壓了DALL-E 3、MidJourney v6、Ideagram v1等頂級產品。這里務必強調一下"提示",因為它是AI繪畫的靈魂所在。MidJourney v6固然能生成讓人嘆為觀止的畫面,但稍微復雜抽象一點的提示,它就難以完全"照單全收"。造成這種局面的根本原因,是MidJourney v6過度迎合大眾的審美偏好。簡單來說,它只擅長畫人們愛看的那些東西。相比之下,Stable Diffusion的強項在于快速理解并忠實執行提示,并能靈活調整畫面的局部細節,而無需事后大動干戈地修修補補。

      令人振奮的是,SD3祭出了全新的"多模態擴散Transformer"架構(MMDIT)。它采用獨立的權重來編碼圖像和文本特征,大幅提升了文本理解和拼寫能力。這是文圖生成領域的一大突破。此外,SD3還為排版單獨配備了編碼器和Transformer。它儼然將這個"小眾"領域做成了"極致"。


      關于性能,從這張圖表可以看出,在視覺美感度、提示匹配度、排版質量等方面,SD3在人類偏好調查中均取得了全面勝利。作為基準,它輕松碾壓了所有競品,穩坐C位。至于SDXL系列終究略遜一籌。所有的評判都是由人工完成的,究竟是誰掌握了AI繪畫的"金標準"?

      真正讓人驚喜的是SD3的硬件兼容性。Stability AI重點測試了SD3在主流消費級顯卡上的表現。結果令人喜出望外:就算是那個"巨無霸"版本(模型參數高達80億),也能完整裝進24GB顯存的RTX 4090。以1000x1000分辨率、50步迭代為例,生成一張圖片需約34秒。要知道,50步在SDXL時代已經是頂配。如果你是"平民玩家",也不用灰心。SD3有多個輕量化版本,參數量從8億到80億不等,總有一款適合你。


      從幾個令人驚艷的樣例圖來看,SD3能根據簡單的文字提示,靈活地生成各種主題和風格迥異的圖像。這得益于它在主題理解和場景構建上的重大進步。比如讓一只鱷梨站在講臺前授課,或是給一只袋鼠戴上墨鏡,它都能完美呈現。從這些看似荒誕的創意中,我們依稀可見SD3驚人的想象力。它已經初步具備了從文本中提取高層語義,并靈活組合成畫面的能力。


      官方在論文中指出,對于從文本到圖像的生成,SD3必須兼顧文本和圖像兩種模態。這正是他們將新架構命名為MMDIT(多模態擴散Transformer)的原因所在。與前代Stable Diffusion一脈相承,SD3沿用了預訓練模型來提取文本和圖像的特征表示。具體來說,它用上了三種不同的文本嵌入器、兩個CLIP模型和一個T5模型來對文本進行編碼,同時采用了增強版的VAE來對圖像進行編碼。說白了,這套流程就是為了理解用戶可能想要什么樣的文字內容,以及與之匹配的圖像,從而更好地理解提示的真正意圖。

      最妙的是,得益于嶄新的架構,SD3可以在同一個輸入中同時接受文本嵌入和圖像嵌入,并一次性完成所有操作。如下圖所示,文本嵌入和圖像嵌入被送入同一個注意力模塊進行處理。在其內部,信息通過一種循環反饋的方式流動,這是許多模型的標準配置。經過匯總后,模型再輸出最終的生成結果。總的來說,這套流程是基于擴散Transformer,并在此基礎上構建出了SD3的架構。

      考慮到文本和圖像在本質上的差異,SD3為它們各自采用了獨立的權重。這相當于給每種模態配備了專屬的Transformer。它們在各自的特征空間中運作,但又能通過注意力機制實現信息的交互,可謂"分工不分家"。正是這種機制,使得SD3能更全面地理解跨模態的聯系,進而輸出更連貫的結果。這也是SD3力圖同時利用文圖兩種輸入,并在同一個注意力模塊中處理的原因所在,而不是采用串行的方式。這一設計與SDXL高度相似。


      接下來看兩張驗證損失的曲線圖。它們直觀地展示了不同模型及其變體在訓練過程中的表現。理想情況下,隨著訓練的推進,驗證損失應該逐步降低。可以欣喜地看到,實際結果與預期相符。

      Stability AI表示,通過這種融會貫通的設計,信息可以在圖像和文本之間自由流動,從而提升模型對生成內容的整體把握。此外,這種架構還可以輕松拓展至視頻等其他模態。盡管論文對此有所討論,但官方對技術細節依然諱莫如深。值得一提的是,與其他模型相比,SD3在保留原始提示意圖的同時,還能靈活地生成多個差異化的版本。

      尤其欣賞Stability AI在即時提示跟隨上的創新。官方表示,SD3能夠在保證畫面多樣性的同時,還能緊扣主題,并對畫風有很大的控制力。以往,將主題表達與風格渲染割裂開來是件很頭疼的事。盡管有些玩家通過優化UI和復雜的參數設置,在一定程度上實現了這一點,但將其作為模型的內在邏輯,無疑更有前瞻性。




      以上是幾個例子,這一切僅憑一句簡單的文字提示就能實現,充分證明了SD3驚人的理解力和創造力。它能從簡單的提示中提煉出豐富的細節和主題。


      論文中還提到了另一項創新,即通過重新加權(reweighting)噪聲來改進整流流(rectified flow)。這說明官方在模型訓練中對噪聲的處理上別有心得。簡單來說,通過采用整流流公式或RF,可以"拉直"模型的推理路徑,從而以更少的迭代步數實現采樣。換言之,這項技術不僅能降低訓練成本,還能幫助模型在推理時不偏離正軌,避免出現崩潰。

      為了驗證這一點,他們在60多個主流擴散模型上進行了測試,每次都采用了不同的數據集、評估指標和采樣器設置。結果表明,盡管現有的RF方法在少量迭代步數下表現優異,但隨著步數的增加,性能反而出現下降。相比之下,SD3的RF版本卻能持續提升性能。簡而言之,在同等計算資源下,SD3能實現更高的目標,極大地提高了性價比。

      這是Stability AI的一記重拳,尤其是對Midjourney等直接競爭對手而言。坦白講,這更像是在向投資者傳遞一個信號:如果給我們投錢,我們創造價值的效率將更高。細看那些AI初創公司的開銷,GPU的采購和租賃往往是最大的一塊。就連Stability AI這樣的獨角獸,也難逃被算力"繳械"的命運。

      另一個亮點在于,Stability AI成功地讓一個80億參數的"巨無霸"塞進了24GB顯存的RTX 4090。盡管這與驗證損失關系不大,但足以證明SD3在模型壓縮和推理優化上的造詣。事實上,他們展示的指標和驗證損失之間存在強相關性,而后者是評判模型整體性能的重要依據。因此,如果訓練更高效、猜測更準確,模型的性能就會更優秀。

      此外,官方指出,SD3的擴展趨勢尚未見頂,不太可能遇到云端服務中常見的瓶頸。換言之,通過架構創新,他們在計算性能上取得了重大突破。在可預見的未來,SD3還有進一步升級的空間。隨著算力的提升,我們有理由期待用更低的成本獲得更優的結果。

      說到文本理解,這是Stability AI長期以來的一個重點,一以貫之地體現在其他實驗性模型中。在SD3中,他們做了一些有趣的取舍。為了降低顯存占用,他們砍掉了此前SDXL中使用的一個內存大戶——4.7億參數的T5編碼器。

      有趣的是,借助全新的架構,去掉T5并未明顯影響視覺效果,只是略微損失了一點文本依附度。從基準測試的結果來看,即便完全移除這一模塊,SD3的性能也基本無損。在保證畫質的前提下,這種權衡可謂相當高明。官方還展示了一個案例,給定同樣的雪貂提示,去掉T5前后的結果幾乎一樣。

      這恐怕是Stability AI迄今為止最硬核的一篇論文,行文晦澀,不太好啃。但作為我們吃瓜讀者而言,只需要知道,Stability AI又拿出了一個含金量超高的的新繪畫模型就好了。開源是全世界AI愛好者的福音。

      附:

      雖然MidJourney一直非常強悍,但作為本地可以運行且完全免費的Stable Diffusion,無疑才是眾多專業級玩家的最愛。當然了,本地運行Stable Diffusion有一點點硬門檻。

      如果讀者有興趣自己研究SD(畢竟強大的3.0馬上可以用上了)這里順便和大家友情推薦圖靈出品的一本書,這是一本為零基礎讀者量身打造的 Stable Diffusion “喂飯版”教程。讀完就可以上手操作,幫助你快速掌握新技能。

      這本書本城也是推薦人之一,翻完全本,感想如推薦語:

      “”本書從零開始,詳細介紹了 Stable Diffusion 的基本概念以及必須掌握的各種豐富設置參數,讀者如能按照本書一步步實踐,必能熟練掌握 Stable Diffusion 這一強大而免費的 AI 繪畫工具。”

      ——城主,公眾號“Web3天空之城”主理人

      如果你希望自己入門SD并在本機跑起來,不妨可以考慮。網絡視頻雖然多,但案頭一本可以隨時翻查的工具書還是不錯的。


      作者介紹

      關鍵幀,中科院博士,前阿里巴巴技術專家,公眾號“關鍵幀 Keyframe”主理人,長期從事互聯網內容領域基礎技術和業務研發及管理工作,熱愛系統性分享行業技術經驗并廣受粉絲好評,熱衷于探索 AIGC技術發展和業務落地,對 AIGC 業務前景有著獨特的洞察。

      這本 Stable Diffusion 入門書覆蓋內容非常全面,文字通俗易懂,圖文并茂,是市面上不可多得的關于 Stable Diffusion 的實操大全,是平面設計工作者和業余繪圖愛好者的好幫手。——易子立,南京大學副教授,圖像生成算法 DualGAN 第一作者

      《零基礎玩轉 Stable Diffusion》是一把開啟 AI 繪畫世界大門的鑰匙。作者以實用為核心,分步驟教你如何本地部署并運用 Stable Diffusion,使藝術創作更加自由和高效。本書不僅是藝術愛好者的新寵,也是設計師提升工作效率的利器。讓我們一起跟隨作者,探索 AI 繪畫的無限未來!——Reynold,公眾號“互聯網 er 的早讀課”主理人

      本書從零開始,詳細介紹了 Stable Diffusion 的基本概念以及必須掌握的各種豐富設置參數,讀者如能按照本書一步步實踐,必能熟練掌握 Stable Diffusion 這一強大而免費的 AI 繪畫工具。——城主,公眾號“Web3天空之城”主理人

      初次涉足 AI 繪畫領域,在尋求一本入門書時,一次偶然的機會讓我遇到了這本通俗易懂的 Stable Diffusion 教程。在看完幾頁后,我發現該書對零基礎同學非常友好,于是將它推薦給大家。本書介紹基礎概念和實際技巧,是你走進 AI 繪畫世界的不二之選!——賈文博,公眾號“壹念視覺”主理人

      本書以簡明實用為特色,“手把手”帶領讀者探索Stable Diffusion。書中的實用操作指南和豐富的示例可以讓大家快速掌握 AI繪畫技巧。對所有對AI繪畫感興趣的人來說,這是一份不容錯過的AI 繪畫入門指南,它將帶你進入一個充滿創意和驚喜的藝術世界!——馮振,《OpenCV 4 快速入門》作者,公眾號“小白學視覺“主理人

      當藝術的奇妙之門向我們敞開,無論你是初涉繪畫的新手還是想要提高技能的繪畫愛好者,這本《零基礎玩轉 Stable Diffusion》都將成為你探索 AI 繪畫創作世界的“靈魂伴侶”。—— @Jack Cui

      隨著人工智能技術的普及,AI繪圖越來越受到人們的重視,特別是在繪圖設計領域中。本書從最基礎的軟件安裝開始,通過大量實操案例,全方位介紹免費AI繪圖工具Stable Diffusion的各種使用方法,幫助大家快速掌握AI繪圖,相信這本書會是廣大AI繪圖學習者的福音。——寧海濤,公眾號“DataCharm”主理人,暢銷書《科研論文配圖繪制指南——基于 Python作者

      這是一本通俗易懂的 AI 繪畫實戰書,作者以簡明干練的寫作方式,為讀者揭開 AIGC 的一層層神秘面紗。通過閱讀本書,你將全面深刻地掌握 Stable Diffusion 繪圖軟件的部署和使用方法,書中的案例也將從多角度提升你的 AI 繪畫實戰能力。—— @致敬大神

      從零開始探索AI 繪畫,必定要有一本好書伴身,相信每一位朋友都能通過這本書體會到 AI 世界的魅力 ——@娜烏斯嘉,AI繪畫博主

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      美股三大指數高開,美光、阿斯麥、博通大漲;重要鋰礦供應國停止出口,鋰礦股也大漲!加密貨幣大幅反彈|美股開盤

      美股三大指數高開,美光、阿斯麥、博通大漲;重要鋰礦供應國停止出口,鋰礦股也大漲!加密貨幣大幅反彈|美股開盤

      每日經濟新聞
      2026-02-25 23:22:05
      曬曬從挪威房東身上學到的“裝修妙招”,這幾處裝修,真該普及!

      曬曬從挪威房東身上學到的“裝修妙招”,這幾處裝修,真該普及!

      裝修秀
      2026-02-25 11:40:05
      1972年,何香凝臨終懇求不火化遺體,周恩來含淚答應:不燒,不燒

      1972年,何香凝臨終懇求不火化遺體,周恩來含淚答應:不燒,不燒

      大運河時空
      2026-02-25 09:05:03
      奧運冠軍“拉拉鏈露胸”,讓耐克繃不住了!

      奧運冠軍“拉拉鏈露胸”,讓耐克繃不住了!

      品牌營銷報
      2026-02-23 11:31:10
      0-3慘敗止步八強!陳熠/黃友政單局一度落后8分 于子洋首敗來了

      0-3慘敗止步八強!陳熠/黃友政單局一度落后8分 于子洋首敗來了

      顏小白的籃球夢
      2026-02-25 18:41:22
      被對手貼臉挑釁,伊萬-托尼:我這輩子都沒聞過這么臭的口氣

      被對手貼臉挑釁,伊萬-托尼:我這輩子都沒聞過這么臭的口氣

      懂球帝
      2026-02-25 12:49:05
      你啥時候意識到錢的重要性?網友:錢能解決85%以上的雞毛蒜皮事

      你啥時候意識到錢的重要性?網友:錢能解決85%以上的雞毛蒜皮事

      帶你感受人間冷暖
      2026-02-23 01:22:30
      萬斯稱美國已掌握證據表明伊朗試圖重建核計劃

      萬斯稱美國已掌握證據表明伊朗試圖重建核計劃

      每日經濟新聞
      2026-02-26 08:48:05
      平頂山事件二次通報!真相竟是先打其他3人再暴打15歲女生!

      平頂山事件二次通報!真相竟是先打其他3人再暴打15歲女生!

      魔都囡
      2026-02-25 10:57:52
      8歲高考760分,智商230超過愛因斯坦,神童陶哲軒如今怎么樣了?

      8歲高考760分,智商230超過愛因斯坦,神童陶哲軒如今怎么樣了?

      戶外阿毽
      2026-02-26 06:16:12
      看一次心動一次!大冪冪,永遠的神

      看一次心動一次!大冪冪,永遠的神

      阿廢冷眼觀察所
      2026-02-25 11:49:20
      潘春春:從陜北放羊娃到“中國波霸”的逆襲人生

      潘春春:從陜北放羊娃到“中國波霸”的逆襲人生

      小熊侃史
      2026-02-15 07:30:14
      賀子珍抱著外孫孔繼寧的合影,照片中賀子珍笑得合不攏嘴

      賀子珍抱著外孫孔繼寧的合影,照片中賀子珍笑得合不攏嘴

      大運河時空
      2026-02-25 07:25:03
      畸形審美?這4位男演員長相平平,卻總當主角演帥哥,實在不理解

      畸形審美?這4位男演員長相平平,卻總當主角演帥哥,實在不理解

      淚滿過眼
      2026-02-25 05:03:57
      碰瓷!某企拿專利5天向宇樹科技索賠8000萬,最高法怒批;劉強東擬花50億進入游艇行業,要讓普通人也能買得起;小米起訴自媒體獲賠500萬元

      碰瓷!某企拿專利5天向宇樹科技索賠8000萬,最高法怒批;劉強東擬花50億進入游艇行業,要讓普通人也能買得起;小米起訴自媒體獲賠500萬元

      雷峰網
      2026-02-25 10:54:12
      孩子走丟到小賣鋪求助,老板好心給其父母打電話,卻被5人按倒

      孩子走丟到小賣鋪求助,老板好心給其父母打電話,卻被5人按倒

      另子維愛讀史
      2026-02-25 23:35:20
      瓜子被點名!醫生提醒:高血脂還常吃瓜子,很快或迎來3個后果

      瓜子被點名!醫生提醒:高血脂還常吃瓜子,很快或迎來3個后果

      荊醫生科普
      2026-02-25 18:25:49
      史上最亂倫成語“上蒸下報”

      史上最亂倫成語“上蒸下報”

      華人星光
      2026-02-21 11:24:05
      你永遠想不到醫院的八卦能有多炸裂?一件提神醒腦,兩件直接撂倒

      你永遠想不到醫院的八卦能有多炸裂?一件提神醒腦,兩件直接撂倒

      另子維愛讀史
      2026-01-22 18:21:09
      黨主席干不過地頭蛇,鄭麗文干不過“南霸天”

      黨主席干不過地頭蛇,鄭麗文干不過“南霸天”

      雪中風車
      2026-02-25 20:54:12
      2026-02-26 09:23:00
      Web3天空之城 incentive-icons
      Web3天空之城
      美好,有趣的,值得銘記的
      110文章數 93關注度
      往期回顧 全部

      科技要聞

      “機器人只跳舞,沒什么用”

      頭條要聞

      中方對日方出口管制措施落地后 高市早苗表態了

      頭條要聞

      中方對日方出口管制措施落地后 高市早苗表態了

      體育要聞

      勇士爆冷惜敗鵜鶘 梅爾頓28分賽季新高

      娛樂要聞

      黃曉明新戀情!與小22歲美女同游新加坡

      財經要聞

      短劇市場風云突變!有人投百萬賠得精光

      汽車要聞

      750km超長續航 2026款小鵬X9純電版將于3月2日上市

      態度原創

      房產
      手機
      數碼
      本地
      公開課

      房產要聞

      海南樓市春節熱銷地圖曝光!三亞、陵水又殺瘋了!

      手機要聞

      三星Galaxy S26系列手機AI功能盤點:升級Bixby,篩選陌生來電

      數碼要聞

      Steam客戶端獲Beta測試版更新,改善硬件調查對多顯卡系統識別

      本地新聞

      津南好·四時總相宜

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版