<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      Stable Diffusion3.0 官方技術報告重點分析

      0
      分享至

      文:城主

      上周,AI繪畫領域一顆重磅炸彈突然降臨: Stability AI發布了備受期待的Stable Diffusion 3.0(簡稱SD3)。消息一出,整個AI繪畫圈為之轟動。一周后,官方放出了一篇詳盡的技術論文,闡述了SD3實現突破性進展的底層原理,但同時也引發了一連串疑問: SD3能否在RTX 4090顯卡上流暢運行? 對其他主流GPU的兼容性如何?

      更重要的是,面對OpenAI的Sora等勁敵,這次Stability AI能否力挽狂瀾,重塑行業格局?

      相比于這篇滿是復雜公式的論文。對普通讀者而言,Stability AI的論文概要無疑更具可讀性。這篇論文本質上是介紹Stable Diffusion 3背后的研究,但并未明確指導如何實現其所有功能。官方公布了一些新方法,并分享了關于哪些訓練決策提高了模型性能,哪些沒能完全達到預期,以及哪些組合賦予了Stable Diffusion 3驚人的能力。

      Stability AI信心滿滿地表示,在大規模人類主觀評測中,SD3在排版質量、對提示的理解和執行度上全面碾壓了DALL-E 3、MidJourney v6、Ideagram v1等頂級產品。這里務必強調一下"提示",因為它是AI繪畫的靈魂所在。MidJourney v6固然能生成讓人嘆為觀止的畫面,但稍微復雜抽象一點的提示,它就難以完全"照單全收"。造成這種局面的根本原因,是MidJourney v6過度迎合大眾的審美偏好。簡單來說,它只擅長畫人們愛看的那些東西。相比之下,Stable Diffusion的強項在于快速理解并忠實執行提示,并能靈活調整畫面的局部細節,而無需事后大動干戈地修修補補。

      令人振奮的是,SD3祭出了全新的"多模態擴散Transformer"架構(MMDIT)。它采用獨立的權重來編碼圖像和文本特征,大幅提升了文本理解和拼寫能力。這是文圖生成領域的一大突破。此外,SD3還為排版單獨配備了編碼器和Transformer。它儼然將這個"小眾"領域做成了"極致"。


      關于性能,從這張圖表可以看出,在視覺美感度、提示匹配度、排版質量等方面,SD3在人類偏好調查中均取得了全面勝利。作為基準,它輕松碾壓了所有競品,穩坐C位。至于SDXL系列終究略遜一籌。所有的評判都是由人工完成的,究竟是誰掌握了AI繪畫的"金標準"?

      真正讓人驚喜的是SD3的硬件兼容性。Stability AI重點測試了SD3在主流消費級顯卡上的表現。結果令人喜出望外:就算是那個"巨無霸"版本(模型參數高達80億),也能完整裝進24GB顯存的RTX 4090。以1000x1000分辨率、50步迭代為例,生成一張圖片需約34秒。要知道,50步在SDXL時代已經是頂配。如果你是"平民玩家",也不用灰心。SD3有多個輕量化版本,參數量從8億到80億不等,總有一款適合你。


      從幾個令人驚艷的樣例圖來看,SD3能根據簡單的文字提示,靈活地生成各種主題和風格迥異的圖像。這得益于它在主題理解和場景構建上的重大進步。比如讓一只鱷梨站在講臺前授課,或是給一只袋鼠戴上墨鏡,它都能完美呈現。從這些看似荒誕的創意中,我們依稀可見SD3驚人的想象力。它已經初步具備了從文本中提取高層語義,并靈活組合成畫面的能力。


      官方在論文中指出,對于從文本到圖像的生成,SD3必須兼顧文本和圖像兩種模態。這正是他們將新架構命名為MMDIT(多模態擴散Transformer)的原因所在。與前代Stable Diffusion一脈相承,SD3沿用了預訓練模型來提取文本和圖像的特征表示。具體來說,它用上了三種不同的文本嵌入器、兩個CLIP模型和一個T5模型來對文本進行編碼,同時采用了增強版的VAE來對圖像進行編碼。說白了,這套流程就是為了理解用戶可能想要什么樣的文字內容,以及與之匹配的圖像,從而更好地理解提示的真正意圖。

      最妙的是,得益于嶄新的架構,SD3可以在同一個輸入中同時接受文本嵌入和圖像嵌入,并一次性完成所有操作。如下圖所示,文本嵌入和圖像嵌入被送入同一個注意力模塊進行處理。在其內部,信息通過一種循環反饋的方式流動,這是許多模型的標準配置。經過匯總后,模型再輸出最終的生成結果。總的來說,這套流程是基于擴散Transformer,并在此基礎上構建出了SD3的架構。

      考慮到文本和圖像在本質上的差異,SD3為它們各自采用了獨立的權重。這相當于給每種模態配備了專屬的Transformer。它們在各自的特征空間中運作,但又能通過注意力機制實現信息的交互,可謂"分工不分家"。正是這種機制,使得SD3能更全面地理解跨模態的聯系,進而輸出更連貫的結果。這也是SD3力圖同時利用文圖兩種輸入,并在同一個注意力模塊中處理的原因所在,而不是采用串行的方式。這一設計與SDXL高度相似。


      接下來看兩張驗證損失的曲線圖。它們直觀地展示了不同模型及其變體在訓練過程中的表現。理想情況下,隨著訓練的推進,驗證損失應該逐步降低。可以欣喜地看到,實際結果與預期相符。

      Stability AI表示,通過這種融會貫通的設計,信息可以在圖像和文本之間自由流動,從而提升模型對生成內容的整體把握。此外,這種架構還可以輕松拓展至視頻等其他模態。盡管論文對此有所討論,但官方對技術細節依然諱莫如深。值得一提的是,與其他模型相比,SD3在保留原始提示意圖的同時,還能靈活地生成多個差異化的版本。

      尤其欣賞Stability AI在即時提示跟隨上的創新。官方表示,SD3能夠在保證畫面多樣性的同時,還能緊扣主題,并對畫風有很大的控制力。以往,將主題表達與風格渲染割裂開來是件很頭疼的事。盡管有些玩家通過優化UI和復雜的參數設置,在一定程度上實現了這一點,但將其作為模型的內在邏輯,無疑更有前瞻性。




      以上是幾個例子,這一切僅憑一句簡單的文字提示就能實現,充分證明了SD3驚人的理解力和創造力。它能從簡單的提示中提煉出豐富的細節和主題。


      論文中還提到了另一項創新,即通過重新加權(reweighting)噪聲來改進整流流(rectified flow)。這說明官方在模型訓練中對噪聲的處理上別有心得。簡單來說,通過采用整流流公式或RF,可以"拉直"模型的推理路徑,從而以更少的迭代步數實現采樣。換言之,這項技術不僅能降低訓練成本,還能幫助模型在推理時不偏離正軌,避免出現崩潰。

      為了驗證這一點,他們在60多個主流擴散模型上進行了測試,每次都采用了不同的數據集、評估指標和采樣器設置。結果表明,盡管現有的RF方法在少量迭代步數下表現優異,但隨著步數的增加,性能反而出現下降。相比之下,SD3的RF版本卻能持續提升性能。簡而言之,在同等計算資源下,SD3能實現更高的目標,極大地提高了性價比。

      這是Stability AI的一記重拳,尤其是對Midjourney等直接競爭對手而言。坦白講,這更像是在向投資者傳遞一個信號:如果給我們投錢,我們創造價值的效率將更高。細看那些AI初創公司的開銷,GPU的采購和租賃往往是最大的一塊。就連Stability AI這樣的獨角獸,也難逃被算力"繳械"的命運。

      另一個亮點在于,Stability AI成功地讓一個80億參數的"巨無霸"塞進了24GB顯存的RTX 4090。盡管這與驗證損失關系不大,但足以證明SD3在模型壓縮和推理優化上的造詣。事實上,他們展示的指標和驗證損失之間存在強相關性,而后者是評判模型整體性能的重要依據。因此,如果訓練更高效、猜測更準確,模型的性能就會更優秀。

      此外,官方指出,SD3的擴展趨勢尚未見頂,不太可能遇到云端服務中常見的瓶頸。換言之,通過架構創新,他們在計算性能上取得了重大突破。在可預見的未來,SD3還有進一步升級的空間。隨著算力的提升,我們有理由期待用更低的成本獲得更優的結果。

      說到文本理解,這是Stability AI長期以來的一個重點,一以貫之地體現在其他實驗性模型中。在SD3中,他們做了一些有趣的取舍。為了降低顯存占用,他們砍掉了此前SDXL中使用的一個內存大戶——4.7億參數的T5編碼器。

      有趣的是,借助全新的架構,去掉T5并未明顯影響視覺效果,只是略微損失了一點文本依附度。從基準測試的結果來看,即便完全移除這一模塊,SD3的性能也基本無損。在保證畫質的前提下,這種權衡可謂相當高明。官方還展示了一個案例,給定同樣的雪貂提示,去掉T5前后的結果幾乎一樣。

      這恐怕是Stability AI迄今為止最硬核的一篇論文,行文晦澀,不太好啃。但作為我們吃瓜讀者而言,只需要知道,Stability AI又拿出了一個含金量超高的的新繪畫模型就好了。開源是全世界AI愛好者的福音。

      附:

      雖然MidJourney一直非常強悍,但作為本地可以運行且完全免費的Stable Diffusion,無疑才是眾多專業級玩家的最愛。當然了,本地運行Stable Diffusion有一點點硬門檻。

      如果讀者有興趣自己研究SD(畢竟強大的3.0馬上可以用上了)這里順便和大家友情推薦圖靈出品的一本書,這是一本為零基礎讀者量身打造的 Stable Diffusion “喂飯版”教程。讀完就可以上手操作,幫助你快速掌握新技能。

      這本書本城也是推薦人之一,翻完全本,感想如推薦語:

      “”本書從零開始,詳細介紹了 Stable Diffusion 的基本概念以及必須掌握的各種豐富設置參數,讀者如能按照本書一步步實踐,必能熟練掌握 Stable Diffusion 這一強大而免費的 AI 繪畫工具。”

      ——城主,公眾號“Web3天空之城”主理人

      如果你希望自己入門SD并在本機跑起來,不妨可以考慮。網絡視頻雖然多,但案頭一本可以隨時翻查的工具書還是不錯的。


      作者介紹

      關鍵幀,中科院博士,前阿里巴巴技術專家,公眾號“關鍵幀 Keyframe”主理人,長期從事互聯網內容領域基礎技術和業務研發及管理工作,熱愛系統性分享行業技術經驗并廣受粉絲好評,熱衷于探索 AIGC技術發展和業務落地,對 AIGC 業務前景有著獨特的洞察。

      這本 Stable Diffusion 入門書覆蓋內容非常全面,文字通俗易懂,圖文并茂,是市面上不可多得的關于 Stable Diffusion 的實操大全,是平面設計工作者和業余繪圖愛好者的好幫手。——易子立,南京大學副教授,圖像生成算法 DualGAN 第一作者

      《零基礎玩轉 Stable Diffusion》是一把開啟 AI 繪畫世界大門的鑰匙。作者以實用為核心,分步驟教你如何本地部署并運用 Stable Diffusion,使藝術創作更加自由和高效。本書不僅是藝術愛好者的新寵,也是設計師提升工作效率的利器。讓我們一起跟隨作者,探索 AI 繪畫的無限未來!——Reynold,公眾號“互聯網 er 的早讀課”主理人

      本書從零開始,詳細介紹了 Stable Diffusion 的基本概念以及必須掌握的各種豐富設置參數,讀者如能按照本書一步步實踐,必能熟練掌握 Stable Diffusion 這一強大而免費的 AI 繪畫工具。——城主,公眾號“Web3天空之城”主理人

      初次涉足 AI 繪畫領域,在尋求一本入門書時,一次偶然的機會讓我遇到了這本通俗易懂的 Stable Diffusion 教程。在看完幾頁后,我發現該書對零基礎同學非常友好,于是將它推薦給大家。本書介紹基礎概念和實際技巧,是你走進 AI 繪畫世界的不二之選!——賈文博,公眾號“壹念視覺”主理人

      本書以簡明實用為特色,“手把手”帶領讀者探索Stable Diffusion。書中的實用操作指南和豐富的示例可以讓大家快速掌握 AI繪畫技巧。對所有對AI繪畫感興趣的人來說,這是一份不容錯過的AI 繪畫入門指南,它將帶你進入一個充滿創意和驚喜的藝術世界!——馮振,《OpenCV 4 快速入門》作者,公眾號“小白學視覺“主理人

      當藝術的奇妙之門向我們敞開,無論你是初涉繪畫的新手還是想要提高技能的繪畫愛好者,這本《零基礎玩轉 Stable Diffusion》都將成為你探索 AI 繪畫創作世界的“靈魂伴侶”。—— @Jack Cui

      隨著人工智能技術的普及,AI繪圖越來越受到人們的重視,特別是在繪圖設計領域中。本書從最基礎的軟件安裝開始,通過大量實操案例,全方位介紹免費AI繪圖工具Stable Diffusion的各種使用方法,幫助大家快速掌握AI繪圖,相信這本書會是廣大AI繪圖學習者的福音。——寧海濤,公眾號“DataCharm”主理人,暢銷書《科研論文配圖繪制指南——基于 Python作者

      這是一本通俗易懂的 AI 繪畫實戰書,作者以簡明干練的寫作方式,為讀者揭開 AIGC 的一層層神秘面紗。通過閱讀本書,你將全面深刻地掌握 Stable Diffusion 繪圖軟件的部署和使用方法,書中的案例也將從多角度提升你的 AI 繪畫實戰能力。—— @致敬大神

      從零開始探索AI 繪畫,必定要有一本好書伴身,相信每一位朋友都能通過這本書體會到 AI 世界的魅力 ——@娜烏斯嘉,AI繪畫博主

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      浙大1999年出生的研究員任博導,本科畢業才4年,學院回應

      浙大1999年出生的研究員任博導,本科畢業才4年,學院回應

      極目新聞
      2025-12-08 11:50:36
      多項數據創生涯新低!恩比德未老先衰或被掃地出門

      多項數據創生涯新低!恩比德未老先衰或被掃地出門

      體壇周報
      2025-12-08 17:22:18
      被拐30年兒子認親14小時就走,全程冷臉,網友:窮家標簽太刺眼

      被拐30年兒子認親14小時就走,全程冷臉,網友:窮家標簽太刺眼

      老特有話說
      2025-12-06 17:31:27
      海川品車|用技術打開140周年的序幕 奔馳XX科技創新日有感

      海川品車|用技術打開140周年的序幕 奔馳XX科技創新日有感

      路邊停車場
      2025-12-08 18:22:00
      綠帽哥:皇馬為克洛普開出令人瞠目結舌的報價

      綠帽哥:皇馬為克洛普開出令人瞠目結舌的報價

      懂球帝
      2025-12-08 21:13:07
      突然,崩了!剛剛,緊急“救市”!

      突然,崩了!剛剛,緊急“救市”!

      證券時報
      2025-12-08 20:12:03
      最新 朱孝天回應:拒絕他們三個要求被退出!喊話經紀人高抬貴手

      最新 朱孝天回應:拒絕他們三個要求被退出!喊話經紀人高抬貴手

      丁丁鯉史紀
      2025-12-08 18:27:16
      多少人靠超市300塊羽絨服體面過冬?山姆們賣衣服比始祖鳥更能拿捏返貧中產

      多少人靠超市300塊羽絨服體面過冬?山姆們賣衣服比始祖鳥更能拿捏返貧中產

      Vista氫商業
      2025-12-08 14:55:05
      27萬人看過,訂婚三天遭退,婚后要每3天有400元水果吃,網友吵翻

      27萬人看過,訂婚三天遭退,婚后要每3天有400元水果吃,網友吵翻

      凡知
      2025-12-07 14:37:32
      郭德綱被約談的傳聞出來后,段子比他的相聲還搞笑

      郭德綱被約談的傳聞出來后,段子比他的相聲還搞笑

      雷斯林
      2025-12-08 19:14:36
      幫人擔保貸30萬,還款時借款人舉家消失,他被迫還50余萬還留案底;監管認定銀行違規

      幫人擔保貸30萬,還款時借款人舉家消失,他被迫還50余萬還留案底;監管認定銀行違規

      大風新聞
      2025-12-08 19:43:04
      北京朝陽法院對馬航MH370航班部分失聯乘客家屬索賠案一審宣判

      北京朝陽法院對馬航MH370航班部分失聯乘客家屬索賠案一審宣判

      新京報
      2025-12-08 17:09:05
      帶魚:明明出身深海,為什么卻成了中國最平民的海鮮?

      帶魚:明明出身深海,為什么卻成了中國最平民的海鮮?

      半解智士
      2025-12-06 11:52:06
      突發!42歲西安和典老夏去世,一年喝酒130次,辦公室內擺滿茅臺

      突發!42歲西安和典老夏去世,一年喝酒130次,辦公室內擺滿茅臺

      裕豐娛間說
      2025-12-08 14:19:08
      北京市第十六屆人大城市建設環境保護委員會原委員賀江川接受審查調查

      北京市第十六屆人大城市建設環境保護委員會原委員賀江川接受審查調查

      界面新聞
      2025-12-08 20:35:09
      馬斯克「開顱插針」首破1.5秒!上萬人擠爆,爭當賽博格

      馬斯克「開顱插針」首破1.5秒!上萬人擠爆,爭當賽博格

      新智元
      2025-12-08 12:24:12
      深度睡眠增加100%!北大找到失眠根源,改善方法就在腸道中

      深度睡眠增加100%!北大找到失眠根源,改善方法就在腸道中

      梁佇愛玩車
      2025-12-07 16:37:33
      山東跑友張素梅車禍去世,月跑量300多公里,開奔馳,顏值身材好

      山東跑友張素梅車禍去世,月跑量300多公里,開奔馳,顏值身材好

      180視角
      2025-12-08 12:09:15
      雷軍放話:小米YU7在隔音上打敗邁巴赫,網友炸了

      雷軍放話:小米YU7在隔音上打敗邁巴赫,網友炸了

      熱點菌本君
      2025-12-08 20:04:03
      蘋果iPhone 18系列全新曝光,等等黨有福了!

      蘋果iPhone 18系列全新曝光,等等黨有福了!

      科技堡壘
      2025-12-08 11:15:49
      2025-12-08 23:23:00
      Web3天空之城 incentive-icons
      Web3天空之城
      美好,有趣的,值得銘記的
      96文章數 83關注度
      往期回顧 全部

      科技要聞

      外面有人挖,家里有人跑:蘋果亂成了一鍋粥

      頭條要聞

      "00后"在上海跑外賣5年攢112萬:除了吃飯睡覺都在接單

      頭條要聞

      "00后"在上海跑外賣5年攢112萬:除了吃飯睡覺都在接單

      體育要聞

      一位大學美術生,如何用4年成為頂級跑者?

      娛樂要聞

      章子怡被說拜高踩低 主動和卡梅隆熱聊

      財經要聞

      百億金融爆雷 浙商大佬"朋友圈"也不靈了

      汽車要聞

      純電全尺寸大六座 凱迪拉克"小凱雷德"申報圖曝光

      態度原創

      藝術
      游戲
      本地
      時尚
      公開課

      藝術要聞

      一棵樹的力量

      德杯爆改!全新賽制曝光:盲選模式回歸,教練可實時“打電話”

      本地新聞

      云游安徽|七千年敘事,第一章寫在蚌埠

      “softcore柔系美式”穿搭今年冬天爆火,松弛又減齡!

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 午夜爽爽爽男女免费观看影院| 久久国模| 好紧好湿好黄的视频| 久久精品蜜芽亚洲国产av| 99插插| 欧美又粗又大又爽| 欧美人与动牲交A免费观看| 国产人成视频在线观看| 国产成人三级三级三级97| 99re国产| 国产丝袜精品在线| 天堂一区二区三区av| 亚洲综合婷婷| 亚洲日韩欧洲乱码av夜夜摸| 亚洲?欧洲?中文字幕| 天天综合久久| 色姑娘综合网| 欧美日韩中文字幕久久伊人 | 国产av一区二区三区| www.91自拍| 91私拍| 一本色道久久综合亚洲精品按摩 | 狠狠人妻久久久久久综合果冻| 亚洲精品国偷自产在线99人热| 精产国品一二三产区m553麻豆| 在线无码免费的毛片视频| 中文字幕亚洲综合第一页| 97精品国产91久久久久久久| 国产一区韩国主播| 性高朝久久久久久久3小时| 18成人片黄网站www| 无码人妻aⅴ一区二区三区用会员| 鄂伦春自治旗| 亚洲精品国产suv一区88| 射死你天天日| 大香蕉一区二区三区| 山东省| 静乐县| 绥江县| 夫妻拳交自拍| 国产精品被熟女|