<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      Stable Diffusion3.0 官方技術報告重點分析

      0
      分享至

      文:城主

      上周,AI繪畫領域一顆重磅炸彈突然降臨: Stability AI發布了備受期待的Stable Diffusion 3.0(簡稱SD3)。消息一出,整個AI繪畫圈為之轟動。一周后,官方放出了一篇詳盡的技術論文,闡述了SD3實現突破性進展的底層原理,但同時也引發了一連串疑問: SD3能否在RTX 4090顯卡上流暢運行? 對其他主流GPU的兼容性如何?

      更重要的是,面對OpenAI的Sora等勁敵,這次Stability AI能否力挽狂瀾,重塑行業格局?

      相比于這篇滿是復雜公式的論文。對普通讀者而言,Stability AI的論文概要無疑更具可讀性。這篇論文本質上是介紹Stable Diffusion 3背后的研究,但并未明確指導如何實現其所有功能。官方公布了一些新方法,并分享了關于哪些訓練決策提高了模型性能,哪些沒能完全達到預期,以及哪些組合賦予了Stable Diffusion 3驚人的能力。

      Stability AI信心滿滿地表示,在大規模人類主觀評測中,SD3在排版質量、對提示的理解和執行度上全面碾壓了DALL-E 3、MidJourney v6、Ideagram v1等頂級產品。這里務必強調一下"提示",因為它是AI繪畫的靈魂所在。MidJourney v6固然能生成讓人嘆為觀止的畫面,但稍微復雜抽象一點的提示,它就難以完全"照單全收"。造成這種局面的根本原因,是MidJourney v6過度迎合大眾的審美偏好。簡單來說,它只擅長畫人們愛看的那些東西。相比之下,Stable Diffusion的強項在于快速理解并忠實執行提示,并能靈活調整畫面的局部細節,而無需事后大動干戈地修修補補。

      令人振奮的是,SD3祭出了全新的"多模態擴散Transformer"架構(MMDIT)。它采用獨立的權重來編碼圖像和文本特征,大幅提升了文本理解和拼寫能力。這是文圖生成領域的一大突破。此外,SD3還為排版單獨配備了編碼器和Transformer。它儼然將這個"小眾"領域做成了"極致"。


      關于性能,從這張圖表可以看出,在視覺美感度、提示匹配度、排版質量等方面,SD3在人類偏好調查中均取得了全面勝利。作為基準,它輕松碾壓了所有競品,穩坐C位。至于SDXL系列終究略遜一籌。所有的評判都是由人工完成的,究竟是誰掌握了AI繪畫的"金標準"?

      真正讓人驚喜的是SD3的硬件兼容性。Stability AI重點測試了SD3在主流消費級顯卡上的表現。結果令人喜出望外:就算是那個"巨無霸"版本(模型參數高達80億),也能完整裝進24GB顯存的RTX 4090。以1000x1000分辨率、50步迭代為例,生成一張圖片需約34秒。要知道,50步在SDXL時代已經是頂配。如果你是"平民玩家",也不用灰心。SD3有多個輕量化版本,參數量從8億到80億不等,總有一款適合你。


      從幾個令人驚艷的樣例圖來看,SD3能根據簡單的文字提示,靈活地生成各種主題和風格迥異的圖像。這得益于它在主題理解和場景構建上的重大進步。比如讓一只鱷梨站在講臺前授課,或是給一只袋鼠戴上墨鏡,它都能完美呈現。從這些看似荒誕的創意中,我們依稀可見SD3驚人的想象力。它已經初步具備了從文本中提取高層語義,并靈活組合成畫面的能力。


      官方在論文中指出,對于從文本到圖像的生成,SD3必須兼顧文本和圖像兩種模態。這正是他們將新架構命名為MMDIT(多模態擴散Transformer)的原因所在。與前代Stable Diffusion一脈相承,SD3沿用了預訓練模型來提取文本和圖像的特征表示。具體來說,它用上了三種不同的文本嵌入器、兩個CLIP模型和一個T5模型來對文本進行編碼,同時采用了增強版的VAE來對圖像進行編碼。說白了,這套流程就是為了理解用戶可能想要什么樣的文字內容,以及與之匹配的圖像,從而更好地理解提示的真正意圖。

      最妙的是,得益于嶄新的架構,SD3可以在同一個輸入中同時接受文本嵌入和圖像嵌入,并一次性完成所有操作。如下圖所示,文本嵌入和圖像嵌入被送入同一個注意力模塊進行處理。在其內部,信息通過一種循環反饋的方式流動,這是許多模型的標準配置。經過匯總后,模型再輸出最終的生成結果。總的來說,這套流程是基于擴散Transformer,并在此基礎上構建出了SD3的架構。

      考慮到文本和圖像在本質上的差異,SD3為它們各自采用了獨立的權重。這相當于給每種模態配備了專屬的Transformer。它們在各自的特征空間中運作,但又能通過注意力機制實現信息的交互,可謂"分工不分家"。正是這種機制,使得SD3能更全面地理解跨模態的聯系,進而輸出更連貫的結果。這也是SD3力圖同時利用文圖兩種輸入,并在同一個注意力模塊中處理的原因所在,而不是采用串行的方式。這一設計與SDXL高度相似。


      接下來看兩張驗證損失的曲線圖。它們直觀地展示了不同模型及其變體在訓練過程中的表現。理想情況下,隨著訓練的推進,驗證損失應該逐步降低。可以欣喜地看到,實際結果與預期相符。

      Stability AI表示,通過這種融會貫通的設計,信息可以在圖像和文本之間自由流動,從而提升模型對生成內容的整體把握。此外,這種架構還可以輕松拓展至視頻等其他模態。盡管論文對此有所討論,但官方對技術細節依然諱莫如深。值得一提的是,與其他模型相比,SD3在保留原始提示意圖的同時,還能靈活地生成多個差異化的版本。

      尤其欣賞Stability AI在即時提示跟隨上的創新。官方表示,SD3能夠在保證畫面多樣性的同時,還能緊扣主題,并對畫風有很大的控制力。以往,將主題表達與風格渲染割裂開來是件很頭疼的事。盡管有些玩家通過優化UI和復雜的參數設置,在一定程度上實現了這一點,但將其作為模型的內在邏輯,無疑更有前瞻性。




      以上是幾個例子,這一切僅憑一句簡單的文字提示就能實現,充分證明了SD3驚人的理解力和創造力。它能從簡單的提示中提煉出豐富的細節和主題。


      論文中還提到了另一項創新,即通過重新加權(reweighting)噪聲來改進整流流(rectified flow)。這說明官方在模型訓練中對噪聲的處理上別有心得。簡單來說,通過采用整流流公式或RF,可以"拉直"模型的推理路徑,從而以更少的迭代步數實現采樣。換言之,這項技術不僅能降低訓練成本,還能幫助模型在推理時不偏離正軌,避免出現崩潰。

      為了驗證這一點,他們在60多個主流擴散模型上進行了測試,每次都采用了不同的數據集、評估指標和采樣器設置。結果表明,盡管現有的RF方法在少量迭代步數下表現優異,但隨著步數的增加,性能反而出現下降。相比之下,SD3的RF版本卻能持續提升性能。簡而言之,在同等計算資源下,SD3能實現更高的目標,極大地提高了性價比。

      這是Stability AI的一記重拳,尤其是對Midjourney等直接競爭對手而言。坦白講,這更像是在向投資者傳遞一個信號:如果給我們投錢,我們創造價值的效率將更高。細看那些AI初創公司的開銷,GPU的采購和租賃往往是最大的一塊。就連Stability AI這樣的獨角獸,也難逃被算力"繳械"的命運。

      另一個亮點在于,Stability AI成功地讓一個80億參數的"巨無霸"塞進了24GB顯存的RTX 4090。盡管這與驗證損失關系不大,但足以證明SD3在模型壓縮和推理優化上的造詣。事實上,他們展示的指標和驗證損失之間存在強相關性,而后者是評判模型整體性能的重要依據。因此,如果訓練更高效、猜測更準確,模型的性能就會更優秀。

      此外,官方指出,SD3的擴展趨勢尚未見頂,不太可能遇到云端服務中常見的瓶頸。換言之,通過架構創新,他們在計算性能上取得了重大突破。在可預見的未來,SD3還有進一步升級的空間。隨著算力的提升,我們有理由期待用更低的成本獲得更優的結果。

      說到文本理解,這是Stability AI長期以來的一個重點,一以貫之地體現在其他實驗性模型中。在SD3中,他們做了一些有趣的取舍。為了降低顯存占用,他們砍掉了此前SDXL中使用的一個內存大戶——4.7億參數的T5編碼器。

      有趣的是,借助全新的架構,去掉T5并未明顯影響視覺效果,只是略微損失了一點文本依附度。從基準測試的結果來看,即便完全移除這一模塊,SD3的性能也基本無損。在保證畫質的前提下,這種權衡可謂相當高明。官方還展示了一個案例,給定同樣的雪貂提示,去掉T5前后的結果幾乎一樣。

      這恐怕是Stability AI迄今為止最硬核的一篇論文,行文晦澀,不太好啃。但作為我們吃瓜讀者而言,只需要知道,Stability AI又拿出了一個含金量超高的的新繪畫模型就好了。開源是全世界AI愛好者的福音。

      附:

      雖然MidJourney一直非常強悍,但作為本地可以運行且完全免費的Stable Diffusion,無疑才是眾多專業級玩家的最愛。當然了,本地運行Stable Diffusion有一點點硬門檻。

      如果讀者有興趣自己研究SD(畢竟強大的3.0馬上可以用上了)這里順便和大家友情推薦圖靈出品的一本書,這是一本為零基礎讀者量身打造的 Stable Diffusion “喂飯版”教程。讀完就可以上手操作,幫助你快速掌握新技能。

      這本書本城也是推薦人之一,翻完全本,感想如推薦語:

      “”本書從零開始,詳細介紹了 Stable Diffusion 的基本概念以及必須掌握的各種豐富設置參數,讀者如能按照本書一步步實踐,必能熟練掌握 Stable Diffusion 這一強大而免費的 AI 繪畫工具。”

      ——城主,公眾號“Web3天空之城”主理人

      如果你希望自己入門SD并在本機跑起來,不妨可以考慮。網絡視頻雖然多,但案頭一本可以隨時翻查的工具書還是不錯的。


      作者介紹

      關鍵幀,中科院博士,前阿里巴巴技術專家,公眾號“關鍵幀 Keyframe”主理人,長期從事互聯網內容領域基礎技術和業務研發及管理工作,熱愛系統性分享行業技術經驗并廣受粉絲好評,熱衷于探索 AIGC技術發展和業務落地,對 AIGC 業務前景有著獨特的洞察。

      這本 Stable Diffusion 入門書覆蓋內容非常全面,文字通俗易懂,圖文并茂,是市面上不可多得的關于 Stable Diffusion 的實操大全,是平面設計工作者和業余繪圖愛好者的好幫手。——易子立,南京大學副教授,圖像生成算法 DualGAN 第一作者

      《零基礎玩轉 Stable Diffusion》是一把開啟 AI 繪畫世界大門的鑰匙。作者以實用為核心,分步驟教你如何本地部署并運用 Stable Diffusion,使藝術創作更加自由和高效。本書不僅是藝術愛好者的新寵,也是設計師提升工作效率的利器。讓我們一起跟隨作者,探索 AI 繪畫的無限未來!——Reynold,公眾號“互聯網 er 的早讀課”主理人

      本書從零開始,詳細介紹了 Stable Diffusion 的基本概念以及必須掌握的各種豐富設置參數,讀者如能按照本書一步步實踐,必能熟練掌握 Stable Diffusion 這一強大而免費的 AI 繪畫工具。——城主,公眾號“Web3天空之城”主理人

      初次涉足 AI 繪畫領域,在尋求一本入門書時,一次偶然的機會讓我遇到了這本通俗易懂的 Stable Diffusion 教程。在看完幾頁后,我發現該書對零基礎同學非常友好,于是將它推薦給大家。本書介紹基礎概念和實際技巧,是你走進 AI 繪畫世界的不二之選!——賈文博,公眾號“壹念視覺”主理人

      本書以簡明實用為特色,“手把手”帶領讀者探索Stable Diffusion。書中的實用操作指南和豐富的示例可以讓大家快速掌握 AI繪畫技巧。對所有對AI繪畫感興趣的人來說,這是一份不容錯過的AI 繪畫入門指南,它將帶你進入一個充滿創意和驚喜的藝術世界!——馮振,《OpenCV 4 快速入門》作者,公眾號“小白學視覺“主理人

      當藝術的奇妙之門向我們敞開,無論你是初涉繪畫的新手還是想要提高技能的繪畫愛好者,這本《零基礎玩轉 Stable Diffusion》都將成為你探索 AI 繪畫創作世界的“靈魂伴侶”。—— @Jack Cui

      隨著人工智能技術的普及,AI繪圖越來越受到人們的重視,特別是在繪圖設計領域中。本書從最基礎的軟件安裝開始,通過大量實操案例,全方位介紹免費AI繪圖工具Stable Diffusion的各種使用方法,幫助大家快速掌握AI繪圖,相信這本書會是廣大AI繪圖學習者的福音。——寧海濤,公眾號“DataCharm”主理人,暢銷書《科研論文配圖繪制指南——基于 Python作者

      這是一本通俗易懂的 AI 繪畫實戰書,作者以簡明干練的寫作方式,為讀者揭開 AIGC 的一層層神秘面紗。通過閱讀本書,你將全面深刻地掌握 Stable Diffusion 繪圖軟件的部署和使用方法,書中的案例也將從多角度提升你的 AI 繪畫實戰能力。—— @致敬大神

      從零開始探索AI 繪畫,必定要有一本好書伴身,相信每一位朋友都能通過這本書體會到 AI 世界的魅力 ——@娜烏斯嘉,AI繪畫博主

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      A股:大家要準備好了,明天,A股或將迎來變化?

      A股:大家要準備好了,明天,A股或將迎來變化?

      財經大拿
      2026-02-05 13:44:07
      紀實:女子強迫情夫老公三人同床,逼丈夫看兩人茍合,結果很悲慘

      紀實:女子強迫情夫老公三人同床,逼丈夫看兩人茍合,結果很悲慘

      談史論天地
      2026-02-05 10:00:27
      主食換一換,每年疾病少一半?4種主食,最好天天吃,效果驚人!

      主食換一換,每年疾病少一半?4種主食,最好天天吃,效果驚人!

      路醫生健康科普
      2026-02-02 22:44:59
      倫納德這次真失望了!采訪強調挽留過,事情來得突然,但表達理解

      倫納德這次真失望了!采訪強調挽留過,事情來得突然,但表達理解

      籃球資訊達人
      2026-02-05 15:44:45
      蘇顧問加波年科回憶:1979年中國56萬大軍猛攻,越軍無力抗衡

      蘇顧問加波年科回憶:1979年中國56萬大軍猛攻,越軍無力抗衡

      嘮叨說歷史
      2026-01-17 10:07:31
      反擊已經開始,中國3份通告直達巴拿馬,想要“吞”港口后果嚴重

      反擊已經開始,中國3份通告直達巴拿馬,想要“吞”港口后果嚴重

      青煙小先生
      2026-02-05 16:47:44
      特朗普又遭遇失敗,紐森贏得一局

      特朗普又遭遇失敗,紐森贏得一局

      山河路口
      2026-02-05 18:23:36
      一個負債累累的中國人,跑到巴基斯坦當村長,還建起了中文課堂

      一個負債累累的中國人,跑到巴基斯坦當村長,還建起了中文課堂

      健身狂人
      2026-02-05 13:09:22
      這4種病一得,生命就進入倒計時?醫生:千萬別低估體檢的重要性

      這4種病一得,生命就進入倒計時?醫生:千萬別低估體檢的重要性

      鬼菜生活
      2026-02-03 20:12:50
      貴州茅臺,大漲!i茅臺,又崩了!

      貴州茅臺,大漲!i茅臺,又崩了!

      中國基金報
      2026-02-05 14:34:04
      嫣然天使兒童醫院舉辦年會,李亞鵬幾度哽咽:我想我們應該是可以渡過這個難關,管虎、梁靜、那英、董宇輝等人都曾捐款支持醫院

      嫣然天使兒童醫院舉辦年會,李亞鵬幾度哽咽:我想我們應該是可以渡過這個難關,管虎、梁靜、那英、董宇輝等人都曾捐款支持醫院

      極目新聞
      2026-02-05 14:31:00
      Stein:庫明加是字母哥交易核心籌碼,勇士基本退出競爭

      Stein:庫明加是字母哥交易核心籌碼,勇士基本退出競爭

      林子說事
      2026-02-05 14:52:20
      萬斯回應愛潑斯坦案文件:揭露了美國精英階層存在道德敗壞現象,令人作嘔

      萬斯回應愛潑斯坦案文件:揭露了美國精英階層存在道德敗壞現象,令人作嘔

      環球網資訊
      2026-02-05 09:59:36
      盛況空前!西方領導人排隊來華,俄專家卻給中國提了一個醒

      盛況空前!西方領導人排隊來華,俄專家卻給中國提了一個醒

      時尚的弄潮
      2026-02-05 11:26:15
      馬斯克批評諾蘭新品選擇黑人飾演古希臘神話美女,引發輿論爭議

      馬斯克批評諾蘭新品選擇黑人飾演古希臘神話美女,引發輿論爭議

      新浪財經
      2026-02-05 11:02:09
      楊蘭蘭被追加2項罪名指控!今天澳洲又開庭!事態升級

      楊蘭蘭被追加2項罪名指控!今天澳洲又開庭!事態升級

      霹靂炮
      2026-02-05 18:02:26
      43歲失業找不到工作想學個手藝不知道學什么?網友紛紛在線支招

      43歲失業找不到工作想學個手藝不知道學什么?網友紛紛在線支招

      另子維愛讀史
      2026-01-22 18:15:51
      王毅外長:今后世上再無“中國臺灣省”之外的任何模糊稱謂。

      王毅外長:今后世上再無“中國臺灣省”之外的任何模糊稱謂。

      南權先生
      2026-02-02 15:59:44
      央媒終于出手!閆學晶再傳壞消息,怕什么來什么,結局注定?

      央媒終于出手!閆學晶再傳壞消息,怕什么來什么,結局注定?

      可樂談情感
      2026-02-05 14:56:13
      廣東6歲女孩網上炫耀“假期很閑”,網友們寄來堆成山的作業和戒尺:太扎心了,必須給她找點事做

      廣東6歲女孩網上炫耀“假期很閑”,網友們寄來堆成山的作業和戒尺:太扎心了,必須給她找點事做

      極目新聞
      2026-02-05 19:10:15
      2026-02-05 20:28:49
      Web3天空之城 incentive-icons
      Web3天空之城
      美好,有趣的,值得銘記的
      106文章數 92關注度
      往期回顧 全部

      科技要聞

      美團7.17億元收購叮咚買菜

      頭條要聞

      普京計劃上半年對中國進行訪問 外交部回應

      頭條要聞

      普京計劃上半年對中國進行訪問 外交部回應

      體育要聞

      奇才:我學生……獨行俠:成交!

      娛樂要聞

      謝娜明年開演唱會:帶老歌出來見見人

      財經要聞

      中美"只會有好消息" 經濟冷暖看房價

      汽車要聞

      李想為全新L9預熱 all in AI造更好的車

      態度原創

      旅游
      家居
      游戲
      手機
      公開課

      旅游要聞

      從特色消費活動到精彩演出,今年春節這樣玩轉東城

      家居要聞

      簡雅序章 自然且閑適

      《守望先鋒》證實!未來的角色會變得“越來越性感”

      手機要聞

      消息稱某廠天璣9500性能機測試0815±X軸馬達

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版