<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      清華段岳圻團隊論文:從調參數到做控制,文生圖迎來一次方法論升級丨CVPR 2026

      0
      分享至

      很多人在使用文生圖工具時都會遇到類似的情況,輸入一段很清晰的描述,希望畫面中人物站在左邊、動物在右邊,或者希望海報上出現一段完整可讀的文字,但生成結果卻常常讓人失望。

      要么位置關系混亂,要么文字變形,要么整體畫面看起來不自然。繼續調整參數,有時結果會更接近描述,但畫面質量卻明顯下降,顏色變得奇怪,結構開始扭曲。反復嘗試之后,往往需要生成十幾張甚至幾十張圖,才能勉強挑出一張可用的。

      這種既想讓模型聽懂指令,又不希望畫面被破壞的矛盾體驗,已經成為很多用戶在實際使用生成模型時的共同感受。

      隨著生成式人工智能逐漸進入設計、電商、內容創作等真實場景,這種問題變得更加突出。用戶不再只是追求一張看起來不錯的圖,而是希望結果穩定、結構正確、細節可靠,可以直接用于實際工作。

      然而現有方法在可控性和穩定性之間始終存在明顯沖突,模型越是強調語義對齊,就越容易犧牲視覺質量,這種內在限制逐漸成為生成模型走向更廣泛應用的一道門檻。

      在這樣的背景下,清華大學段岳圻團隊提出了《CFG-Ctrl: Control-Based Classifier-Free Diffusion Guidance》這一研究工作,從更底層的角度重新審視這一問題。

      研究不再把 CFG 當作簡單的參數調節手段,而是將整個生成過程看作一個動態系統,把語義偏差理解為需要被控制的誤差,并引入控制理論來重新設計 guidance 機制。這種思路的變化,使得生成過程不再依賴反復試錯,而是可以通過更穩定的方式逐步收斂到符合語義約束的結果。

      這種改進在實際場景中的意義也很直觀。當需要生成具有明確空間關系的畫面時,模型能夠更穩定地保持結構一致;當畫面中包含文字時,內容更容易保持清晰和正確;在復雜場景中,多對象之間的關系也更不容易出現錯亂。

      用戶不再需要通過大量嘗試去碰運氣,而更有可能在較少次數內得到符合預期的結果。這樣的變化,正體現出生成模型從偶爾成功走向穩定可靠的關鍵一步,也讓這項研究在當前發展階段顯得尤為重要。


      論文地址:https://arxiv.org/pdf/2603.03281

      從高 scale 穩定性到復雜 prompt 表現

      在實驗結果方面,研究人員首先關心的是,相比標準 CFG(Classifier-Free Guidance),性能提升是否全面且穩定。結論是肯定的,而且提升并不是集中在某一個指標上,而是體現在多個維度同時改善。

      比如在圖像質量指標 FID(Fréchet Inception Distance) 上,SMC-CFG 比標準 CFG 進一步下降了一小截,說明生成結果更接近真實圖像分布。在語義對齊指標 CLIP 上,提升幅度雖然不算特別大,但表現很穩定,基本能夠持續領先其他方法,這說明這種改進并不是靠某類樣本上的偶然優勢,而是真正增強了模型對文本語義的理解能力。

      在人類偏好相關指標上,像 ImageReward、HPS、PickScore 等提升更明顯,而且很多時候都處在所有方法里的最高水平。真正重要的是,SMC-CFG 不是只把某一個指標做高,而是在圖像質量、語義對齊和主觀偏好這些通常很難兼顧的方向上一起變好。

      從跨模型的一致性來看,研究使用了 3 種不同規模的文生圖模型,分別是中等規模的 SD3.5、較大規模的 Flux,以及超大規模的 Qwen-Image。實驗中有一個很明顯的現象,就是模型規模越大,SMC-CFG 的優勢越清楚。


      在較小模型上,這種優勢更多體現為略優,而在更大模型上,它在多個指標上能夠持續拉開差距。這說明,SMC-CFG 解決的并不只是一個局部調參問題,而更像是在處理模型規模增大后更容易出現的不穩定性問題。

      研究還把它與 CFG-Zero* 和 Rectified-CFG++ 這些已經改進過的方法做了比較,結果顯示,SMC-CFG 依然能夠繼續取得提升,而且這種優勢不是某個指標上的局部突破,而更接近整體性的領先,這也說明它不是簡單技巧,而是機制層面的改進。

      高 guidance scale 下的表現,是整項研究最關鍵的結果之一。傳統 CFG 的典型問題是,guidance scale 增大后,語義對齊通常會更強,但圖像質量往往會明顯下降,也就是模型越努力貼近文本,越容易把畫面做壞。

      實驗顯示,標準 CFG 隨著 scale 提升,圖像劣化會越來越明顯,而 SMC-CFG 在同樣條件下仍然能夠繼續增強語義信息,同時把圖像質量維持在相對穩定的狀態。這意味著它在一定程度上打破了語義準確性和圖像質量之間那種經典的此消彼長關系。


      與此同時,在復雜 prompt 下,傳統方法容易出現空間關系錯位、結構混亂、文字模糊或錯誤等問題,而 SMC-CFG 在空間關系、細節穩定性和文字清晰度上都更好,這說明它不僅分數更高,也確實提升了模型對復雜結構和關系的理解能力。

      研究團隊還做了消融實驗,分析兩個關鍵參數的作用。其中,λ 控制收斂方向,k 控制糾正力度。實驗發現,λ 過小或過大都會讓系統偏離更理想的穩定軌道,而 k 過小會讓收斂變慢,語義表現偏弱,k 過大又會引發震蕩,讓畫面顯得不自然。

      綜合來看,最佳狀態對應的是中等 λ 加上適中的 k,在這種組合下,系統能夠同時實現穩定、快速和精準。更深一層地說,這部分結果說明 SMC-CFG 的優勢不是偶然調參得到的,而是符合控制系統里很典型的規律,也就是穩定性和響應速度之間需要找到平衡。雷峰網


      并非簡單跑分,而是一種新的控制邏輯

      在實驗經過方面,研究人員并不是簡單進行指標對比,而是圍繞一個明確的核心假設展開,也就是 CFG 的問題本質上來源于線性控制方式本身,因此需要通過新的控制機制來驗證是否能夠系統性改進這一問題。

      基于這一前提,整個實驗設計圍繞三個關鍵方向推進。首先是穩定性驗證,研究人員通過在高 guidance scale 條件下進行測試,因為這一設置會放大 CFG 的不穩定問題,如果方法在這種情況下仍然保持穩定,就能夠說明控制機制本身更加魯棒。


      其次是準確性驗證,通過引入語義指標并結合復雜 prompt 場景,例如包含空間關系、多物體關系或細粒度描述的輸入,來檢驗生成結果是否真正理解文本內容,而不是僅僅在簡單場景下表現良好。

      最后是對真實感的評估,通過 FID 和多種人類偏好相關指標來判斷生成圖像是否接近真實分布,同時是否符合人類審美和直覺判斷。從整體邏輯來看,這一系列實驗并不是在比較不同模型誰更強,而是在驗證一種控制系統是否能夠更有效地引導生成過程。


      在模型選擇上,研究團隊刻意選用了 SD3.5、Flux 和 Qwen-Image 三種具有明顯差異的模型。這些模型不僅在參數規模上從中等到超大存在明顯跨度,而且在具體架構上也有所不同,但都屬于 flow-matching diffusion 這一技術路線。

      這樣的選擇使實驗能夠覆蓋不同復雜度和不同表達能力的生成系統,從而檢驗方法是否具備跨模型的通用性。如果一種方法只在單一模型上有效,很可能只是針對特定結構進行了適配,而在多模型上都能保持提升,則更能說明其改進具有普適意義。

      在評價體系的設計上,研究人員采用了分層結構來避免單一指標帶來的偏差。第一層關注分布層面,通過 FID 衡量生成圖像與真實數據分布之間的距離,從而反映整體圖像質量和真實性。

      第二層關注語義層面,通過 CLIP 等指標評估圖像內容與文本之間的一致性,這一層主要反映模型是否正確理解輸入語義。第三層則引入人類偏好相關指標,用于評估生成結果在視覺上是否自然、是否具有審美價值以及是否符合人類直覺。

      這三層從統計分布、語義匹配和主觀感受三個角度共同約束模型表現,可以有效避免模型在某一指標上表現突出但整體效果不佳的問題。


      研究團隊還通過消融實驗對方法內部機制進行了進一步分析。由于 SMC-CFG 引入了滑模面作為控制目標,并通過 switching 控制實現非線性反饋,這些設計都可能影響系統的穩定性和收斂行為,因此需要單獨驗證各個組成部分的作用。

      通過調整關鍵參數,可以觀察到系統在收斂速度、穩定性以及生成效果之間的變化關系,從而判斷性能提升是否確實來源于控制機制本身,而不是偶然的參數組合。這一步對于證明方法的可靠性非常關鍵,因為只有在不同設置下仍然表現出一致規律,才能說明設計具有理論支撐。

      綜合來看,這一系列實驗構成了一個清晰的驗證邏輯,也就是從線性控制到非線性控制的轉變所帶來的影響。傳統 CFG 作為線性控制方式,在復雜生成過程中容易引發不穩定行為,而引入滑模控制后,系統能夠更穩定地收斂到目標狀態。

      在這種更穩定的動態過程中,語義信息能夠更有效地注入,同時圖像質量不會受到明顯破壞,因此最終表現為語義對齊更好且圖像質量更高。整個實驗過程實際上是在逐步驗證這一因果鏈條,從而證明新的控制機制確實能夠從根本上改進生成過程。

      不是改進 CFG,而是重寫 CFG

      這項研究并不只是說明研究提出了一種更強的方法,更重要的是,它改變了人們理解圖像生成模型的方式。過去,CFG 更像是一種經驗性的調節手段,很多時候只能靠不斷試參數來找平衡,知道它有用,但很難解釋為什么有時有效、有時會失控。雷峰網

      研究團隊把這個問題提升成了控制問題,也就是把條件預測和無條件預測之間的差異看成誤差信號,把 guidance 看成控制輸入,把 diffusion flow 看成一個動態系統。這樣一來,后續研究就不再只是反復調 guidance,而是可以像設計控制系統一樣,去分析穩定性、收斂性和魯棒性,從經驗技巧走向系統理論。

      研究還有一個很重要的意義,就是把 CFG 為什么會失敗這件事講清楚了。很多人都知道,guidance scale 一旦調高,模型雖然會更聽 prompt 的話,但圖像也更容易崩,出現顏色不自然、結構扭曲、細節變壞的問題。

      研究人員說明,根本原因在于 CFG 本質上是在做線性誤差放大,而 diffusion 本身卻是一個非線性系統,所以一旦放大過頭,就容易出現振蕩和發散。也正因為如此,研究團隊引入了滑模控制這種非線性控制方法,讓系統在復雜情況下也能被拉回更穩定的軌道。

      這個突破的意義在于,它說明 diffusion guidance 本質上不是一個簡單調權重的問題,而是一個需要用非線性控制來處理的問題。

      對普通人來說,這項研究的影響也很直接。用戶在使用 AI 繪圖工具時,最關心的不是背后的理論,而是輸入一句話之后,結果能不能穩定、能不能少翻車、能不能更接近自己的想法。更穩定的 guidance 機制意味著,以后生成復雜畫面時,空間關系錯亂、文字錯誤、結構崩壞這些問題會更少,用戶不需要為了得到一張能用的圖反復嘗試很多次。

      對于設計師、自媒體創作者、電商運營等人來說,這會直接降低試錯成本,提高出圖效率。更長遠地看,這項研究的價值就在于,它推動文生圖模型從偶爾驚艷但不穩定,逐漸走向真正可靠、可以進入日常工作和生活的工具。

      CFG-Ctrl 背后的科研工作者

      論文一作為汪晗陽,現為清華大學電子工程系碩士一年級學生,本科畢業于清華大學計算機科學與技術系,2025 年獲得工學學士學位,師從段岳圻,研究方向集中在 3D 計算機視覺、視頻生成和 AIGC。

      相關學術成果發表于 CVPR、ICCV、NeurIPS、ECCV、TIP 和 TPAMI 等重要會議與期刊,內容涉及稀疏視角 3D 重建、3D 生成中的人類偏好對齊、語言嵌入場景重建、視頻生成測試時擴展、物理屬性學習,以及從單張圖像生成高質量 3D 網格等方向。

      論文的通訊作者為段岳圻,他是清華大學電子工程系教研系列副教授,博士生導師。研究方向為計算機視覺、模式識別。2014 年和 2019 年在清華大學自動化系分別獲得工學學士和博士學位,2019 至 2021 年在斯坦福大學計算機系擔任博士后研究員,合作導師為美國三院院士Leonidas J. Guibas教授。

      他以第一/通訊作者發表計算機視覺與模式識別領域 IEEE匯 刊和 CCF-A 類會議論文 40 余篇,以通訊作者獲 2024 年 ICME 最佳論文提名。

      段岳圻入選中國科協青年人才托舉工程項目,獲 2025 年中國電子學會技術發明一等獎、2024 年中國電子學會自然科學一等獎、2024 年公安部科學技術一等獎。

      擔任IEEE TCSVT期刊編委,CVPR、ICCV、ECCV、ICML、ICLR等國際會議領域主席,中國計算機學會計算機視覺、人工智能與模式識別、多媒體技術專委會執行委員。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      被網友的“回形針用法”驚到了!果然,人類對回形針的開發不足1%

      被網友的“回形針用法”驚到了!果然,人類對回形針的開發不足1%

      美家指南
      2026-04-22 16:26:39
      莫氏雞煲分店即將開業,網友:老板其實很會做生意!

      莫氏雞煲分店即將開業,網友:老板其實很會做生意!

      映射生活的身影
      2026-04-25 12:48:21
      王治郅和二婚妻子近照,亮相名人堂,為他生2娃,依舊美麗動人

      王治郅和二婚妻子近照,亮相名人堂,為他生2娃,依舊美麗動人

      大西體育
      2026-04-24 21:59:33
      “少女胯”和“媽媽胯”有啥區別?看鐘麗緹和謝娜產后身材,秒懂

      “少女胯”和“媽媽胯”有啥區別?看鐘麗緹和謝娜產后身材,秒懂

      菁媽育兒
      2026-04-25 11:04:17
      毛焦爾:應該問讓烏割讓領土的人,如果匈牙利遭襲準備放棄哪個州

      毛焦爾:應該問讓烏割讓領土的人,如果匈牙利遭襲準備放棄哪個州

      黃麗搞笑小能手
      2026-04-22 20:41:02
      iPhone 18 Pro新配色:酒紅比橙紅更高級?

      iPhone 18 Pro新配色:酒紅比橙紅更高級?

      碼上閑敘
      2026-04-24 10:23:52
      7國南海搞軍演,轉頭求中國救急?中方一句話:不會拉你一把

      7國南海搞軍演,轉頭求中國救急?中方一句話:不會拉你一把

      深析古今
      2026-04-25 13:28:17
      男子送相親對象回家遇其忘帶鑰匙,開房遭拒后女子怒斥男子真沒用

      男子送相親對象回家遇其忘帶鑰匙,開房遭拒后女子怒斥男子真沒用

      番外行
      2026-04-24 08:55:30
      山東新娘輸液昏迷92天初現意識,當地啟動鑒定程序,丈夫:她沖我笑了,但仍是“睜眼昏迷”狀態;其稱妻子是班里最漂亮女生,正籌備婚禮

      山東新娘輸液昏迷92天初現意識,當地啟動鑒定程序,丈夫:她沖我笑了,但仍是“睜眼昏迷”狀態;其稱妻子是班里最漂亮女生,正籌備婚禮

      大風新聞
      2026-04-24 12:03:15
      月薪1.6萬招放羊工老板:電話快被打爆了,更適合四五十歲的夫妻搭檔,一個人來的都拒絕了

      月薪1.6萬招放羊工老板:電話快被打爆了,更適合四五十歲的夫妻搭檔,一個人來的都拒絕了

      環球網資訊
      2026-04-24 14:55:55
      比恒大還慘!中國第二大民企轟然倒塌,負債7500億,創始人被帶走

      比恒大還慘!中國第二大民企轟然倒塌,負債7500億,創始人被帶走

      古事尋蹤記
      2025-12-27 07:16:35
      你在無意中發現別人什么秘密?網友爆料,電視劇都不敢這樣演

      你在無意中發現別人什么秘密?網友爆料,電視劇都不敢這樣演

      夜深愛雜談
      2026-03-16 22:21:03
      美國前財長突然警告:如果沒人買美債,后果可能比2008年更嚴重

      美國前財長突然警告:如果沒人買美債,后果可能比2008年更嚴重

      墨印齋
      2026-04-25 10:39:26
      哥倫比亞廣播公司亂套:記者看完節目當場辭職,內部開會公開抗議

      哥倫比亞廣播公司亂套:記者看完節目當場辭職,內部開會公開抗議

      閱盡天下大事
      2026-04-25 04:18:15
      楊瀚森打破季后賽數據空白!開拓者不敵殘陣馬刺

      楊瀚森打破季后賽數據空白!開拓者不敵殘陣馬刺

      體壇周報
      2026-04-25 14:03:22
      五一前后,打死都不要買這4種蔬菜,沒營養傷身體,菜販子都不吃

      五一前后,打死都不要買這4種蔬菜,沒營養傷身體,菜販子都不吃

      愛生活的陶哥
      2026-04-25 09:13:15
      SSD價格再漲10%!2TB SSD價格已對標RTX 5080

      SSD價格再漲10%!2TB SSD價格已對標RTX 5080

      3DM游戲
      2026-04-24 17:38:02
      俄羅斯專家:美國所有總統都知道打伊朗的后果,只有特朗普不知道

      俄羅斯專家:美國所有總統都知道打伊朗的后果,只有特朗普不知道

      揭秘歷史的真相
      2026-04-23 21:03:05
      5月迎來轉運:事業破局宏圖大展,這3個生肖要翻身發達!

      5月迎來轉運:事業破局宏圖大展,這3個生肖要翻身發達!

      毅談生肖
      2026-04-25 10:39:50
      老年人的性生活多久一次合理?要戴套嗎?答案顛覆認知

      老年人的性生活多久一次合理?要戴套嗎?答案顛覆認知

      賤議你讀史
      2026-03-06 23:28:50
      2026-04-25 15:48:49
      雷峰網 incentive-icons
      雷峰網
      關注智能與未來!
      69148文章數 656119關注度
      往期回顧 全部

      教育要聞

      想不到!這所市級優質中學的這波操作出圈了

      頭條要聞

      哈啰變速車1.5小時收費高達45元 游客直呼:騎不起

      頭條要聞

      哈啰變速車1.5小時收費高達45元 游客直呼:騎不起

      體育要聞

      火箭0-3觸發百分百出局定律:本季加時賽9戰8敗

      娛樂要聞

      鄧超最大的幸運,就是遇見孫儷

      財經要聞

      90%訂單消失,中東旺季沒了

      科技要聞

      DeepSeek V4發布!黃仁勛預言的"災難"降臨

      汽車要聞

      2026款樂道L90亮相北京車展 樂道L80正式官宣

      態度原創

      手機
      游戲
      藝術
      教育
      軍事航空

      手機要聞

      一加Ace 6至尊版手機規格匯總,4月28日發布

      免費工具《IndieUp》Beta版發布 匹配游戲與直播UP主

      藝術要聞

      荒廢十多年!福建石獅“最美爛尾樓”,德國品牌接盤了

      教育要聞

      中考易錯題型:胡不歸問題

      軍事要聞

      美防長:戰事不會“沒完沒了”

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 日韩人妻无码精品无码中文字幕 | 成人午夜视频在线观看高清| 国产精品成人99久久久久| 国精品99久9在线 | 免费| 精品少妇爆乳无码aⅴ区| 日日躁夜夜躁狠狠躁超碰97| 少妇激情一区二区三区视频小说 | AV天堂免费观看| 综合久久亚洲| 综合色在线| 国产精品自在在线午夜区app| 亚洲人成无码网站久久99热国产| 久草精品视频| 色老板精品视频在线观看| 99xa视频在线观看| 国产亚洲国产精品二区| 成年女人永久免费观看视频| 青青草av| 国产成人无码精品一区二区三区| 国产av一区二区午夜福利| 国产大陆亚洲精品国产| 538在线精品视频| 五月综合视频| 精品国产一区二区三区四区| jiZZjiZZ欧美69| 亚洲成人av在线观看| 国内精品大秀视频日韩精品| 久久久久久久久免费看无码| 亚洲高清毛片一区二区| 亚洲熟妇无码av不卡在线观看| 国内精品久久久久精免费| www.干| 综合一区二区| 丰满少妇被猛烈进入| 欧美成人17| 国产在线精品福利91香蕉| 国产一区曰韩二区欧美三区| 人妻少妇不满足中文字幕| 国产中年熟女大集合| 精品人妻系列无码人妻漫画| 亚洲精品在线视频自拍|