網易首頁 > 網易號 > 正文申請入駐

NVIDIA推出PixelDiT：讓AI直接在原圖上作畫，告別"壓縮失真"時代

2025-12-04 21:03:27　來源: 科技行者

北京舉報

分享至

這項由NVIDIA和羅切斯特大學聯合開展的突破性研究發表于2025年11月，研究團隊包括NVIDIA的韋小龍博士（項目負責人）、聶維利博士等多位專家。有興趣深入了解的讀者可以通過論文編號arXiv:2511.20645v1查詢完整論文。

過去幾年，當我們驚嘆于AI生成的精美圖片時，很少有人知道這些AI其實并不是直接在"畫布"上作畫的。就像畫家需要先把復雜的風景畫壓縮成簡單的草圖，然后在草圖上作畫，最后再還原成完整畫作一樣，現有的AI圖像生成系統也采用了類似的"兩階段"工作方式。它們首先使用一個叫做"自編碼器"的工具，把原始圖像壓縮成更小的表示，然后在這個壓縮空間里進行創作，最后再解壓回原始圖像。

這種方法雖然大大降低了計算成本，但也帶來了一個根本性問題：每次壓縮和解壓都會丟失一些細節，就像復印件的復印件總是比原件模糊一樣。當我們需要編輯圖像時，這種失真會變得更加明顯。設想你想要把照片中的自行車改成摩托車，現有的AI系統可能會成功完成主要的替換，但照片背景中的小字、紋理等細節往往會變得模糊不清，因為這些信息在壓縮過程中已經丟失了。

NVIDIA的研究團隊提出了一個看似簡單但實際上非常困難的解決方案：讓AI直接在原始像素上工作，跳過壓縮這一步。這就像讓畫家直接在最終的畫布上作畫，而不是先畫草圖再轉換。雖然這個想法很直觀，但實現起來極其困難，因為直接處理原始像素需要處理的信息量是壓縮方式的數百倍，計算成本會呈指數級增長。

**一、突破傳統思路的"雙層畫家"架構**

為了解決直接在像素空間工作的巨大計算挑戰，研究團隊設計了一個巧妙的"雙層畫家"系統，他們稱之為PixelDiT。這個系統就像是兩個專業分工不同的畫家在協作創作一幅畫：一個負責整體構圖和色彩搭配的"構圖大師"，另一個專門負責細節雕琢的"細節專家"。

構圖大師工作在較粗的"畫塊"級別，每個畫塊包含16×16個像素。它的任務是理解圖像的整體語義信息，比如這幅畫應該是一只狗、一座山還是一個人，以及這些元素應該如何排布。由于工作在粗粒度級別，構圖大師可以高效地處理全局信息，快速確定圖像的大致輪廓和結構。

與此同時，細節專家則專注于每一個像素的精確處理。它接收構圖大師提供的語義指導，然后在每個像素上進行精細的紋理、邊緣和細節處理。這種分工讓系統既能保持全局一致性，又能在細節層面達到極高的精度。

更重要的是，研究團隊為這兩個畫家之間設計了一套精密的溝通機制。細節專家不是盲目地處理每個像素，而是會根據構圖大師提供的語義信息，為每個像素定制不同的處理策略。這就像細節專家會根據構圖大師的指示，知道某個區域應該畫成毛發的質感還是金屬的光澤，然后相應地調整自己的畫筆。

**二、解決"像素信息爆炸"的壓縮技巧**

即使有了雙層架構，直接處理像素信息仍然面臨著信息量爆炸的問題。一張256×256的圖像包含超過65000個像素，如果讓AI同時關注所有像素之間的關系，計算量將是天文數字。這就像讓一個人同時記住一萬個朋友的所有互動關系一樣不現實。

研究團隊開發了一個叫做"像素令牌壓縮"的巧妙技術。這個技術在細節專家進行全局注意力計算時，臨時將像素信息壓縮成更緊湊的表示，完成全局信息交換后，再將其展開回像素級別。這就像開會討論時，每個部門先內部統一意見，派一個代表參加大會，會后再回到部門內部具體執行。

這種壓縮是可逆的和非破壞性的，與傳統方法的根本區別在于，它只是為了減少計算時的中間步驟復雜度，而不會永久性地丟失信息。所有的高頻細節信息都通過殘差連接和學習到的展開層得到了保留。

為了讓每個像素都能獲得準確的語義指導，研究團隊還設計了"像素級自適應調制"機制。傳統方法會給一個畫塊內的所有像素應用相同的處理參數，就像給一整片區域涂上同樣的顏色。而PixelDiT為每個像素提供獨立的處理參數，使得同一個畫塊內的不同像素可以接收到精確定制的語義指導。

**三、從理論到實踐的性能驗證**

研究團隊在ImageNet數據集上進行了全面的性能測試，結果令人印象深刻。PixelDiT-XL在256×256分辨率的圖像生成任務上達到了1.61的FID分數（FID分數越低表示生成圖像質量越高），大幅超越了此前最好的像素空間生成模型。

更令人驚訝的是，PixelDiT展現出了極快的收斂速度。傳統的像素空間模型通常需要訓練數千輪才能收斂，而PixelDiT僅用80輪訓練就達到了2.36的FID分數，這已經超過了許多完全訓練的傳統像素模型。這種快速收斂得益于雙層架構的有效分工：構圖大師快速學會了全局語義理解，而細節專家則專注于紋理細節的完善。

在文本到圖像生成任務上，PixelDiT的表現同樣出色。研究團隊將模型擴展到支持文本輸入，并直接在1024×1024的高分辨率上進行訓練，這在此前的像素空間模型中是極其困難的。在GenEval和DPG-bench等標準測試中，PixelDiT分別獲得了0.74和83.5的分數，接近目前最先進的潛在擴散模型的性能水平。

**四、圖像編輯中的"無損優勢"**

PixelDiT最引人注目的優勢體現在圖像編輯任務中。研究團隊展示了一個生動的對比實驗：使用FlowEdit技術將照片中的自行車替換為摩托車。使用傳統潛在擴散模型（如Stable Diffusion 3和FLUX）時，雖然主要的替換任務完成了，但照片背景墻上的文字變得完全不可識別，出現了嚴重的扭曲和模糊。

這種失真的根本原因在于傳統方法的"兩次轉換"過程：首先自編碼器將原始圖像編碼到潛在空間時就丟失了部分細節信息，然后在潛在空間中進行編輯，最后解碼回像素空間時又引入了額外的失真。這就像把一段音樂錄制成磁帶，再從磁帶復制到CD，每一次轉換都會丟失一些音質。

相比之下，PixelDiT完全避免了這種多重失真，因為它從始至終都在原始像素空間工作。在同樣的編輯任務中，PixelDiT不僅成功地將自行車替換為摩托車，還完美保持了背景中所有文字的清晰度和可讀性。這種"無損編輯"能力對于需要精確保持細節的專業應用具有重要意義，比如文檔圖像的編輯、藝術品的修復，或者需要保持品牌標識清晰度的商業圖像處理。

**五、計算效率的巧妙平衡**

雖然直接在像素空間工作聽起來計算成本很高，但PixelDiT通過精心的架構設計實現了令人意外的計算效率。在256×256分辨率下，PixelDiT-XL的單次前向傳播僅需要311 GFLOPs，這個數值與許多潛在空間模型（238-292 GFLOPs）相當接近，但遠低于其他像素空間模型（通常需要數千GFLOPs）。

這種效率的實現主要歸功于兩個關鍵設計：首先是雙層架構的分工，大部分語義計算在較粗粒度的畫塊級別完成，只有細節處理需要在像素級別進行。其次是像素令牌壓縮技術，大大減少了全局注意力計算的復雜度。

研究團隊還發現了一個有趣的規律：隨著模型規模的增大，小畫塊大小帶來的收益會逐漸減少。對于基礎模型，使用4×4的畫塊比16×16的畫塊效果明顯更好，但對于大型模型，這種差異幾乎消失。這表明大模型具有更強的表示能力，可以在較粗的粒度上也能捕獲足夠的細節信息。

在實際應用中，PixelDiT的推理速度也表現不俗。在512×512分辨率下，PixelDiT-T2I可以達到每秒1.07張圖像的生成速度，在1024×1024分辨率下仍能保持每秒0.33張圖像的速度，這在實際應用中是完全可接受的。

**六、從實驗室到現實應用的廣闊前景**

PixelDiT的成功不僅僅是一個技術突破，更重要的是它為整個AI圖像生成領域指出了一個新方向。傳統上，研究者們普遍認為直接在像素空間工作是不現實的，因為計算成本太高。PixelDiT證明了通過合理的架構設計，這個"不可能"的任務是完全可以實現的。

這種直接像素空間方法的最大價值在于它的"所見即所得"特性。設計師和藝術家在使用這類工具時，不需要擔心因為編碼解碼過程導致的細節丟失，他們看到的每一個像素都是最終輸出的真實像素。這種確定性對于專業應用是極其重要的。

在具體應用場景中，PixelDiT特別適合那些對細節要求極高的任務。比如在電影特效制作中，需要在保持演員面部細微表情的同時改變背景；在建筑設計中，需要在保持建筑結構細節清晰的同時調整環境光照；在產品設計中，需要在保持產品質感和細節的同時改變顏色或材質。

研究團隊也坦誠地指出了當前模型的局限性。由于模型參數規模（1.3B參數）相對較小，加上高質量訓練數據的限制，PixelDiT在處理某些復雜場景時仍有困難，特別是人手的幾何結構和復雜建筑場景的生成。不過，這些局限性主要是工程問題而非理論問題，隨著模型規模的擴大和訓練數據的豐富，這些問題都有望得到解決。

說到底，PixelDiT最重要的貢獻不是某個具體的性能指標，而是它證明了"直接在像素空間進行高質量圖像生成"這件事是完全可行的。這個概念驗證為未來的研究開辟了全新的道路。當越來越多的研究者開始探索這個方向時，我們可能會看到更多令人驚喜的突破。

歸根結底，PixelDiT代表了AI圖像生成技術從"近似"向"精確"邁出的重要一步。雖然目前它還不能完全替代現有的潛在空間方法，但它展示的"無損生成"理念可能會深刻影響整個領域的發展方向。對于普通用戶來說，這意味著未來的AI圖像工具將能夠提供更精確、更可控的創作體驗，真正實現"想象到什么就能精確生成什么"的愿景。有興趣深入了解技術細節的讀者，可以通過論文編號arXiv:2511.20645v1查詢NVIDIA團隊發布的完整研究論文。

Q&A

Q1：PixelDiT和傳統AI圖像生成方法最大的區別是什么？

A：傳統方法需要先把圖像壓縮成簡化版本，在簡化版本上生成，最后還原回原圖，這個過程會丟失細節。而PixelDiT直接在原始像素上工作，就像畫家直接在最終畫布上作畫，避免了壓縮和解壓過程中的信息損失。

Q2：PixelDiT在圖像編輯方面有什么優勢？

A：PixelDiT的最大優勢是"無損編輯"。比如把照片中的自行車改成摩托車時，傳統方法會讓背景中的小字變模糊，而PixelDiT能完美保持所有細節的清晰度，因為它沒有壓縮解壓的失真過程。

Q3：PixelDiT的計算成本會不會很高？

A：雖然直接處理像素聽起來成本很高，但PixelDiT通過"雙層畫家"架構和像素壓縮技巧，將計算成本控制在與傳統方法相近的水平。它的推理速度完全滿足實際應用需求，在1024×1024分辨率下能達到每秒0.33張圖像。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.