<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      NVIDIA推出PixelDiT:讓AI直接在原圖上作畫,告別"壓縮失真"時代

      0
      分享至


      這項由NVIDIA和羅切斯特大學聯合開展的突破性研究發表于2025年11月,研究團隊包括NVIDIA的韋小龍博士(項目負責人)、聶維利博士等多位專家。有興趣深入了解的讀者可以通過論文編號arXiv:2511.20645v1查詢完整論文。

      過去幾年,當我們驚嘆于AI生成的精美圖片時,很少有人知道這些AI其實并不是直接在"畫布"上作畫的。就像畫家需要先把復雜的風景畫壓縮成簡單的草圖,然后在草圖上作畫,最后再還原成完整畫作一樣,現有的AI圖像生成系統也采用了類似的"兩階段"工作方式。它們首先使用一個叫做"自編碼器"的工具,把原始圖像壓縮成更小的表示,然后在這個壓縮空間里進行創作,最后再解壓回原始圖像。

      這種方法雖然大大降低了計算成本,但也帶來了一個根本性問題:每次壓縮和解壓都會丟失一些細節,就像復印件的復印件總是比原件模糊一樣。當我們需要編輯圖像時,這種失真會變得更加明顯。設想你想要把照片中的自行車改成摩托車,現有的AI系統可能會成功完成主要的替換,但照片背景中的小字、紋理等細節往往會變得模糊不清,因為這些信息在壓縮過程中已經丟失了。

      NVIDIA的研究團隊提出了一個看似簡單但實際上非常困難的解決方案:讓AI直接在原始像素上工作,跳過壓縮這一步。這就像讓畫家直接在最終的畫布上作畫,而不是先畫草圖再轉換。雖然這個想法很直觀,但實現起來極其困難,因為直接處理原始像素需要處理的信息量是壓縮方式的數百倍,計算成本會呈指數級增長。

      **一、突破傳統思路的"雙層畫家"架構**

      為了解決直接在像素空間工作的巨大計算挑戰,研究團隊設計了一個巧妙的"雙層畫家"系統,他們稱之為PixelDiT。這個系統就像是兩個專業分工不同的畫家在協作創作一幅畫:一個負責整體構圖和色彩搭配的"構圖大師",另一個專門負責細節雕琢的"細節專家"。

      構圖大師工作在較粗的"畫塊"級別,每個畫塊包含16×16個像素。它的任務是理解圖像的整體語義信息,比如這幅畫應該是一只狗、一座山還是一個人,以及這些元素應該如何排布。由于工作在粗粒度級別,構圖大師可以高效地處理全局信息,快速確定圖像的大致輪廓和結構。

      與此同時,細節專家則專注于每一個像素的精確處理。它接收構圖大師提供的語義指導,然后在每個像素上進行精細的紋理、邊緣和細節處理。這種分工讓系統既能保持全局一致性,又能在細節層面達到極高的精度。

      更重要的是,研究團隊為這兩個畫家之間設計了一套精密的溝通機制。細節專家不是盲目地處理每個像素,而是會根據構圖大師提供的語義信息,為每個像素定制不同的處理策略。這就像細節專家會根據構圖大師的指示,知道某個區域應該畫成毛發的質感還是金屬的光澤,然后相應地調整自己的畫筆。

      **二、解決"像素信息爆炸"的壓縮技巧**

      即使有了雙層架構,直接處理像素信息仍然面臨著信息量爆炸的問題。一張256×256的圖像包含超過65000個像素,如果讓AI同時關注所有像素之間的關系,計算量將是天文數字。這就像讓一個人同時記住一萬個朋友的所有互動關系一樣不現實。

      研究團隊開發了一個叫做"像素令牌壓縮"的巧妙技術。這個技術在細節專家進行全局注意力計算時,臨時將像素信息壓縮成更緊湊的表示,完成全局信息交換后,再將其展開回像素級別。這就像開會討論時,每個部門先內部統一意見,派一個代表參加大會,會后再回到部門內部具體執行。

      這種壓縮是可逆的和非破壞性的,與傳統方法的根本區別在于,它只是為了減少計算時的中間步驟復雜度,而不會永久性地丟失信息。所有的高頻細節信息都通過殘差連接和學習到的展開層得到了保留。

      為了讓每個像素都能獲得準確的語義指導,研究團隊還設計了"像素級自適應調制"機制。傳統方法會給一個畫塊內的所有像素應用相同的處理參數,就像給一整片區域涂上同樣的顏色。而PixelDiT為每個像素提供獨立的處理參數,使得同一個畫塊內的不同像素可以接收到精確定制的語義指導。

      **三、從理論到實踐的性能驗證**

      研究團隊在ImageNet數據集上進行了全面的性能測試,結果令人印象深刻。PixelDiT-XL在256×256分辨率的圖像生成任務上達到了1.61的FID分數(FID分數越低表示生成圖像質量越高),大幅超越了此前最好的像素空間生成模型。

      更令人驚訝的是,PixelDiT展現出了極快的收斂速度。傳統的像素空間模型通常需要訓練數千輪才能收斂,而PixelDiT僅用80輪訓練就達到了2.36的FID分數,這已經超過了許多完全訓練的傳統像素模型。這種快速收斂得益于雙層架構的有效分工:構圖大師快速學會了全局語義理解,而細節專家則專注于紋理細節的完善。

      在文本到圖像生成任務上,PixelDiT的表現同樣出色。研究團隊將模型擴展到支持文本輸入,并直接在1024×1024的高分辨率上進行訓練,這在此前的像素空間模型中是極其困難的。在GenEval和DPG-bench等標準測試中,PixelDiT分別獲得了0.74和83.5的分數,接近目前最先進的潛在擴散模型的性能水平。

      **四、圖像編輯中的"無損優勢"**

      PixelDiT最引人注目的優勢體現在圖像編輯任務中。研究團隊展示了一個生動的對比實驗:使用FlowEdit技術將照片中的自行車替換為摩托車。使用傳統潛在擴散模型(如Stable Diffusion 3和FLUX)時,雖然主要的替換任務完成了,但照片背景墻上的文字變得完全不可識別,出現了嚴重的扭曲和模糊。

      這種失真的根本原因在于傳統方法的"兩次轉換"過程:首先自編碼器將原始圖像編碼到潛在空間時就丟失了部分細節信息,然后在潛在空間中進行編輯,最后解碼回像素空間時又引入了額外的失真。這就像把一段音樂錄制成磁帶,再從磁帶復制到CD,每一次轉換都會丟失一些音質。

      相比之下,PixelDiT完全避免了這種多重失真,因為它從始至終都在原始像素空間工作。在同樣的編輯任務中,PixelDiT不僅成功地將自行車替換為摩托車,還完美保持了背景中所有文字的清晰度和可讀性。這種"無損編輯"能力對于需要精確保持細節的專業應用具有重要意義,比如文檔圖像的編輯、藝術品的修復,或者需要保持品牌標識清晰度的商業圖像處理。

      **五、計算效率的巧妙平衡**

      雖然直接在像素空間工作聽起來計算成本很高,但PixelDiT通過精心的架構設計實現了令人意外的計算效率。在256×256分辨率下,PixelDiT-XL的單次前向傳播僅需要311 GFLOPs,這個數值與許多潛在空間模型(238-292 GFLOPs)相當接近,但遠低于其他像素空間模型(通常需要數千GFLOPs)。

      這種效率的實現主要歸功于兩個關鍵設計:首先是雙層架構的分工,大部分語義計算在較粗粒度的畫塊級別完成,只有細節處理需要在像素級別進行。其次是像素令牌壓縮技術,大大減少了全局注意力計算的復雜度。

      研究團隊還發現了一個有趣的規律:隨著模型規模的增大,小畫塊大小帶來的收益會逐漸減少。對于基礎模型,使用4×4的畫塊比16×16的畫塊效果明顯更好,但對于大型模型,這種差異幾乎消失。這表明大模型具有更強的表示能力,可以在較粗的粒度上也能捕獲足夠的細節信息。

      在實際應用中,PixelDiT的推理速度也表現不俗。在512×512分辨率下,PixelDiT-T2I可以達到每秒1.07張圖像的生成速度,在1024×1024分辨率下仍能保持每秒0.33張圖像的速度,這在實際應用中是完全可接受的。

      **六、從實驗室到現實應用的廣闊前景**

      PixelDiT的成功不僅僅是一個技術突破,更重要的是它為整個AI圖像生成領域指出了一個新方向。傳統上,研究者們普遍認為直接在像素空間工作是不現實的,因為計算成本太高。PixelDiT證明了通過合理的架構設計,這個"不可能"的任務是完全可以實現的。

      這種直接像素空間方法的最大價值在于它的"所見即所得"特性。設計師和藝術家在使用這類工具時,不需要擔心因為編碼解碼過程導致的細節丟失,他們看到的每一個像素都是最終輸出的真實像素。這種確定性對于專業應用是極其重要的。

      在具體應用場景中,PixelDiT特別適合那些對細節要求極高的任務。比如在電影特效制作中,需要在保持演員面部細微表情的同時改變背景;在建筑設計中,需要在保持建筑結構細節清晰的同時調整環境光照;在產品設計中,需要在保持產品質感和細節的同時改變顏色或材質。

      研究團隊也坦誠地指出了當前模型的局限性。由于模型參數規模(1.3B參數)相對較小,加上高質量訓練數據的限制,PixelDiT在處理某些復雜場景時仍有困難,特別是人手的幾何結構和復雜建筑場景的生成。不過,這些局限性主要是工程問題而非理論問題,隨著模型規模的擴大和訓練數據的豐富,這些問題都有望得到解決。

      說到底,PixelDiT最重要的貢獻不是某個具體的性能指標,而是它證明了"直接在像素空間進行高質量圖像生成"這件事是完全可行的。這個概念驗證為未來的研究開辟了全新的道路。當越來越多的研究者開始探索這個方向時,我們可能會看到更多令人驚喜的突破。

      歸根結底,PixelDiT代表了AI圖像生成技術從"近似"向"精確"邁出的重要一步。雖然目前它還不能完全替代現有的潛在空間方法,但它展示的"無損生成"理念可能會深刻影響整個領域的發展方向。對于普通用戶來說,這意味著未來的AI圖像工具將能夠提供更精確、更可控的創作體驗,真正實現"想象到什么就能精確生成什么"的愿景。有興趣深入了解技術細節的讀者,可以通過論文編號arXiv:2511.20645v1查詢NVIDIA團隊發布的完整研究論文。

      Q&A

      Q1:PixelDiT和傳統AI圖像生成方法最大的區別是什么?

      A:傳統方法需要先把圖像壓縮成簡化版本,在簡化版本上生成,最后還原回原圖,這個過程會丟失細節。而PixelDiT直接在原始像素上工作,就像畫家直接在最終畫布上作畫,避免了壓縮和解壓過程中的信息損失。

      Q2:PixelDiT在圖像編輯方面有什么優勢?

      A:PixelDiT的最大優勢是"無損編輯"。比如把照片中的自行車改成摩托車時,傳統方法會讓背景中的小字變模糊,而PixelDiT能完美保持所有細節的清晰度,因為它沒有壓縮解壓的失真過程。

      Q3:PixelDiT的計算成本會不會很高?

      A:雖然直接處理像素聽起來成本很高,但PixelDiT通過"雙層畫家"架構和像素壓縮技巧,將計算成本控制在與傳統方法相近的水平。它的推理速度完全滿足實際應用需求,在1024×1024分辨率下能達到每秒0.33張圖像。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      WOC!楊瀚森排在NBA聯盟第3...

      WOC!楊瀚森排在NBA聯盟第3...

      左右為籃
      2025-12-12 12:29:32
      “新冠疫苗之父”落馬,榮譽清零!打過三針的網友慌了

      “新冠疫苗之父”落馬,榮譽清零!打過三針的網友慌了

      胡嚴亂語
      2025-12-07 15:51:07
      苦等5年,蒙古熟鴨子還是飛了,中俄誰也不讓步,坐視大項目泡湯

      苦等5年,蒙古熟鴨子還是飛了,中俄誰也不讓步,坐視大項目泡湯

      科普100克克
      2025-12-07 18:20:34
      華人在國內的錢,想匯出來難了!

      華人在國內的錢,想匯出來難了!

      以希臘之名
      2025-12-09 18:10:47
      因中國游客減少,日本一溫泉12月損失超1800萬,現已停業

      因中國游客減少,日本一溫泉12月損失超1800萬,現已停業

      隨波蕩漾的漂流瓶
      2025-12-12 18:30:08
      解放軍進入臺海,美航母早已跑路,統一已成定局,鄭麗文開始追責

      解放軍進入臺海,美航母早已跑路,統一已成定局,鄭麗文開始追責

      朝子亥
      2025-12-12 12:00:03
      特朗普和克林頓等在列!美國民主黨陸續公開愛潑斯坦的相關照片!

      特朗普和克林頓等在列!美國民主黨陸續公開愛潑斯坦的相關照片!

      AI商業論
      2025-12-13 10:35:59
      被冤枉6年!36歲貝爾再談皇馬爭議事件:我被媒體抹黑了

      被冤枉6年!36歲貝爾再談皇馬爭議事件:我被媒體抹黑了

      葉青足球世界
      2025-12-10 21:18:51
      太炸裂了!印度首富小兒媳和大兒子被曝驚天丑聞,倆人牽手摸腰很自然

      太炸裂了!印度首富小兒媳和大兒子被曝驚天丑聞,倆人牽手摸腰很自然

      小魚愛魚樂
      2025-12-12 08:39:41
      “只要給錢什么都行”,43歲保姆的話,讓62歲的我破防了

      “只要給錢什么都行”,43歲保姆的話,讓62歲的我破防了

      新時代的兩性情感
      2025-12-03 12:59:07
      柬埔寨是世界最貧窮的國家之一,但統治該國的洪森家族卻富可敵國

      柬埔寨是世界最貧窮的國家之一,但統治該國的洪森家族卻富可敵國

      大道無形我有型
      2025-09-05 11:31:52
      WTT總決賽:孫穎莎轟11-1零封日乒黑馬,國乒包攬女單4強太強了

      WTT總決賽:孫穎莎轟11-1零封日乒黑馬,國乒包攬女單4強太強了

      寒律
      2025-12-13 10:53:35
      香港總決賽混雙四強!莎頭回應被打1-11,日本組合險勝雨果兩口子!

      香港總決賽混雙四強!莎頭回應被打1-11,日本組合險勝雨果兩口子!

      好乒乓
      2025-12-13 11:27:55
      放棄中國國籍投靠日本,結果日本不收中國不要,成為夾縫中的黑戶

      放棄中國國籍投靠日本,結果日本不收中國不要,成為夾縫中的黑戶

      牛牛叨史
      2025-12-13 02:23:07
      中國申請CPTPP4年還在門外?這3座大山比想象中更難爬

      中國申請CPTPP4年還在門外?這3座大山比想象中更難爬

      明月光
      2025-12-11 22:04:44
      被拐30年兒子認親14小時就走,全程冷臉,網友:窮家標簽太刺眼

      被拐30年兒子認親14小時就走,全程冷臉,網友:窮家標簽太刺眼

      老特有話說
      2025-12-06 17:31:27
      中國政府已經暫停大型粒子加速器計劃!

      中國政府已經暫停大型粒子加速器計劃!

      達文西看世界
      2025-12-11 17:05:23
      他們要來10000只死蚊子,把它們的嘴做成了3D打印噴頭

      他們要來10000只死蚊子,把它們的嘴做成了3D打印噴頭

      果殼
      2025-12-10 16:09:31
      明星母親導演父親,他出道16年不火,如今47歲演《大生意人》紅了

      明星母親導演父親,他出道16年不火,如今47歲演《大生意人》紅了

      查爾菲的筆記
      2025-12-10 18:11:47
      蘋果iOS 26.2正式版發布:負一屏終于不卡頓 動效Q彈絲滑

      蘋果iOS 26.2正式版發布:負一屏終于不卡頓 動效Q彈絲滑

      快科技
      2025-12-13 08:16:07
      2025-12-13 12:07:00
      科技行者 incentive-icons
      科技行者
      科技正在如何變革商業世界
      6531文章數 542關注度
      往期回顧 全部

      科技要聞

      比亞迪、小鵬、北汽,集體表態

      頭條要聞

      央媒談美新國安報告:時隔8年 美國提到中國的語氣變了

      頭條要聞

      央媒談美新國安報告:時隔8年 美國提到中國的語氣變了

      體育要聞

      有了風騷白人禿頭,忘掉談了10年的前任

      娛樂要聞

      保劍鋒方回應爭議,否認出軌贈送香水

      財經要聞

      鎂信健康闖關港交所:被指竊取商業秘密

      汽車要聞

      表面風平浪靜 內里翻天覆地!試駕銀河星艦7 EM-i

      態度原創

      游戲
      健康
      房產
      數碼
      旅游

      《生化危機9》里昂保時捷座駕車牌號竟藏匿彩蛋

      甲狀腺結節到這個程度,該穿刺了!

      房產要聞

      每日狂增1300+企業!封關在即,海南徹底爆發!

      數碼要聞

      華碩預熱新一代Zenbook DUO雙屏本,雙電池設計將亮相CES 2026

      旅游要聞

      震撼!4000米海拔看日出云海金光萬丈

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 亚洲日韩在线中文字幕| 日韩成人无码| 成人亚洲精品一区二区三区嫩花 | 四虎影成人精品a片| 久久综合色之久久综合色| 99伊人网| 久精品国产欧美亚洲色aⅴ大片 | 午夜福利影院不卡影院| 高清精品一区二区三区| 又色又爽又黄的视频网站| 亚洲最大成人av在线天堂网| 黑人VA| 国产手机在线αⅴ片无码观看| 国产精品久久久久久影视| 欧美激情 亚洲 在线| 九九精品免费看| 亚洲热妇无码av在线播放| 人妻无码视频一区二区三区| 18久久| 福清市| 欧美?日本?国产| 大胸美女被吃奶爽死视频| 猫咪AV成人永久网站在线观看| 精品成人av| 临沧市| 精品国产制服丝袜高跟| 天天操夜夜操| 日本色导航| 久久天天久久| 久久婷婷五月综合色99啪| 免费无码中文字幕A级毛片| 亚洲色性| 中文字幕热久久久久久久| 午夜一区二区国产好的精华液| 丰满少妇猛烈进入| 亚洲国产成人精品综合| 无码人妻一区二区三区四区老鸭窝| 大香蕉一区二区三区| 乱熟女高潮一区二区在线| 国产微拍一区二区三区四区| 国产成人专区|