<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      阿里圖像生成模型登頂HuggingFace,一句話把馬斯克“變老”

      0
      分享至


      就在8月19日,阿里發布了Qwen-Image,這是一個圖像生成基礎模型。這個模型的特點是,通過系統性的數據工程、漸進式的學習策略、改進的多任務訓練范式以及可擴展的架構優化,旨在解決復雜文本渲染和精準圖像編輯的核心難題。

      在AI領域,圖像生成技術作為其重要分支,近年來取得了顯著進展。無論是從文本直接生成圖像(T2I),還是對現有圖像進行編輯(TI2I),其核心都在于機器能否精準地理解并以視覺形式再現人類的意圖。盡管擴散模型等架構的出現極大地提升了生成圖像的分辨率與細節表現力,但該領域仍面臨兩個長期存在的挑戰。


      在文本到圖像的生成任務中,模型對于復雜、多維度的文本指令的理解與對齊能力尚有不足。尤其是在處理多行文本渲染、非字母文字(如漢字)渲染、特定位置的文字嵌入,以及將文字與視覺元素無縫融合等精細任務時,現有模型往往難以達到理想效果。

      而在圖像編輯任務中,如何確保編輯后的圖像與原始圖像在視覺和語義上保持一致性,是一個雙重難題。這既要求視覺上的一致性,即只修改目標區域而不影響其他部分的視覺細節;也要求語義上的連貫性,即在進行結構性調整(如改變人物姿態)時,必須保留主體的身份特征與場景的整體邏輯。

      01

      Qwen團隊專門發布了一份技術報告,名為《Qwen-Image Technical Report》,以此詳細介紹Qwen-Image的功能。

      為實現精準的文本渲染,Qwen-Image構建了一個全面的數據處理體系。該體系始于大規模收集數十億級別的圖文數據,并強調質量優于數量。數據經過一個分為七個階段的精細化過濾管道,從低分辨率的基礎篩選到高分辨率的美學提純,系統性地提升了數據質量與圖文對齊度。

      同時,考慮到真實圖像中漢字等內容的長尾分布特性,模型還通過“純粹渲染”、“組合渲染”和“復雜渲染”三種策略大量合成高質量的文本圖像數據,彌補了自然數據的不足。在此基礎上,模型采用由簡到繁的“課程學習”策略進行訓練,顯著增強了其渲染復雜中英文文本的能力。

      為實現精準的圖像編輯,Qwen-Image提出了一種增強的多任務學習框架。其核心是將輸入圖像編碼為兩種互補的特征:一是通過Qwen2.5-VL模型提取的高層“語義特征”,用于理解圖像內容和編輯指令;二是通過變分自編碼器(VAE)提取的低層“重建特征”,用于保留圖像的視覺細節和紋理。

      這兩種特征共同作為引導信號,輸入到作為模型骨干的多模態擴散Transformer(MMDiT)中。這種“雙重編碼”設計,使得模型在執行編輯指令時,既能理解“改什么”,又能知道“保留什么”,從而在語義連貫性與視覺保真度之間取得了良好的平衡。

      模型架構上,Qwen-Image由Qwen2.5-VL(條件編碼器)、VAE(圖像壓縮與解碼)和MMDiT(核心生成網絡)三部分組成。其中,VAE采用了獨特的“單編碼器、雙解碼器”架構,使其在保證高質量圖像重建的同時,也為未來擴展到視頻生成任務奠定了基礎。MMDiT內部則引入了一種名為MSROPE的新型位置編碼方法,通過將文本信息在概念上置于圖像網格的對角線,改善了文本與圖像特征的對-齊。

      訓練過程同樣是漸進式的,從低分辨率到高分辨率,從無文本圖像到有文本圖像,并結合了監督微調(SFT)與直接偏好優化(DPO)等強化學習方法,持續優化生成結果的質量與遵循指令的準確性。最終,大量的基準測試和人類評估結果表明,Qwen-Image在通用的圖像生成、復雜的文本渲染以及指令式圖像編輯任務上,均達到了業界領先水平。

      不多說廢話,讓我們直接看成品。我故意刁難Qwen-Image,既然官方技術團隊報告中表示優化了對提示詞的理解,那么我就要它生成自然界不存在的東西。從結果上來看,Qwen的冰山渲染效果比GPT-5更好,但是火焰跟冰山較為割裂,而GPT-5則用熔巖填充了火焰和冰山之間的部分,讓畫面更自然。

      提示詞:A colossal iceberg that is on fire, with bright orange flames licking its crystalline blue surfaces, emitting thick steam and smoke into a freezing arctic sky. The water around the iceberg is boiling. Photorealistic, dramatic lighting.

      Qwen-Image:


      GPT-5:


      在圖片重構方面,GPT-5除了貓整體都發生了改變,包括背景。可能是因為希望要求它漂浮在空中,GPT-5真的把這只貓送上了大氣層,但是Qwen-Image則是漂浮在了半空中。

      提示詞:make the cat floating in the air and holding a sign that reads 'this is fun' written with a blue crayon

      原圖片:


      Qwen-Imgae:


      GPT-5:


      有意思的來了,由于原圖片中出現了星條旗,GPT-5和Gemini都不能完成對原圖片的修改。但是Qwen-Image完成了這個命令,雖然在生成的圖片中,馬斯克變得更加蒼老了。

      提示詞:Keep Elon Musk and his hat exactly as they are in terms of pose and size, but place them on the surface of Mars during a massive dust storm. The sky should be a swirling orange and red, with visible streaks of dust. Add a futuristic, slightly damaged SpaceX rover partially buried in the Martian sand in the background.

      原圖:


      Qwen-Image:


      02

      技術報告展示了Qwen-Image強大的圖像生成與編輯能力,這自然引出一個問題:它能成為一個“AI版的Photoshop”嗎?或者說,它在多大程度上改變了我們與圖像交互的方式?要回答這個問題,我們需要比較它與傳統圖像編輯軟件的核心異同。

      從功能上看,Qwen-Image確實展現出了許多與Photoshop相似的核心編輯能力,但實現方式截然不同。Photoshop依賴于工具箱、圖層和濾鏡,用戶通過直接操作(如畫筆涂抹、選區拖動)來實現修改。而Qwen-Image則依賴于自然語言指令,用戶通過“描述”來完成編輯。

      在對象處理方面,Photoshop使用套索、魔棒等工具進行精確選區,然后進行復制、粘貼或內容識別填充。Qwen-Image則通過文本指令實現類似操作,例如“添加一只貓和一只狗”或“移除畫面里所有的人”。它不僅能完成增刪,還能理解風格要求(如添加卡通風格的動物),這類似于PS中需要手動調整新元素風格以匹配背景的操作,但Qwen-Image將其自動化了。

      在材質與風格轉換上,Photoshop提供濾鏡庫、圖層樣式和紋理疊加等功能。Qwen-Image同樣能通過指令完成,例如將一個普通圖標變為“琺瑯彩玻璃藝術”風格的冰箱貼。這種基于語義的材質渲染,是其強大之處。此外,其精準的文本編輯能力,如修改、增刪圖像中的文字并保持原有風格,直接對標了Photoshop的核心功能——文字工具。

      更進一步,在處理圖像結構性變化時,比如人物姿態調整,Qwen-Image展現了超越傳統工具的潛力。在Photoshop中,調整姿態可能需要使用液化、操控變形等工具進行細致的手動修改,且很難保證衣物紋理和背景的自然過渡。

      而Qwen-Image能夠理解“讓她站起來,單手叉腰”這樣的指令,并在保持人物身份、服裝細節(甚至能推斷出被遮擋的衣物部分)和背景一致性的前提下,生成一個全新的、符合邏輯的姿態。這種能力更接近于“重新想象”而非“修改”。

      然而,盡管功能上有諸多重疊,將Qwen-Image簡單地視為Photoshop的替代品并不準確。二者的核心工作范式存在根本差異。

      最重要的地方在于控制的粒度。Photoshop提供的是像素級的、確定性的精確控制。用戶可以選中任意一個像素點,賦予它一個精確的RGB值。而Qwen-Image的控制是語義級的、概率性的。用戶描述的是“什么”,而不是“如何做”。你無法通過指令去精確控制某個特定像素的顏色,編輯結果總是在一定程度上由模型“自由發揮”,帶有一定的隨機性。

      Photoshop的核心是基于圖層的非線性、非破壞性工作流。用戶可以隨時返回修改任意一個圖層,而不影響其他部分。Qwen-Image的編輯更像是一個“一次性”的再生成過程。盡管技術報告中展示了“鏈式編輯”(即在上一次生成結果的基礎上繼續編輯),但這與PS中靈活調整圖層堆棧的邏輯完全不同。

      精通Photoshop需要掌握復雜的工具、蒙版和色彩理論。而使用Qwen-Image則需要掌握“提示詞工程”——用清晰、準確的語言描述視覺意圖的能力。它極大地降低了圖像編輯的技術門檻,但同時也引入了一種新的技能壁壘。

      Qwen-Image并非Photoshop的直接替代品,而是一種全新的圖像內容創作與編輯范式。Photoshop是一個“數字暗房”和“畫布”,為專業人士提供了無與倫比的直接操控和精確控制能力。而Qwen-Image則是一個“語義指令引擎”,它將人的意圖從繁瑣的技術操作中解放出來,更側重于創意構想的快速實現和語義層面的內容調整。

      它們滿足了不同場景的需求。一個需要進行精細排版和品牌視覺設計的專業設計師,依然離不開Photoshop的精確控制。但對于一個需要快速產出創意概念圖、營銷素材,或者不具備專業設計技能的用戶來說,Qwen-Image無疑是更高效、更直觀的工具。

      雖然現在已經出現了一些帶有AI功能的修圖軟件,但是能實現的功能還比較淺,比如消除圖片中的人物、調整顏色等。未來,二者很可能會深度融合——在Photoshop這樣的專業軟件中,嵌入像Qwen-Image一樣強大的語義理解和生成引擎,這在PS的“生成式填充”功能中已初見端倪。Qwen-Image的出現,標志著這條融合之路上的“語義引擎”一端,已經達到了一個新的成熟高度。


      歡迎在評論區留言~
      如需開白請加小編微信:dongfangmark


      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      美國:其實中國不可怕,要命的是中國淘汰4000年的東西他們還在用

      美國:其實中國不可怕,要命的是中國淘汰4000年的東西他們還在用

      凡人侃史
      2026-03-29 17:32:28
      10年后,被允許玩手機和被嚴格限制的孩子,差距驚人!

      10年后,被允許玩手機和被嚴格限制的孩子,差距驚人!

      諾媽家有男寶娃
      2026-03-30 12:21:11
      頒獎禮:王楚欽孫穎莎同框開心,松島輝黑臉,雨果林昀儒笑

      頒獎禮:王楚欽孫穎莎同框開心,松島輝黑臉,雨果林昀儒笑

      阿心文史
      2026-04-06 01:25:04
      官宣!34歲奧斯卡因病正式退役 放棄6647萬薪水 中超8年賺16億

      官宣!34歲奧斯卡因病正式退役 放棄6647萬薪水 中超8年賺16億

      念洲
      2026-04-04 21:52:19
      阿韋洛亞執教皇馬18場5負,與阿隆索本賽季帶隊輸球場次持平

      阿韋洛亞執教皇馬18場5負,與阿隆索本賽季帶隊輸球場次持平

      懂球帝
      2026-04-05 22:13:04
      農村開始“翻舊賬”了!村村全覆蓋,這3類人躲都躲不掉

      農村開始“翻舊賬”了!村村全覆蓋,這3類人躲都躲不掉

      三農雷哥
      2026-03-08 20:45:46
      江西女碩士失蹤,被發現時已在教授實驗室待6年,魔鬼真的存在

      江西女碩士失蹤,被發現時已在教授實驗室待6年,魔鬼真的存在

      燦爛夏天
      2025-02-10 20:20:13
      小米高管內訓內容曝光:承認大家電「質量差」,一批供應商要完蛋

      小米高管內訓內容曝光:承認大家電「質量差」,一批供應商要完蛋

      雷科技
      2026-04-03 14:41:09
      兒科醫生不光會看病更得會斷案!網友:嘴巴跟不上腦子的速度

      兒科醫生不光會看病更得會斷案!網友:嘴巴跟不上腦子的速度

      夜深愛雜談
      2026-03-09 21:19:47
      謠言滿天飛,成輿論炮灰!67歲倪萍暴露了內娛女明星最真實的困境

      謠言滿天飛,成輿論炮灰!67歲倪萍暴露了內娛女明星最真實的困境

      劇芒芒
      2026-04-05 17:59:45
      太可憐了!2張照片,幾乎就是張雪峰人生的最後定格

      太可憐了!2張照片,幾乎就是張雪峰人生的最後定格

      魔都姐姐雜談
      2026-03-28 04:04:21
      第一批免簽去俄羅斯的中產傻眼了

      第一批免簽去俄羅斯的中產傻眼了

      風向觀察
      2025-12-16 18:26:08
      孫穎莎從澳門帶走62萬大獎!還有3個好消息,王曼昱暴露兩大短板

      孫穎莎從澳門帶走62萬大獎!還有3個好消息,王曼昱暴露兩大短板

      曹說體育
      2026-04-05 22:12:33
      科室主任,這次真的跑不掉了!35%回扣、30套房,4月起終身追責

      科室主任,這次真的跑不掉了!35%回扣、30套房,4月起終身追責

      吃貨的分享
      2026-04-05 17:49:17
      美國求錘得錘?外媒揭露:美國軍工巨頭,竟偷偷找中國代工

      美國求錘得錘?外媒揭露:美國軍工巨頭,竟偷偷找中國代工

      瘋狂小菠蘿
      2026-04-01 20:13:49
      著名有機化學家、北京大學教授王劍波逝世,享年63歲

      著名有機化學家、北京大學教授王劍波逝世,享年63歲

      澎湃新聞
      2026-04-06 00:04:27
      微軟Office 365月費逼走3000萬用戶

      微軟Office 365月費逼走3000萬用戶

      固件更新中
      2026-04-05 20:35:36
      一個人養活一座城,這次我是真開眼了。

      一個人養活一座城,這次我是真開眼了。

      小光侃娛樂
      2026-02-11 05:15:05
      “科大男生9秒視頻”火了,生猛操作令人嘆為觀止:不愧是高才生

      “科大男生9秒視頻”火了,生猛操作令人嘆為觀止:不愧是高才生

      妍妍教育日記
      2026-03-20 21:33:36
      戳破臺學者荒誕“能源安全夢”

      戳破臺學者荒誕“能源安全夢”

      烽火瞭望者
      2026-04-05 11:33:37
      2026-04-06 02:43:00
      直面派 incentive-icons
      直面派
      講述值得講述的真實故事
      258文章數 237關注度
      往期回顧 全部

      科技要聞

      花200薅5千算力,Claude冷血斷供“龍蝦”

      頭條要聞

      伊朗官員提開放霍爾木茲海峽條件

      頭條要聞

      伊朗官員提開放霍爾木茲海峽條件

      體育要聞

      CBA最老球員,身價7500萬美元

      娛樂要聞

      王燦兮否認婆媳不和 曬與杜淳媽合影

      財經要聞

      誰造出了優思益這頭“怪物”?

      汽車要聞

      家用SUV沒駕駛樂趣?極氪8X第一個不同意

      態度原創

      藝術
      健康
      游戲
      親子
      公開課

      藝術要聞

      高210米,砸13億!廈門“礦泉水瓶大樓”即將建成!

      干細胞抗衰4大誤區,90%的人都中招

      三天鼠標干壞兩個,你這還是自走棋嘛?

      親子要聞

      小英自曝給女兒剪短發原因!怕頭發搶營養長不高,想剃光頭太真實

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版