<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      字節發完阿里發!Qwen-Image 2.0火線出擊

      0
      分享至


      智東西
      作者 陳駿達
      編輯 李水青

      字節的圖像生成模型剛發不到半天,阿里的新模型也來了!

      智東西2月10日報道,今天,阿里巴巴發布了新一代圖像生成基礎模型Qwen-Image 2.0,這一模型支持長達一千個token的超長指令、2k分辨率,并采用了更輕量的模型架構,模型尺寸遠小于Qwen-Image 2.0的20B,帶來更快的推理速度。

      智東西第一時間對阿里Qwen-Image 2.0、字節Seedream 5.0 Preview以及谷歌Nano Banana Pro三款模型進行了橫向體驗比較,發現Qwen-Image 2.0在長指令遵循、長文本渲染方面確實具有優勢,但在圖像生成的真實感上仍稍遜于Nano Banana Pro。

      Qwen-Image 2.0的升級重點是文字渲染。在下方關于AB測試的官方案例中,文字的字體、排版、格式等都是由一則888個token(包含近千個中英文字詞)的超長提示詞精確定義的,而Qwen-Image 2.0可以做到不錯的還原。


      Qwen-Image 2.0還能用毛筆字渲染《蘭亭集序》的全文,并且確保文字和畫面的相對協調,文字沒有遮擋畫面的山水景色和人物。細看文字部分,雖然仍然可以找到一些渲染失敗的文字,但是占比已經很低了。


      Qwen-Image 2.0還支持一次性渲染屬數十個子圖,并保持其中主體的一致性。比如,下圖就是Qwen-Image 2.0一次性生成的漫畫,一共有24個畫面,其中的人物、畫風都較為連貫。


      針對AI生圖常見的“油膩感”問題,Qwen-Image 2.0也做了優化。與前一代模型相比,Qwen-Image 2.0的色彩不會過于飽和,觀感更像實拍,AI味淡了一些。


      ▲從左到右:原圖、Qwen-Image-2512、Qwen-Image 2.0

      阿里在AI盲測平臺AI Arena上對Qwen-Image 2.0進行了測試,數據顯示,Qwen-Image 2.0在文生圖和圖生圖基準中分別排名第三和第二,不過距離谷歌的Nano Banana Pro(圖中為Gemini-3-Pro-Image-Preview)還有一定差距。此外,這一模型暫時還沒有和剛發布的Seedream 5.0 Preview進行對比。


      千問視覺生成負責人吳晨飛在采訪中談道,Qwen-Image項目2025年5月份項目才立項,去年8月份發布首款模型,此后主要圍繞生圖和編輯兩個支線迭代模型,而Qwen-Image 2.0則把生圖和編輯兩個能力整合到了一個模型中。


      目前,Qwen-Image 2.0已在阿里云百煉上已開通API邀測,用戶也可通過Qwen Chat(chat.qwen.ai)免費體驗新模型。千問App產品經理劉巍透露,這一模型后續將在千問App里上線。


      會后,我們還與吳晨飛和千問大模型高級解決方案架構師熊撼天進行了溝通。

      當我們問及Qwen-Image系列模型的未來規劃時,吳晨飛稱,如果用一個詞作為Qwen-Image 2.0升級的核心,那就是“信息圖”,而在未來一年,Qwen-Image團隊會繼續研究如PPT、多圖海報、漫畫等復雜“父圖”的生成,進一步減少幻覺和錯誤。

      此外,該團隊還計劃在此前發布的分層模型基礎上,進一步強化模型的分層編輯能力,目標是讓生成模型真正成為生產力工具。通過AI分圖層,設計師可以靈活結合AI生成(如千問編輯特定層)與傳統手段,或融合不同模型的專長,實現“分而治之”的復雜編輯流程。

      一、阿里、字節、谷歌三款模型對決,Qwen-Image 2.0文字渲染能力突出

      在超長提示詞任務上,我們對Qwen-Image 2.0的官方超長提示詞進行了微調,調整了部分元素的位置,看看Qwen-Image 2.0能否交付同樣質量的生成結果。

      提示詞內容:


      Qwen-Image 2.0的生成結果如下??梢钥吹侥P瓦€原了我們對圖片布局、字體顏色的要求,內容也得到準確呈現,基本沒有遺漏。


      而Nano Banana Pro的生成結果明顯有更多的圖像和圖標,設計風格和我們要求的一樣,大部分文字也都成功渲染。美中不足的是,可以看到部分文字出現了模糊的問題,已經難以辨別。


      Seedream 5.0 Preview的生成結果較我們的提示詞出現了一些偏差,并沒有準確還原文字內容,這在PPT等場景可能是較為嚴重的問題。但是拋開這一問題之外,完成度還是不錯的。


      而在多子圖生成任務上,我們讓上述三款模型生成一副具有20個分鏡的漫畫,提示詞依舊較長。

      在經過三次嘗試后,Qwen-Image 2.0未能完全按照我們的要求生成這張圖像。我們也對提示詞本身進行了優化,標注了更為清晰的序號,但是沒能讓模型生成更準確的結果。

      此外,畫面中也有一些不符合常理的現象,比如外賣員的手機竟然安在電動車車頭上,手機屏幕面向外側,。


      ▲Qwen-Image 2.0的三個生成結果

      在這一任務中,Nano Banana Pro(左)和Seedream 5.0 Preview(右)拿到提示詞后都陷入了長時間的推理過程,最終未能成功生成。


      文字渲染之外,我們也考察了這兩款模型在圖像生成方面的表現。發布會中提到,超現實場景其實對圖像生成模型來說是一大挑戰,如何在滿足提示詞要求的情況下保證真實感,很考驗模型的功力。

      我們向模型發送了如下提示詞:

      無邊無際的海面上漂浮著一座倒置的城市,城市建筑如水晶般透明,內部流動著星空與光點。天空呈現撕裂般的云層結構,巨大的月亮貼近海平面,月光化為實體的光帶纏繞在城市周圍。一名渺小的人站在水面之上,腳下泛起漣漪,現實與夢境在此交匯,畫面安靜而震撼。

      Qwen-Image 2.0生成的畫面其實與提示詞有一些差距,圖中的城市與其說是倒置,不如說是鏡像。同時,左右兩側云層的形狀是完全對稱的,在美感上較有視覺沖擊力,在真實性上稍顯欠缺。


      Nano Banana Pro的生成結果則更符合我們的提示詞,還原了城市的“倒置”、云層的“撕裂感”等關鍵描述。


      Seedream5.0 Preview提供了四個版本,可以看到它并沒有遵循我們提示詞中“像水晶般透明”的要求,不過其余內容基本得到了還原。其畫風更為科幻感一些。


      二、生成、編輯融合效果1+1>2,新模型尺寸遠小于1.0版本

      發布會結束后,千問視覺生成負責人吳晨飛、千問大模型高級解決方案架構師熊撼天與智東西等媒體進行了溝通。

      當談及1.0版本與2.0版本相比,最大的提升在哪些領域,吳晨飛稱Qwen-Image 2.0主要實現了“多”和“真”兩個特性的融合。

      “多”指的是其更強的文字渲染能力。Qwen-Image 2.0能在一個畫面中穩定生成大量、復雜的文字(如完整的PPT、信息圖),錯誤率極低,基本達到“可用”狀態,而之前的模型生成結果依然是不可用的。

      “真”指圖像的真實感。1.0主要聚焦文字準確性,2.0在保證文字精準的同時,提升了圖像(如材質、光影)的真實感。尤其當文字與圖像結合時,生成結果更具真實感和代入感,減少了以往AI生圖在文字區域的模糊和虛假感。

      談及融合圖像生成與編輯的選擇時,吳晨飛透露,經過探索,他們發現二合一模型能實現能力相互促進,達到1+1>2的效果,而非功能妥協。

      文生圖中訓練出的能力(如文字生成、圖像質感)可以遷移到編輯任務上。例如,上傳照片“題詩”的功能,就是文生圖能力在編輯任務上的體現。

      編輯任務訓練能迫使基礎模型更好地理解語義變化和遵循指令,從而反哺文生圖,使其對提示詞更敏感、遵循更精確。這也是實現“理解-生成”一體化統一范式的重要一步。

      此外,Qwen-Image 2.0的模型尺寸比1.0(約200億參數)顯著減小,但能力更強,且生成速度更快。


      ▲千問視覺生成負責人吳晨飛

      當被問及如何解決文字生成崩潰的難點時,吳晨飛回應道,目前大部分生圖模型都需要用到VAE(變分自編碼器)負責圖像壓縮,小文字信息密集,壓縮難度大,因此容易出現文字崩壞。其團隊提升了VAE的重構能力,為清晰小字生成奠定基礎。

      Qwen-Image 2.0對密集、細小文字的建模和生成能力也得到了增強。兩者結合,使得小文字也能清晰渲染、準確顯示。

      熊撼天則分享了與模型落地場景相關的話題。他認為,模型能力的提升(尤其是可控性、穩定性)使其能真正滲透到各行各業。

      在電商領域,圖像生成模型可用于海量商品的主圖、詳情圖、廣告素材圖生成。例如,服裝行業的模特換裝、商品屬性修改、多圖融合,以及利用“信息圖”能力生成商品詳情長圖。

      在醫療等專業領域,圖像生成模型可以將復雜的流程(如就診流程、診斷報告)通過信息圖、流程圖等形式可視化,便于理解。

      他認為,中國AIGC市場在應用落地和產業迭代速度上具有優勢。國內有強大的應用土壤和快速落地的能力。當技術追平后,豐富的應用場景能催生出新的產業鏈(如短?。⒖焖俜床改P偷?。

      Qwen-Image系列將與WPS等國民級應用進行合作,獲取真實用戶反饋和需求,并融入下一代模型開發,形成從應用到技術的閉環迭代。

      結語:從玩具到生產力,圖像生成模型探索真實場景落地

      從近期的發布情況來看,圖像生成領域的多家頭部廠商已達成共識。如今,圖像生成模型不僅僅追求生成逼真的畫面,更要滿足現實場景中對提示詞精準遵循、文字準確渲染等關鍵因素的需求,這些才是真正決定模型生產力的核心要素。

      隨著模型的不斷優化與迭代,圖像生成或許有潛力成為企業和個人在信息處理、創作表達及決策支持等方面的強大助手。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      四川一縣城300元的客房春節漲到1200元,有游客選擇租房過冬,當地市監局曾收到投訴

      四川一縣城300元的客房春節漲到1200元,有游客選擇租房過冬,當地市監局曾收到投訴

      極目新聞
      2026-02-10 19:50:29
      五五分流為什么分不下去了?背后的真相

      五五分流為什么分不下去了?背后的真相

      楓冷慕詩
      2026-01-24 13:09:19
      0:2完敗!提前1輪出局,亞冠生死戰:5大外援難救申花,輸得窩囊

      0:2完??!提前1輪出局,亞冠生死戰:5大外援難救申花,輸得窩囊

      話體壇
      2026-02-10 22:51:05
      臺灣GDP狂飆,超日韓居亞洲第三!

      臺灣GDP狂飆,超日韓居亞洲第三!

      云中浮生
      2026-02-02 09:09:04
      記者問老干媽創始人陶華碧:為什么一直用這家玻璃廠的玻璃瓶?

      記者問老干媽創始人陶華碧:為什么一直用這家玻璃廠的玻璃瓶?

      百態人間
      2026-01-03 16:49:18
      湖人全隊表現平平,但后場大閘卻罕見地成為了球隊的關鍵人物?

      湖人全隊表現平平,但后場大閘卻罕見地成為了球隊的關鍵人物?

      稻谷與小麥
      2026-02-10 23:25:45
      斯洛特:這是我執教生涯最艱難賽季;若下賽季沒歐冠不可接受

      斯洛特:這是我執教生涯最艱難賽季;若下賽季沒歐冠不可接受

      懂球帝
      2026-02-10 20:21:16
      有網友在天津海洋館偶遇李純夫婦,李純私下和電視里一樣漂亮

      有網友在天津海洋館偶遇李純夫婦,李純私下和電視里一樣漂亮

      可樂談情感
      2026-02-08 21:44:40
      大逆轉!米切爾32+10絕殺,約基奇空砍三雙,哈登的首冠要來了

      大逆轉!米切爾32+10絕殺,約基奇空砍三雙,哈登的首冠要來了

      籃球掃地僧
      2026-02-10 22:34:23
      長春一道路旁多輛小車遭“冰封”,整車裹著厚厚冰層像被包漿,有人拿菜刀錘子除冰,附近商戶稱近期無雨雪,當地正調查原因

      長春一道路旁多輛小車遭“冰封”,整車裹著厚厚冰層像被包漿,有人拿菜刀錘子除冰,附近商戶稱近期無雨雪,當地正調查原因

      極目新聞
      2026-02-10 12:01:23
      1972年有人要撤汪東興的中辦廳主任,毛主席:替我轉告總理三句話

      1972年有人要撤汪東興的中辦廳主任,毛主席:替我轉告總理三句話

      文史季季紅
      2026-02-10 10:20:03
      當愛潑斯坦案意外帶火《大開眼戒》:庫布里克的預言為何令人膽寒

      當愛潑斯坦案意外帶火《大開眼戒》:庫布里克的預言為何令人膽寒

      春天不是讀書天
      2026-02-09 16:11:48
      和平委員會解散,七國集團瓦解,特朗普組建五國集團針對中國

      和平委員會解散,七國集團瓦解,特朗普組建五國集團針對中國

      開著車去流浪
      2026-02-10 23:24:37
      2換1,焦泊喬被交易?廣東目標曝光,28歲,中鋒,杜鋒愛徒

      2換1,焦泊喬被交易?廣東目標曝光,28歲,中鋒,杜鋒愛徒

      煙潯渺渺
      2026-02-10 19:37:06
      絕了!高市早苗大勝,鄭麗文冷笑著送她一句話,大陸已不用再說啥

      絕了!高市早苗大勝,鄭麗文冷笑著送她一句話,大陸已不用再說啥

      東極妙嚴
      2026-02-10 12:36:32
      73年王洪文提名中央副主席,一上將當場怒懟:你憑什么?現場炸鍋

      73年王洪文提名中央副主席,一上將當場怒懟:你憑什么?現場炸鍋

      元哥說歷史
      2025-12-26 18:50:03
      凌晨三點,徹底失眠:Seedance 2.0告訴我們,AI對現實世界工作流“壓縮”正在加速

      凌晨三點,徹底失眠:Seedance 2.0告訴我們,AI對現實世界工作流“壓縮”正在加速

      華爾街見聞官方
      2026-02-09 07:57:50
      追覓CEO俞浩:我做科研的能力不會比韋東奕差

      追覓CEO俞浩:我做科研的能力不會比韋東奕差

      快科技
      2026-02-10 17:09:21
      朝鮮兩名高官發動兵變為張成澤報仇,因細節敗露,金正恩一招鎮壓

      朝鮮兩名高官發動兵變為張成澤報仇,因細節敗露,金正恩一招鎮壓

      阿胡
      2024-04-30 11:48:45
      流亡一年后,阿薩德已成“透明人”,連約普京吃頓飯都做不到

      流亡一年后,阿薩德已成“透明人”,連約普京吃頓飯都做不到

      朔方瞭望
      2026-01-06 11:11:51
      2026-02-11 00:16:49
      智東西 incentive-icons
      智東西
      聚焦智能變革,服務產業升級。
      11212文章數 116966關注度
      往期回顧 全部

      科技要聞

      Seedance刷屏:網友們玩瘋 影視圈瑟瑟發抖

      頭條要聞

      28歲小伙年會醉酒 被同事送回宿舍后心臟驟停死亡

      頭條要聞

      28歲小伙年會醉酒 被同事送回宿舍后心臟驟停死亡

      體育要聞

      NBA上演全武行,超大沖突4人驅逐!

      娛樂要聞

      章子怡和馬麗爭影后 金像獎提名太精彩

      財經要聞

      雀巢中國近千經銷商的“追債記”

      汽車要聞

      應用于190KW四驅Ultra版 方程豹鈦7搭載天神之眼5.0

      態度原創

      旅游
      本地
      時尚
      手機
      教育

      旅游要聞

      吃魚好去處 四川瀘州納溪煥新打造的“鮮魚巷”開街了

      本地新聞

      圍觀了北京第一屆黑色羽絨服大賽,我笑瘋了

      伊姐周日熱推:電視劇《重返青春》;電視劇《女神蒙上眼》......

      手機要聞

      2026年手機行業劇透:7大信號來襲,要卷出新高度了

      教育要聞

      火眼金睛細觀察,你能秒求陰影部分的面積嗎

      無障礙瀏覽 進入關懷版