![]()
機(jī)器之心報(bào)道
編輯:Panda、冷貓
千問 App,大家都用上了吧?
這個(gè)被阿里委以重任的 AI 應(yīng)用,今天迎來了一波史詩級更新:正式接入了阿里最強(qiáng)的兩大視覺模型 ——Qwen-ImageWan 2.5
![]()
在 Hugging Face 等開源社區(qū),Qwen-Image 系列模型長期霸榜,被全球開發(fā)者玩出了花;而 Wan 2.5 則是業(yè)內(nèi)少有、具備「原生音畫同步」能力的視頻生成新貴。
但過去,想用上這些 SOTA 模型,你得會跑代碼、部署 ComfyUI,或者苦等海外大廠的內(nèi)測資格。
今天,門檻消失了。
千問 App 將這兩大頂流模型深度整合,讓普通用戶在手機(jī)上也能擁有一座「掌上影像工作室」。
我們第一時(shí)間實(shí)測了這項(xiàng)更新,結(jié)果發(fā)現(xiàn):它不僅「能打」,甚至在某些體驗(yàn)上,比那些收費(fèi)的「天花板」選手還要香。
Qwen-Image
一句話無痕修圖
如果說文生圖已經(jīng)卷到了「紅海」,那么精準(zhǔn)的圖像編輯則是 2025 年各家大模型爭奪的真正高地。
在這一領(lǐng)域,谷歌 DeepMind 最近發(fā)布的 Nano Banana Pro 憑借強(qiáng)大的邏輯推理能力到處刷屏:它能理解復(fù)雜的空間關(guān)系,甚至能像設(shè)計(jì)師一樣思考構(gòu)圖。
如果你以為這種「帶腦子畫畫」的能力只存在于谷歌的實(shí)驗(yàn)室里,那可就錯(cuò)了。在千問 App 實(shí)測 Qwen-Image 后,我們發(fā)現(xiàn)國產(chǎn)模型在「視覺邏輯」上的理解力同樣毫不遜色。
強(qiáng)大的視覺邏輯理解
過去大部分 AI 繪圖模型都是「右腦發(fā)達(dá),左腦簡單」:畫風(fēng)唯美,但一遇到「在左邊的桌子上放立方體」這種邏輯指令,往往就會翻車。
而 Qwen-Image 的核心突破在于,它不僅是在生成像素,更是在理解幾何與空間。它能像 Nano Banana Pro 一樣,識別畫面中的線條、透視和物體關(guān)系,并在原有基礎(chǔ)上進(jìn)行符合物理規(guī)律的修改。
比如說,圖像編輯模型的老大難問題:家居擺放。
根據(jù)我們以前的經(jīng)驗(yàn),很多模型在房間這類三維空間的場景下表現(xiàn)都不盡如人意,不是搞錯(cuò)物體尺寸,就是搞錯(cuò)透視關(guān)系。
我們用 Qwen-Image 試一試:
![]()
![]()
提示詞:在客廳桌上添加一個(gè)空氣凈化器,并在凈化器上直接標(biāo)注其尺寸(多長、多寬、多高)
從結(jié)果中已經(jīng)能清晰看出 Qwen-Image 在幾何與空間理解上的實(shí)力:它不僅把空氣凈化器準(zhǔn)確擺到了正確的位置,透視關(guān)系也處理得相當(dāng)自然,連輔助線都能精準(zhǔn)對齊到應(yīng)標(biāo)注的區(qū)域,整體效果十分可靠。
SOTA 的一致性保持能力
對于普通用戶來說,比視覺邏輯理解更痛的痛點(diǎn)是:修圖太難了。
通常情況下,你讓 AI 給照片里的人換個(gè)發(fā)型,往往連臉都換了;或者你想把兩個(gè)不同光線照片里的人 P 到一起,結(jié)果違和感極強(qiáng)。我們不得不通過不停地「抽卡」,才能偶然碰運(yùn)氣獲得一張能用的圖像。
反觀 Qwen-Image 則在這方面展現(xiàn)出了極強(qiáng)的能力。它在圖像編輯中極大地提升了主體一致性(Identity Consistency)。
讓我們找一個(gè)高難度場景挑戰(zhàn)一下,將現(xiàn)實(shí)中實(shí)拍的寵物圖片替換到動畫電影的海報(bào)上:
![]()
![]()
提示詞:將參考圖 1 中的主體角色替換為參考圖 2 的寵物,保持參考圖 1 的其他元素不變,俏皮可愛,寵物特征不變
在這個(gè)場景中,Qwen-Image 的表現(xiàn)可以說相當(dāng)驚艷。它不僅精準(zhǔn)保留了小邊牧的外貌特征,還巧妙融入了動畫風(fēng)的元素,與海報(bào)整體的光影質(zhì)感融合得十分自然,生成效果令人眼前一亮、非常滿意。
相較而言,Nano Banana Pro 在這個(gè)極具挑戰(zhàn)性的場景下就沒有那么優(yōu)秀的表現(xiàn)了,盡管它很細(xì)節(jié)地將原海報(bào)夏奇羊的手替換成了毛茸茸的邊牧爪,但整體觀感卻不那么和諧。
![]()
Nano Banana Pro 結(jié)果,提示詞同上。
接下來,我們繼續(xù)腦洞大開,讓劉亦菲版的真人木蘭與迪斯尼動畫版木蘭同框。
上傳兩張不同版本的木蘭圖像,利用 Qwen-Image 強(qiáng)大的多圖融合能力,生成一張「跨次元合影」。
![]()
![]()
提示詞:將以上兩個(gè)人物組合成一張?jiān)陂L安城的合影
效果非常好,模型完美保留了真人的質(zhì)感和動畫的線條,同時(shí)統(tǒng)一了環(huán)境光影。
下面則是 Nano Banana Pro 在同樣提示詞下的結(jié)果。
![]()
Nano Banana Pro 在人物跨時(shí)空融合上仍然非常強(qiáng)大,穩(wěn)居圖像生成頭把交椅。
整體體驗(yàn)下來,我們認(rèn)為 Qwen-Image 相比于頭部模型 Nano Banana Pro 仍有一定差距,但 Qwen-Image 也有自己的顯著優(yōu)勢,比如其在場景一致性保持方面就遠(yuǎn)勝 Nano Banana Pro。更何況,它還是一個(gè)免費(fèi)開源的模型。用戶可以根據(jù)自己的獨(dú)特需求對其進(jìn)行魔改,從而專注增強(qiáng)其某些特定方向的能力,比如光影調(diào)節(jié)、角度調(diào)整、事物替換等。普通用戶也可以通過千問 App 直接使用。
Wan 2.5
一鍵直出有聲歌舞片
在很長一段時(shí)間里,我們看到的 AI 視頻都是「默片」,配音還得手動進(jìn)行。2025 年,AI 視頻生成進(jìn)入了有聲紀(jì)元。當(dāng)大洋彼岸的 Sora 2 和 Veo 3 還在用「原生音畫同步」定義行業(yè)新標(biāo)準(zhǔn)時(shí),大部分普通用戶往往只能看著無聲的開源項(xiàng)目望洋興嘆。
但今天,這一切的門檻被打破了。
剛剛接入千問 App 的 Wan 2.5 是目前國內(nèi)少有的、能讓普通用戶直接嘗試原生音畫同步的模型。
你有多久沒有在 AI 生成的視頻里又唱又跳了?(梗)
![]()
讓我們回到喜人奇妙夜的舞臺:
![]()
提示詞:圖中三個(gè)人一起跳舞,動作夸張,并唱 “技能五子棋,飛沙走石,技能五子棋,力拔山兮”
這個(gè)結(jié)果甚至能和原版《技能五子棋》拼一拼抽象程度了。
我們還能讓幾位練習(xí)生與某個(gè)著名的虛擬形象一起互動。
![]()
![]()
提示詞:幫我生成視頻:讓圖中的三個(gè)人物都邊唱rap邊跳poping舞蹈,圖片上方拿籃球的卡通形象邊用指尖轉(zhuǎn)球邊跟人物們一起唱rap,畫面生動有趣。
值得一提的是,這個(gè)視頻的音樂,不是直接套模板拼湊出來的,也不是音頻驅(qū)動的,而是 AI 基于畫面場景自己推理生成的音樂!據(jù)我們所知,目前國內(nèi)也就千問能做到這一點(diǎn)。
它甚至還能駕馭語言類的表演:
![]()
提示詞:一個(gè)脫口秀演員在臺上說了一個(gè)笑話,內(nèi)容是「別整天說自己是單身狗,狗在你這個(gè)年紀(jì),早 die 了」,觀眾爆笑。
千問 App 的多模態(tài)工作流
從圖到視頻一氣呵成
當(dāng)今的 AI 視覺生成領(lǐng)域,一個(gè)值得關(guān)注的問題是「工具孤島」現(xiàn)象:你用 Midjourney 生成了一張絕美的圖,想讓它動起來,得保存下來上傳到 Runway;想讓它說話,還得再去買一個(gè) HeyGen 的會員。這一套折騰下來,不僅費(fèi)錢,畫質(zhì)和一致性也會在不同模型的轉(zhuǎn)手中嚴(yán)重?fù)p耗。
而千問 App 的一大殺手锏在于實(shí)現(xiàn)了一站式工作流
在這里,創(chuàng)作是流動的:你剛用 Qwen-Image 生成了一張角色圖,下一秒就能直接在同一個(gè)對話框里調(diào)用 Wan 2.5,讓它「活」過來。文生圖、圖像編輯、圖生視頻、視頻生音,所有頂尖模型在一個(gè)對話框里無縫串聯(lián)。
比如這里,我們讓當(dāng)前大熱《瘋狂動物城》的主角出鏡,為我們示范一下。
![]()
提示詞:生成一張尼克狐尼克和朱迪兔朱迪在愛樂之城星光下,對視微笑的圖像
可以看到,在沒有提供任何參考圖像的情況下,Qwen-Image 準(zhǔn)確地理解了角色需求,并生成了非常讓人滿意的圖像。接下來換 Wan 2.5 出場,將上圖視頻化。
![]()
提示詞:圖中兩個(gè)角色手牽手一起跳交誼舞,兔子唱歌 “city of stars,are you shining just for me”
接下來,我們試試將前面生成的動畫木蘭與真人木蘭合影變成視頻。
![]()
提示詞:畫外音男聲 “cut”,隨后左邊的人物對著鏡頭說:“導(dǎo)演,這段怎么樣?”
可以看到,聲音與人物口型甚至肢體動作都做到了相當(dāng)好的同步。有趣的是,Wan 2.5 甚至還給視頻加上了字幕。不過我們也能看到一個(gè)明顯缺點(diǎn):視頻沒有按照指示生成畫外音 cut,而是讓真人木蘭自己喊出來的。
最后,《瘋狂動物城 2》的彩蛋暗示了鳥類的加入,我們決定提前「劇透」。
首先,用 Qwen-Image 合成一張憤怒的小鳥在瘋狂動物城旅行的圖片。
![]()
然后,用 Wan 2.5 將其變成一段視頻。
![]()
提示詞:鳥揮動自拍桿并說:好了,這里還有什么好玩的?
經(jīng)過這一系列實(shí)測,我們不僅驚嘆于生成效果的精良 —— 無論是光影的一致性還是音畫的同步率,都達(dá)到了準(zhǔn)商業(yè)級的水準(zhǔn);更感慨于操作的極致絲滑。
在千問 App 里,你不再需要像在 ComfyUI 里那樣連接復(fù)雜的節(jié)點(diǎn),也不需要像在 Photoshop 里那樣精細(xì)地?fù)笀D層。所有的創(chuàng)意實(shí)現(xiàn),都濃縮在了一次次的自然對話之中。這種「所說即所得」或許才是 AI 創(chuàng)作工具進(jìn)化的終極方向。
技術(shù)揭秘
好萊塢級體驗(yàn)是如何煉成的?
為什么千問 App 能在手機(jī)上跑出「好萊塢級」的效果?這背后其實(shí)是阿里巴巴在視覺生成領(lǐng)域技術(shù)厚積薄發(fā)。
圖像編輯新高度:Qwen-Image-Edit 尤善一致性
在開源圖像生成領(lǐng)域,長期存在一個(gè)困境:
- Flux.1:畫質(zhì)佳且一致性強(qiáng),但在文字渲染上稍顯吃力;
- Ideogram v2:文字渲染的王者,但在編輯的靈活性上略有不足;
- 其它 Edit 模型:能修圖,但往往「修了芝麻丟了西瓜」,導(dǎo)致人物 ID 崩壞(即主體偏移)。
而接入千問 App 的最新版 Qwen-Image-Edit,正是為了打破困境而生。它是目前 Hugging Face 上最熱門的圖像模型之一,各種變體總下載量已突破 300 萬次。
![]()
回首看,Qwen-Image 的進(jìn)化路徑非常清晰:
- Qwen-Image 基礎(chǔ)模型:Qwen-Image 基礎(chǔ)模型:首發(fā)時(shí)便以「懂中文、會寫字」驚艷開源界,解決了 AI 畫不好漢字的頑疾。
![]()
Qwen-Image 在多個(gè)圖像基準(zhǔn)上都有 SOTA 的性能表現(xiàn),包括用于通用圖像生成的 GenEval、DPG 和 OneIG-Bench,以及用于圖像編輯的 GEdit、ImgEdit 和 GSO。此外,在用于文本渲染的 LongText-Bench、ChineseWord 和 TextCraft 上的結(jié)果表明,Qwen-Image 在文本渲染方面表現(xiàn)尤為出色。
- Qwen-Image-Edit:引入了語義與外觀雙重編輯機(jī)制。它創(chuàng)新性地將輸入圖像同時(shí)輸入到 Qwen2.5-VL(實(shí)現(xiàn)視覺語義控制)和 VAE Encoder(實(shí)現(xiàn)視覺外觀控制)。這意味著它既能做 Low-level 的像素級修補(bǔ)(如去水印、換背景),也能做 High-level 的語義重構(gòu)(如把貓變成狗,但姿態(tài)不變)。參閱報(bào)道《剛剛,阿里圖像編輯大殺器 Qwen-Image-Edit 上線,橫掃像素與語義編輯,網(wǎng)友:再見 PS》。
- Qwen-Image-Edit-2509:相比之前,支持多圖像輸入(person+person、person+product、person+scene 等組合),并且單圖編輯的一致性(人物 ID 保持、商品或文字編輯的保真性)有顯著改善。
![]()
Qwen-Image 架構(gòu)示意圖
在最新的更新中,Qwen-Image 模型重點(diǎn)解決了主體偏移問題。簡單來說,它給人物或物體加上了「ID 鎖」,無論你怎么換背景、換光影,臉還是那張臉,產(chǎn)品還是那個(gè)產(chǎn)品。這種工業(yè)級的一致性,是它能實(shí)現(xiàn)多圖融合和精準(zhǔn)修圖的底氣。
此外,新模型還展現(xiàn)出了比肩 Nano Banana Pro 的幾何推理能力。它不再只是單純的像素生成,而是開始理解畫面中的透視、空間和結(jié)構(gòu),這讓它在處理室內(nèi)設(shè)計(jì)、建筑草圖等專業(yè)任務(wù)時(shí),能像人類設(shè)計(jì)師一樣遵循物理邏輯。
視頻生成新范式:Wan 2.5 強(qiáng)在原生多模態(tài)
如果說 Qwen-Image 贏在「全能」,那么 Wan 2.5 則勝在「原生」。
目前的視頻生成模型大多是拼湊出來的:首先生成無聲視頻,再用音頻模型配樂,最后強(qiáng)制對齊。這種散裝流程導(dǎo)致畫面和聲音經(jīng)常失配,很難做到精準(zhǔn)卡點(diǎn)。
Wan 2.5 的核心突破在于采用了原生多模態(tài)架構(gòu)
在同一個(gè)模型框架下,它能同時(shí)接收和處理文本、圖像、視頻和音頻信號。對模型來說,「貓貓張嘴」和「一聲喵嗚」不是兩件事,而是同一件事的兩個(gè)面。
正是基于這種統(tǒng)一的理解,Wan 2.5 才能實(shí)現(xiàn)那些高難度的「通感」操作:
- 對口型(Lip-sync):因?yàn)槟P椭腊l(fā)音與口型的對應(yīng)關(guān)系,所以能讓靜態(tài)照片開口唱歌。
- 音畫卡點(diǎn):因?yàn)槟P屠斫鈩幼鞴?jié)奏與音樂節(jié)拍的內(nèi)在聯(lián)系,所以能生成「邊唱邊跳」的復(fù)雜視頻。
這種原生能力讓千問 App 的視頻生成告別了默片時(shí)代,真正進(jìn)入了視聽一體的新階段。
將工業(yè)級視覺編輯和生成能力
放入普通用戶手掌
這次更新看似只是 App 里的幾個(gè)新功能,實(shí)則是阿里在多模態(tài)領(lǐng)域長期技術(shù)積累的一次集中釋放。
眾所周知,阿里近年已經(jīng)構(gòu)建起一個(gè)非常龐大、系統(tǒng)化的多模態(tài)生成模型生態(tài)。從懂語言、懂視覺的 Qwen 系列,到懂視頻、懂聲音的 Wan 系列,這個(gè)家族幾乎覆蓋了文生圖、圖像編輯、文生視頻、音畫同步等所有核心賽道。
更難得的是,無論在哪個(gè)細(xì)分領(lǐng)域,這些模型都穩(wěn)居全球第一梯隊(duì):Qwen-Image 長期霸榜 Hugging Face;Wan 2.5 更是不僅追平甚至在音畫同步等體驗(yàn)上超越了海外閉源頂流。
過去,這些強(qiáng)大的能力往往分散在 GitHub 的代碼倉庫里,是極客們的專屬玩具。而今天,千問 App 將阿里最強(qiáng)的多模態(tài)模型深度整合在了一起。
它真正成為了多模態(tài)生成的聚合入口,一鍵為普通用戶打開了通往全能創(chuàng)作的「任意門」。
在這個(gè)門里,你不需要懂代碼,不需要買顯卡,只需要一點(diǎn)點(diǎn)創(chuàng)意,就能把腦海中的畫面變成現(xiàn)實(shí),而且是有聲有色、活靈活現(xiàn)的現(xiàn)實(shí)。
文中視頻鏈接:https://mp.weixin.qq.com/s/0H_01R8UwZbJVfxWG9zNSg
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.