作者 | 葉二 編輯 | 魏曉
半個月前,阿里全新集團戰略項目千問,正式對外公測。在官方的介紹中,在千問上,學習工作可以一站式搞定。而底氣,則正是基于阿里最強模型、全球開源第一的模型 Qwen 。
AI助手的能力,來自于模型基座。道理是這個道理,只是Qwen雖說早在B端展現出強大的技術實力,征服了一眾海內外的開發者,但此前在面向普通消費者的C端,并沒有太多建樹。
這也使得千問的強大,總歸是欠缺了直觀感知。
而現在,完全不一樣了。
就在今天,千問進行了更新,一口氣接入AI生圖Qwen-Image最新模型和AI視頻模型Wan2.5等,這都是目前Qwen發布的面向AIGC創作領域的最新模型,尤其是前者,更是當下全球最強的圖像開源模型,并且更夸張的是,免費開放。
是的,沒看錯,免費。
![]()
與此同時,隨著這一系列多模態能力,以及文生圖、圖生視頻等生成式AI功能在千問上的集中釋放,Qwen的底層實力也第一次真正“可視化”地呈現在大眾面前。
AI藍媒匯第一時間也進行了實測,體驗下來,只想說兩句話。
一句是,千問果然沒唬人,Qwen不愧是 “最強開源大模型”,一出手就知有沒有。另一句是,這么好的產品,阿里為什么不早點拿出來給C端用。
“所想即所得”的創意世界
先看下千問此次加入的Wan2.5 AI生視頻能力,要知道,視頻作為信息密度最高、表現力最強的媒介之一,是模型能力最直觀的展示。
AI藍媒匯通過千問搭載的Wan2.5 AI生視頻,以一張靜態美女圖為主體,讓鏡頭圍繞其360度旋轉,然后空中飄下彩帶,定格,并選擇5S視頻(另一個選項是10S)、設置好清晰度,打開了智能配音,開啟生成。
在差不多3分鐘左右的時間,這樣一個視頻便做好了。
看看效果。
視頻不僅完整繼承了原始圖像中女孩的外貌特征、服裝細節,并且AI進一步還原了女孩的整個面部,展現了Wan2.5模型的智能補全與重建能力。
原圖中,女孩呈現“一睜眼、一閉眼”的非對稱狀態;而AI在生成動態視頻時,自動推演并補全了閉合眼瞼的自然睜開過程,使面部表情過渡流暢、五官比例協調,整體觀感極為自然,毫無違和感。
同時模型具備較強的語義理解和場景推理能力,生成的場景,與AI藍媒匯想要達成的效果基本一致。在動作方面,其中,彩帶從天而降,飄落軌跡也非常合理,符合現實物理規律。
更大的亮點還在于,Wan2.5可以在生成時選擇智能配音,可以自動匹配符合場景情緒的語音或音效,并實現音畫同步——口型、表情、動作與聲音節奏相互呼應。
本視頻中便匹配了一個節奏前期快速,然后中期轉折變得舒緩的音效,極大提升了內容的沉浸感與傳播力。
這種是貼近現實風的,現在來試試“幻想風格”的。
將一張小狗的圖,變成一個巫師小狗的視頻,騎著魔杖,飛行在霍格沃茨的城堡中,生成條件,5S,未打開智能配音。
效果還是很像那么回事。一個原本還在花叢中的小狗,搖身一變就成為了巫師小狗,畫面過渡非常自然,場景切換也比較絲滑。值得注意的是,畫面中的巫師斗篷,一直在隨風飄動,非常真實,顯示出高速飛行下的速度感。
再搞點有意思的。
千問AI視頻創作,還上線了AI跳舞功能的迭代版“全民唱跳2.0”,還是這個狗狗,我們試著讓它對口型,唱一下哈基米之歌。都知道,對口型AI創作原本為人類語音設計,對動物嘴型的適配屬于“跨域遷移”,難度相對比較大。
從千問生成的這段視頻來看,整體看下來,狗狗對口型的準確度,達到了90%左右,嘴型、眼睛、乃至舌頭,都隨著“發聲”,實現了相應匹配,達到了 “能玩、有趣”的水平。
再換個歷史人物,讓莎士比亞穿越到現在,跳一首歡快的舞蹈。
好了,現在再試試,一句話生成視頻,看看效果。
“夜晚的未來都市,全息廣告牌閃爍,一只機械貓眨眼,‘歡迎來到賽博天津’文字滾動。虛擬偶像在跳舞。”
描述還是很寬泛,缺乏明顯參照圖等關鍵信息,不過Wan2.5還是盡可能地構建出一個具有辨識度的賽博朋克城市片段。細節方面,其中機械貓以銀色金屬質感呈現,眼部采用發光矩陣設計,具備自然眨眼動畫,賦予角色生命力。核心文字也非常清晰,從右向左滾動,節奏穩定。畫面光影層次豐富,同時搭配科幻感BGM,沉浸感強。
整體測下來,千問AI生視頻的能力,還是挺出乎人意料的。
市場普遍都知道,過去在AI視頻生成這個賽道上,阿里產品相對比較低調,名聲并不突出,但沒想到,默默發育,能力已經涌現到如此程度了,生成質量和適配性均達到國際頂尖水平。
超高一致性的生產力工具
視頻讓人“所想即所得”之外,再來看看“千問”此次搭載的AI生圖模型實戰效果。
公開資料顯示,Qwen-Image在Huggingface趨勢榜登頂數周,開源全球第一 ,在AI arena競技場,排名僅次于閉源模型nano banana、seedream 4.0,是全球最強圖像開源模型。
而據說此次千問搭載的是Qwen-Image最新模型,是Qwen-Image 2511,是Qwen-Image給千問定制的特供滿血版本。
那來看看,全球最強圖像開源模型到底是怎么個全球最強?特供滿血版,又是怎樣的火力全開?
以用戶合影需求為例。
![]()
AI藍媒匯以上文中的小狗圖,以及一張人物圖,做了測試,“把狗狗放到人物圖中”,Qwen-Image 2511直接生成了一張狗狗坐在人物懷里的圖,保持了高度一致性。無論是人物,還是動物,都保持了高度一致:狗狗毛色和體型在全新圖片中保持一致,確保了主體形象的統一。人物也同樣如此。
![]()
并且,AI很好的理解了用戶的意圖,將狗狗與人物的位置關系,處理的非常自然和諧。
換個姿勢,“讓人物站著抱著小狗”。
![]()
這個指令,相當于無論是人物,還是小狗,其姿態都需要發生變化。但生成出來的圖片,人物姿態轉換流暢,抱狗的肢體動作也符合人體工學,并且一如既往,保持了超高的人物、動物一致性。
還可以,再加個索尼FL效果濾鏡,一下子質感就出來了。
![]()
這種超高的一致性,也直接讓千問更是能成為一個提升生產力的工具。
AI藍媒匯先讓AI為辦公室放著的一個蘇打餅干包裝添加藍媒匯主題英文標識logo,logo的字體風格、印刷質感與餅干包裝的材質、色調高度貼合,無明顯的違和感。
![]()
后續基于該包裝圖生成雙十二圣誕主題促銷海報,AI將餅干主體與圣誕元素(圣誕樹、雪花、禮盒)融合自然,中文促銷信息排版清晰,整體視覺風格契合食品類海報的營銷調性,效果達標。
![]()
從生成效果來看,Qwen-Image 2511具備非常強的文字處理能力,與排版理解能力。這意味著它能“畫圖”,還能“做設計”。
比如一張模特圖,與一張商品圖,實現“換裝”。
![]()
![]()
又或者,一句話生成一張商品促銷海報。
![]()
![]()
腦洞再大點,一張圣誕主題的像素蘋果海報。
![]()
等等,可以清楚看出,此次千問上線的Qwen-Image最新模型不僅僅是一個幫助用戶將創意轉化為現實的工具,它同樣也能直接應用于商業環境中,展現出其在品牌視覺延展與電商內容生成場景中的落地價值。
對了,最最最重要的一點,這些功能目前都免費開放,無論是文生圖,還是圖生圖,甚至是過去在修圖軟件上需要付費的包括P圖精修、多元風格濾鏡的一應功能,全部免費。主打就是一個全面開放,免費開放,讓人人可及、即想即用。
整體來看,此次“千問”接入了Wan2.5和Qwen-Image 2511等最新大模型,從原本的ChatBot直接躍升至全棧式AIGC創意助手。
Qwen的強大,也直觀呈現在大眾面前,不再只是工程師口中的“最強開源大模型”,而是化身為普通人觸手可及的創意伙伴——只需一句自然語言,就精準還原生活場景、生成高一致性角色,并賦予畫面以流暢動作與真實聲效,真正實現了“想得到,就看得見、聽得真、用得上”。
而對于“千問”本身而言,這也直接意味著,其將Qwen大模型的底層實力,變成了普通人也能輕松駕馭的創造力、生產力。
基于最強開源大模型Qwen打造的千問,果然沒唬人。相信接下來,Qwen的更多先進強大的能力,還將持續封裝進入千問。一個萬能的AI助手,越來越近了。
(文中圖片、視頻,均為千問AI生成)
Lanmeih/今日話題
你用過AI生圖、生視頻嗎?
咱們評論區聊聊~
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.