阿里的早上這個發布會,給我看麻了。
一場阿里的云棲大會,我真的感覺,他們把家底全都掏出來了。。。
發了不知道多少個模型。
我雖然這次有事很可惜沒去成現場,但是還是破天荒的8點多起床一下蹲了直播。
結果一直等到快10點才開始= =
過程中,我都看懵了,就一股腦子發啊,各種各樣的模型,挨個掏。
我大概數了下, 純今天新發布的新模型有兩個,一個是整個Qwen系列最強的Qwen3-Max,另一個是爆火的Wan2.2的后續模型Wan2.5,這玩意支持跟Veo3一樣的音畫同出的特性,是有點東西的。
然后也正式發布了前幾天為了預熱提前發布的模型,比如目前Qwen里面最強的Qwen3-VL模型,還有一個全模態模型Qwen3-Omni,還有全新的模型架構帶來的Qwen3-Next等等。
不知道為什么,總讓我有一種Google的既視感。
一邊開發布會,另一邊,阿里的股票直接漲飛了。
![]()
我最快速度整理+體驗了一波,給大家直接一文總結一下,來自阿里的全發布。
話不多說,我們,開始。
一. Qwen3-Max
最牛逼最新的,肯定就當屬Qwen3-Max正式版了,直接對標GPT-5、Claude Opus 4這些世界頂尖模型。
![]()
上一次發Max還是今年1月29日除夕發布的,半年后,他們終于把Qwen3-Max掏出來了。
在LMArena上,之前的Qwen3-Max-Instruct的預覽版,在這個全球最權威的匿名模型對戰平臺上,并列前三,直接把GPT-5-Chat都甩在了身后。
![]()
這次的Max,是真的把參數堆滿了。
模型總參數超過了1萬億,用了36萬億的tokens進行預訓練,突出一個量大管飽。
他們自己的Blog的標題也非常的蘋果味。
大就是好。
![]()
MoE模型,1萬億的大小,支持100萬Token的上下文。
這次發布的Qwen3-Max,也跟別家一樣,分了兩個版本,一個Instruct版,一個更猛的Thinking版。
Qwen3-Max-Instruct這個版本,就是 我們現在能直接用到的,不帶深度思考的。
主要是在代碼和Agent能力上,還是非常強的。
![]()
AIME2025基本一騎絕塵,在LiveCodeBench v6這個強調復雜工程題、未公開題上的泛化能力的測試集上,也得到了不錯的效果。
τ2-Bench這個新的強調AI在動態環境中的推理、工具使用、用戶引導與協調能力的Agent評測集,Qwen3-Max也是最強的,74.8分,直接干翻了Claude Opus 4和DeepSeek-V3.1。
SWE-Bench這個專門解決真實世界編程難題的測試集上,它拿了69.6分,也是穩穩的世界第一梯隊。
不過感覺后面可以更多的看看 SWE-Bench Pro了。
Thinking版目前發了能力圖,但是還沒放出來。
![]()
在AIME 25和HMMT這兩個地獄難度的數學推理競賽題集上,Qwen3-Max-Thinking,拿了100分。
滿分。
直接跟GPT-5 Pro打平了。
這玩意還是有點酷的,可惜,現在還體驗不到。
目前Qwen3-Max-Instruct已經在官網上線了:
https://chat.qwen.ai/
![]()
可以看到深度推理那塊是灰的,不過據說也快上線了。
大家可以去體驗一下。
哦對了,Qwen3-Max目前不開源。
二. Wan-2.5
這段時間,開源的Wan2.2已經爆了。
你在X上,隨處可以那種做人物動畫遷移拿到百萬觀看的帖子。
![]()
阿里直接趁熱打鐵,把Wan2.5掏了出來。
![]()
一些升級到1080P、能跑10s時長這種基礎參數啥的我就不說了。
有一個很好玩的東西,是我覺得可以一提的,就是他們的新能力。
音畫同出。
聽到這個詞是不是很陌生?但是如果我說是是Veo3的那個原生的輸出帶角色音頻的視頻,你們應該就會有印象了。
而這次,Wan2.5,也是第一次支持這個能力,不僅可以跟Veo3一樣,用Prompt控制,而且,還可以上傳圖片+音頻直出。
你可以在通義萬相上玩:
https://tongyi.aliyun.com/
![]()
我直接給大家放一個例子。
直接一張圖+1段音頻,就可以跑出表演還不錯的視頻。
很酷。
還有更好玩的。
真的,能玩起來的花活實在太多了。
得益于音畫同步直出的能力,在數字人和人物表演上,能力大幅加強。
而且解決了Veo3一直以來一個很尷尬的問題,就是沒法保持音色一致性。
但是現在,Wan2.5可以支持上傳音頻驅動了。
那保持一致性,就太簡單了。
這可能給AI短劇,又帶來一波很酷的飛躍。
三. Qwen3-VL
Qwen3-VL今天凌晨提前開源了。
目前是Qwen 系列中最強大的視覺語言模型,原生支持256K token上下文,還能擴展到100萬上下文,大概支持長達2小時的視頻。
![]()
這次開源的是VL系列的旗艦模型Qwen3-VL-235B-A22B,有Instruct與Thinking兩個版本,帶推理和不帶推理的。
在跑分上是有點東西的,在一些能力上,甚至優于Gemini2.5 Pro了。
![]()
這里也放一下他們的片子,我覺得這種視覺模型,一定得配視覺化的看起來才爽。
而且有幾個特點我覺得是有點牛逼的。
一個是有視覺Agent能力,能理解按鈕、調用工具等等,在PC或者手機上完成一些Agent任務。
![]()
這個還是挺強的。
各種識別+推理能力也是非常的牛逼,我的好基友@劉聰NLP測了不少這塊的Case。
比如有一個很坑的題:
找到2024年GDP值最大的省份,并且計算占全國GDP的百分之多少?
![]()
而Qwen3-VL-235B-A22B,都沒開推理,也是一次就對了。
![]()
四. Qwen3-Omni
Qwen3-Omni是一個開源的全模態模型,阿里的盤子真的鋪的太大了,模型也真的太全了。
這個是昨天凌晨提前發了,但是在今天的云棲大會上,正式發布了。
![]()
這是一個純粹的端到端模型,Qwen3-Omni在訓練的時候學習了很多跨模態的數據,原生支持文本、圖像、音頻和視頻的輸入,支持119種文本語言交互、19種語音理解語言與10種語音生成語言。
對,你可以直接進行端到端語音對話,延遲只有211毫秒。
還支持function call和MCP,能非常方便的和現有工具結合。
我直接用它,來識別歌曲。
還是挺好玩的。
五. 其他
還沒完,嗯。。
還有Qwen3-Coder-Plus,推理速度更快,使用更少的 token 可達到更優的效果,代碼安全性增強。
還有Qwen3-Next,總參數 80B 僅激活 3B ,性能就可媲美千問 3 旗艦版 235B 模型,訓練成本較密集模型 Qwen3-32B 大降超 90% ,長文本推理吞吐量提升 10 倍以上,就離譜。
還有全新的語音模型家族通義百聆,涵蓋語音識別大模型Fun-ASR、語音合成大模型Fun-CosyVoice。
![]()
Fun-ASR基于數千萬小時真實語音數據訓練而成,具備強大的上下文理解能力與行業適應性,能實時處理10多種語言。
Fun-CosyVoice可提供上百種預制音色,完全可以拿去做各種客服、有聲書、AI玩具啥的。
還有Qwen3-LiveTranslate-Flas,實時多模態翻譯,只有3秒多的延遲。。
還有Qwen3Guard,專為全球實時AI安全構建的Qwen3基礎安全審核模型,非常適合做RL獎勵建模。
還有圖片編輯模型Qwen-Image-Edit-2509。。。
阿里,真的,就離譜。。。
開源給我人開傻了。
總而言之,阿里這次發布會給我的感覺就是四個字。
傾其所有。
![]()
為了這個繁榮昌盛的AI生態。
幾乎是構建了一個從底層模型到上層應用,覆蓋文本、視覺、音頻、視頻的全模態、全場景的超級生態。
而且我看了下數據,現在,開源屆,現在真的就是Qwen一統江湖了。
![]()
這個肌肉,秀的是真的6。
不得不夸一句。
今天的光,屬于阿里。
以上,既然看到這里了,如果覺得不錯,隨手點個贊、在看、轉發三連吧,如果想第一時間收到推送,也可以給我個星標?~謝謝你看我的文章,我們,下次再見。
>/ 作者:卡茲克
>/ 投稿或爆料,請聯系郵箱:wzglyay@virxact.com
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.