這是蒼何的第 436 篇原創(chuàng)!
大家好,我是蒼何。
還是做博主好,有機會能來阿里云棲大會。
要知道,以前我只能一邊搬磚一邊云參展。
更別提,還能受邀參與直播探展了。
![]()
逛完展,給我最大的感受是震撼,今年能明顯感覺到越來越多的 Agent 和 AI 應用出來了。
![]()
這個機器人做的拉花咖啡很有意思,自拍后通過阿里云函數(shù)計算,調(diào)用Qwen-Image 生成卡通形象,然后給機器人做拉花咖啡。
這么多的應用底層都離不開大模型的加持,這次逛展發(fā)現(xiàn),阿里又發(fā)布了不少新東西。
![]()
千問 3 家族又迎來了不少新成員,先給大家介紹下:
1、Qwen3 Max:擁有超萬億參數(shù),是目前為止通義千問家族中最大、最強的模型,在多項主流權威基準測試中展現(xiàn)出全球領先的性能;
![]()
2、Qwen3-Omni:這是首個原生端到端全模態(tài)開源大模型,將文本、圖像、音頻和視頻統(tǒng)一在一個模型中,無需權衡模態(tài),能夠無縫處理文本、圖像、音頻和視頻等多種輸入形式。
![]()
3、Qwen3-Next:該模型擁有 800 億參數(shù)僅激活 30 億,性能就可媲美千問 3 旗艦版 235B 模型,實現(xiàn)了模型計算效率的重大突破。
![]()
4、Qwen3-VL:這是 Qwen 系列迄今為止最強大的視覺理解模型,它能操作電腦和手機界面,識別 GUI 元素、理解按鈕功能、調(diào)用工具、執(zhí)行任務,目前已開源。
![]()
5、Qwen3-Coder-Plus:這是代碼模型 Qwen 3-Coder 的一次升級,增強了終端任務功能,并提高了 Terminal Bench 的性能,推理速度更快,token 消耗更少,同時代碼安全性上也有增強。
![]()
除了千問,阿里還發(fā)布了通義萬相 Wan2.5-preview系列模型,涵蓋文生視頻、圖生視頻、文生圖和圖像編輯四大模型。
麻了,這次云棲大會,阿里連著發(fā)模型,把人看傻了。
不過,作為一名合格的野生 AI 博主,我還是想親自嘗試這些新的模型。
下面開始吧,文章有些長,建議先點贊收藏。
Qwen 3 Max
![]()
Qwen 3 Max 是目前最強的通義大模型,擁有超萬億的參數(shù)。其中 Qwen 3 Max 包括 instruct 和 Thinking 兩款。
其中 Instruct 模型的智力和能力水平接近 Claude 4 Opus 以及 GPT-5。
Thinking 模型具備很強的深度推理能力,在國際主流評測指標上全球領先。
![]()
現(xiàn)在 chat.qwen.ai 上就可以直接使用了。
![]()
先來個六邊形重力小球?qū)嶒灒纯闯鰜淼男Ч?/p>

我們和以前的 Qwen 2.5 Max 做下對比。
![]()
Qwen 2.5 Max 就有些抽象了,壓根都出不來。
一個模型的實用性最終還是要落地到 coding 和 Agent 能力,下面我們再是一個 breakout游戲的 case。

Claude 4 效果如下:

可以看到 Claude 4 生成的游戲中間缺失元素了直接。Qwen 3 Max 可玩性上更有優(yōu)勢。
這個是我用 Qwen 3 Max 做的復古打印機,效果也很贊。

然后看下 Qwen 3 Max 的文風,我覺得相對上個版本,還是有了很大的增強,特別是在風格仿寫上。
![]()
Wan 2.5-preview
![]()
今天在現(xiàn)場,最為炸裂的當屬萬相的 Wan 2.5-preview,終于也能像 VEO 3 一樣生成帶聲音的視頻了。
后排的小姐姐,激動的連說了好幾句臥槽。
目前可以在夸克造點和萬相平臺上體驗:
1、夸克造點 https://zaodian.quark.cn/r/ai-studio-pc/main/gen-video?click=ai_video 2、萬相平臺 https://tongyi.aliyun.com/wan/generate/video/text-to-video?model=wan2.5 ![]()
其中,要想視頻能生成聲音,需要手動開啟一下這個音效設置:
![]()
看了下,感覺整體效果相當 nice,甚至在細節(jié)和畫質(zhì)上比 veo3 還要更好些。
以上視頻分別來自X老哥:@Dork_sense、@higgsfield_ai、@PhotogenicWeekE
Qwen 3-VL
![]()
Qwen 3-VL 是 Qwen 系列迄今為止最強大的視覺語言模型!
旗艦型號 Qwen3-VL-235B-A22B 現(xiàn)已開源,并提供 Instruct 和 Thinking 兩個版本:
? Instruct 在關鍵視覺基準測試中的表現(xiàn)優(yōu)于 Gemini 2.5 Pro
? Thinking 在多模態(tài)推理任務上實現(xiàn)了最佳 (SOTA) 性能
![]()
能力方面,我直接放官方的一張圖,大家可以感受下。
![]()
測了這么多 VLM 模型,下面用幾個經(jīng)典的例子來拷打一下它的能力吧。
1、文字倒放:
prompt:卡片上都說了啥。
![]()
Qwen 3-VL 很快能正確識別,這里需要做的第一步是要將文字旋轉擺正后再 OCR 識別。
![]()
2、數(shù)車子
prompt:幫我數(shù)下一共有多少臺玩具車?
![]()
回答正確!
![]()
3、網(wǎng)頁復刻
prompt:幫我復刻一下這個網(wǎng)站
![]()
這個 case 失敗了:
![]()
Qwen 3-Omni
![]()
這是首個原生端到端全模態(tài)大模型,能將文本、圖像、音頻和視頻統(tǒng)一在一個模型中,無需權衡模態(tài)!
也就是一個模型就支持文本和多模態(tài)能力,可以說是一個超級大腦了,也更貼近真人。
![]()
目前已經(jīng)開源了 Qwen3-Omni-30B-A3B-Instruct、Qwen3-Omni-30B-A3B-Thinking 和 Qwen3-Omni-30B-A3B-Captioner。
同時在22/36 音頻和 AV 基準測試中 SOTA
![]()
目前也可以使用 Qwen Chat 上的語音聊天和視頻聊天功能來體驗 Qwen3-Omni 模型。

Qwen 3-Next
![]()
從名字上來看,這是下一代模型的全新標準。
Qwen 3-Next 主要實現(xiàn)了模型計算效率的重大突破,總參數(shù)80B僅激活 3B,性能就可足以媲美千問3旗艦版235B模型。
而且 Qwen 3-Next 的訓練成本更低,長文本推理吞吐量更高了。
Qwen 3-Coder-Plus
![]()
Qwen 3-Coder 剛出來的時候,蒼何也第一時間做了評測,具體可看:
這次云棲大會上發(fā)布的主要是對 Qwen 3-Coder 的升級。
主要在推理速度和同時執(zhí)行任務的效率上更高,代碼安全性也更好。
這里的具體實測,就需要花費更長時間了,不過可以持續(xù)關注蒼何,到時給大家?guī)硎褂蒙系捏w驗。
好了,今天的內(nèi)容就到這里了。
講真的,逛完一天,我人是麻的。
技術的迭代速度,已經(jīng)不是按年來算了,而是按天,甚至是按小時。我們以為的未來,可能在 AI 眼里,只是個開場白。
但焦慮歸焦慮,興奮也是真的。
這個時代,最怕的就是站在原地,一成不變。
我們無法預測未來,但可以創(chuàng)造未來。
與其被浪潮拍在沙灘上,不如學著怎么去沖浪。
與各位共勉。
好了,今天就聊到這,如果對你有幫助,希望可以 點贊、在看、分享。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.