IT之家 3 月 30 日消息,阿里千問今晚發(fā)布全模態(tài)大模型 Qwen3.5-Omni。
IT之家附核心亮點如下:
- 無縫理解文本、圖片、音頻及音視頻輸入,支持細粒度、帶時間戳的音視頻 Caption 生成;
- 215 項 SOTA 霸榜,在音頻及音視頻分析、推理、對話、翻譯等任務(wù)超過 Gemini3.1-Pro;
- 自然涌現(xiàn)的 Audio-Visual Vibe Coding 能力;
- 支持語義打斷、音色克隆及語音控制,讓對話體驗更自然;
- 支持 256K 超長上下文與 113 種語言識別,可處理 10 小時音頻或 1 小時視頻。
- 原生支持 WebSearch 和復(fù)雜 Function Call,不僅能聊天,更能幫你做事。
視頻創(chuàng)作與剪輯
上傳一段視頻,Qwen3.5-Omni-Plus 能夠遵循指令生成細粒度,結(jié)構(gòu)化,帶時間戳的準確 Caption:畫面里是誰、說了什么話、背景音樂從哪一秒開始變化、鏡頭切了幾次、每一幀發(fā)生了什么...... 還能幫你判斷這段視頻有沒有敏感內(nèi)容,將長視頻變成可搜索的結(jié)構(gòu)化筆記。
根據(jù)音視頻指令,生成網(wǎng)頁內(nèi)容
根據(jù)你的要求,Qwen3.5-Omni 能直接生成可運行的代碼。這也是本次我們最驚喜的發(fā)現(xiàn):未進行專門訓(xùn)練,模型自然涌現(xiàn)出了 Vibe Coding 能力。它可以根據(jù)畫面邏輯生成 Python 代碼或前端原型…… 讓創(chuàng)意驗證從“看”到“做”只需一步。
更像真人的實時對話
和 Qwen3.5-Omni 聊天,更像是在跟真人交流。它懂得傾聽的分寸:咳嗽聲或隨口附和不會讓它誤停下來,但你的真正插話它能瞬間接住。你還能指令它“小聲點”、“用開心的語氣”,像人一樣自由控制聲音的大小、語速與情緒,讓對話體驗更自然。
專屬音色克隆
上傳一段你的錄音,就能定制專屬的 AI Assistant 音色。克隆后的聲音自然度高、穩(wěn)定性強,支持多種語言生成。你可以打造一個“數(shù)字分身”式助手,讓它用你的聲音去溝通、去陪伴,讓交互更具個性化。
智能任務(wù)執(zhí)行
不止是聊天,Qwen3.5-Omni 還能幫你辦事。詢問“明天北京天氣如何,推薦一家酒店”,它能自主判斷是否需要聯(lián)網(wǎng)搜索,調(diào)用工具查詢實時信息并給出完整建議…… 原生支持 WebSearch 和復(fù)雜工具調(diào)用,讓模型真正成為你的執(zhí)行助手。
相比上一代,Qwen3.5-Omni 在長上下文、多語言、音視頻理解能力上都有明顯提升,同時新增了語義打斷、音色克隆、語音控制等實時交互能力,讓對話體驗更接近真人。配合 ARIA 技術(shù),語音輸出的穩(wěn)定性和自然度也進一步改善。
![]()
Qwen3.5-Omni-Plus 在音頻 / 音視頻的理解、推理和交互任務(wù)上,共取得 215 項 SOTA 成績,涵蓋音視頻、音頻、語音識別、語音翻譯等多個方向。
其中,通用音頻理解、推理、識別、翻譯、對話全面超越 Gemini-3.1 Pro,音視頻理解能力總體達到 Gemini-3.1 Pro 水平。同時,視覺和文本能力與同尺寸 Qwen3.5 模型持平。
![]()
▲ Audio-Visual(音視頻)
![]()
Audio(音頻理解)
![]()
▲ Text(文本能力)
![]()
Speech Generation(語音生成)
用戶可以通過阿里云百煉搜索 Qwen3.5-Omni 調(diào)用 API,提供了 Plus、Flash、Light 三種尺寸,滿足不同場景需求。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.