網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

阿里千問發(fā)布全模態(tài)大模型Qwen3.5-Omni

2026-03-30 22:18:29　來源: IT之家

山東舉報

分享至

IT之家 3 月 30 日消息，阿里千問今晚發(fā)布全模態(tài)大模型 Qwen3.5-Omni。

IT之家附核心亮點如下：

無縫理解文本、圖片、音頻及音視頻輸入，支持細粒度、帶時間戳的音視頻 Caption 生成；
215 項 SOTA 霸榜，在音頻及音視頻分析、推理、對話、翻譯等任務(wù)超過 Gemini3.1-Pro；
自然涌現(xiàn)的 Audio-Visual Vibe Coding 能力；
支持語義打斷、音色克隆及語音控制，讓對話體驗更自然；
支持 256K 超長上下文與 113 種語言識別，可處理 10 小時音頻或 1 小時視頻。
原生支持 WebSearch 和復(fù)雜 Function Call，不僅能聊天，更能幫你做事。

視頻創(chuàng)作與剪輯

上傳一段視頻，Qwen3.5-Omni-Plus 能夠遵循指令生成細粒度，結(jié)構(gòu)化，帶時間戳的準確 Caption：畫面里是誰、說了什么話、背景音樂從哪一秒開始變化、鏡頭切了幾次、每一幀發(fā)生了什么...... 還能幫你判斷這段視頻有沒有敏感內(nèi)容，將長視頻變成可搜索的結(jié)構(gòu)化筆記。

根據(jù)音視頻指令，生成網(wǎng)頁內(nèi)容

根據(jù)你的要求，Qwen3.5-Omni 能直接生成可運行的代碼。這也是本次我們最驚喜的發(fā)現(xiàn)：未進行專門訓(xùn)練，模型自然涌現(xiàn)出了 Vibe Coding 能力。它可以根據(jù)畫面邏輯生成 Python 代碼或前端原型…… 讓創(chuàng)意驗證從“看”到“做”只需一步。

更像真人的實時對話

和 Qwen3.5-Omni 聊天，更像是在跟真人交流。它懂得傾聽的分寸：咳嗽聲或隨口附和不會讓它誤停下來，但你的真正插話它能瞬間接住。你還能指令它“小聲點”、“用開心的語氣”，像人一樣自由控制聲音的大小、語速與情緒，讓對話體驗更自然。

專屬音色克隆

上傳一段你的錄音，就能定制專屬的 AI Assistant 音色。克隆后的聲音自然度高、穩(wěn)定性強，支持多種語言生成。你可以打造一個“數(shù)字分身”式助手，讓它用你的聲音去溝通、去陪伴，讓交互更具個性化。

智能任務(wù)執(zhí)行

不止是聊天，Qwen3.5-Omni 還能幫你辦事。詢問“明天北京天氣如何，推薦一家酒店”，它能自主判斷是否需要聯(lián)網(wǎng)搜索，調(diào)用工具查詢實時信息并給出完整建議…… 原生支持 WebSearch 和復(fù)雜工具調(diào)用，讓模型真正成為你的執(zhí)行助手。

相比上一代，Qwen3.5-Omni 在長上下文、多語言、音視頻理解能力上都有明顯提升，同時新增了語義打斷、音色克隆、語音控制等實時交互能力，讓對話體驗更接近真人。配合 ARIA 技術(shù)，語音輸出的穩(wěn)定性和自然度也進一步改善。

Qwen3.5-Omni-Plus 在音頻 / 音視頻的理解、推理和交互任務(wù)上，共取得 215 項 SOTA 成績，涵蓋音視頻、音頻、語音識別、語音翻譯等多個方向。

其中，通用音頻理解、推理、識別、翻譯、對話全面超越 Gemini-3.1 Pro，音視頻理解能力總體達到 Gemini-3.1 Pro 水平。同時，視覺和文本能力與同尺寸 Qwen3.5 模型持平。

▲ Audio-Visual（音視頻）

Audio（音頻理解）

▲ Text（文本能力）

Speech Generation（語音生成）

用戶可以通過阿里云百煉搜索 Qwen3.5-Omni 調(diào)用 API，提供了 Plus、Flash、Light 三種尺寸，滿足不同場景需求。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.