網易首頁 > 網易號 > 正文申請入駐

Qwen3.5 還有高手，全模態大模型來了，實測很強

2026-03-31 11:20:06　來源: Ai學習的老章

北京舉報

分享至

兄弟們，Qwen3.5 系列我寫過十幾篇了，涉及簡介、測評、本地部署、微調等等

本來以為可以收手了，沒想到還有高手！

它就是全面超越 Gemini 3.1 Pro 的全模態大模型——Qwen3.5-Omni

簡介

Qwen3.5-Omni 是 Qwen3-Omni 的全面進化版，真正把“看、聽、說、想”放進同一套開源底座里的模型，在海量文本、視覺，以及超過 1 億小時的音視頻數據上進行原生多模態預訓練，支持文本、圖片、音頻、音視頻全模態理解與生成。

幾個關鍵數字：

256k 超長上下文 ，可支持超過 10 小時 的音頻理解
支持超過 400 秒的 720P 音視頻 對話
113 種語種和方言 語音識別， 36 種語種和方言 語音生成
音頻/音視頻的理解、推理和交互任務上取得了 215 項 子任務 / Benchmark 的 SOTA

根據官方披露的數據，Qwen3.5-Omni-Plus 在通用音頻理解、推理、識別、翻譯、對話能力上全面超越了 Gemini 3.1 Pro，在多語言語音識別/生成上也顯著優于 Gemini 3.1 Pro，215 項音頻/音視頻子任務達到 SOTA 成績。

這次 Qwen3.5-Omni 分 Plus / Flash / Light 三檔：

版本

定位

Plus

旗艦，音頻/音視頻理解 215 項 SOTA，對標頂級商業模型

Flash

平衡，速度與能力折中

Light

輕量，適合資源受限或高并發場景

API 接入分兩種：離線 API（文件級批量處理）和實時 API（流式語音對話、實時交互），根據場景選就行。

實測 1、音頻理解

輸入音頻讓其轉錄成字幕，實測有些錯別字，這點是任何模型都不可避免的，比如這個老張/老章。

我之前用剪映做字幕，那是相當難受，先語音識別，再導出字幕文件用本地編輯器打開（剪映自帶的操作太難受了），逐個修改錯別字。

有了 Qwen 3.5-Omni-Plus 我感覺完全可以這樣：先用它錄音轉錄成字幕，然后把口播稿給它，修復其中所有錯別字，識別錯誤之處，然后給出的就是完美字幕文件了。

2、超長音頻轉錄

Qwen 3.5-Omni-Plus超過 10 小時的音頻輸入，這有點太誘人了，又臭又長的會議錄音有救了。但是網頁端處理不了，好在阿里云百煉平臺提供了 API，調用方式與之前一致。

我拿最近特別火的張小珺 7 小時馬拉松對話做測試

用我的 B 站音、視頻下載 skills 將其下載，抽取 MP3 音頻

我寫了一個腳本，用 Qwen3.5-Omni-Plus 將其完整，一口氣把這個將近 7 個小時的 MP3 轉成文字稿


# 代碼太長了，僅展示一下提示詞

 PROMPT = (
    "請將這段音頻完整逐字轉錄為文字稿。要求：\n"
    "1. 保留所有對話內容，不要遺漏或概括\n"
    "2. 標注不同說話人（如 說話人A、說話人B）\n"
    "3. 保留口語化表達、語氣詞\n"
    "4. 如果有明顯的話題轉換，用空行分隔"
)

結果如下，整整 14 萬字，如果加上一些提示詞會更好，比如人名：

3、聯網搜索+工具調用+可變音色音頻輸出

看簡介，Qwen 3.5-Omni-Plus 支持端到端語音控制，模型可以像人一樣遵循指令來對聲音的大小/語速/情緒等自由調節；還支持音色克隆，可以上傳自己的聲音，定制 AI 的專屬音色。這個我很有興趣，大家看我的視頻配音，其實用的就是我的音色克隆，本地跑有點慢，不太穩定，后面決定試試 Omni-Plus。

但是，我更加感興趣的是它的原生聯網搜索支持與工具調用能力，加上輸出音頻的音色支持，完全可以復刻出一個大模型支持的智能音箱了（Qwen 3.5-Omni 有實時版本，也支持聯網搜索），事實上，我正在做這個，把我那臺要退休的 M1 Macmini 改造成支持語音喚醒的智能音響，大家靜待佳音。

實際測試，它真的相當可以

大家感受一下

而且還可以切換音色

4、語義打斷，視頻通話

傳統語音助手有個經典問題：你還沒說完，它就搶話了；或者背景有點噪音，它以為你在叫它。Qwen3.5-Omni 支持語義打斷，自動識別turn-talking意圖，模型可以精準判斷什么時候該接話，什么只是用戶無意識的附和、停頓或背景聲音。

也支持視頻通話，我的 macmini 沒有攝像頭，所以沒有測試

5、視頻理解

整個活兒，雞湯來了的視頻，它是真實看懂了的，幾個問題它都能精準找到答案

我確認了一下，看左下角時間軸，分秒不差

我還給了它我最近的一個視頻讓其總結

它對關鍵幀畫面的理解很不錯，而且對整理風格和內容也有總結：

6、圖像理解

這個題目之前我測試過幾個號稱支持圖像輸入的旗艦大模型，都失敗了。

Qwen3.5-Omni-Plus 表現的確實像真實看過的樣子

意外發現，它自帶 OCR 能力也相當可以，比如我常需要的 latex 公式識別

它可以自動識別，并渲染

然后它的 OCR 能力不輸專業 OCR 大模型，比如我這張測試專用圖片

核心內容完成 get 到了，右下角那個表格也準確識別

7、圖片生成

這沒什么好說的，應該是全模態大模型的基本功了，我試了一個之前 Gemini 中用過的提示詞，Qwen3.5-Omni-Plus 表現也非常不錯，細節很多，人物也很自然。

生圖之后還支持局部修改，這種精準 PS 級別的操作，確實可以

8、文檔解析

提示詞：把這個 PDF 完整解析成結構清晰的 markdown 文檔，翻譯成中文，doublecheck 翻譯質量，不要總結，不要遺漏

意外的是，它出奇的快，幾乎是我按下 Enter 之后立即便開始輸出了

對比了原文，質量也沒問題

如何體驗 Qwen3.5-Omni

官方提供兩個正式渠道：

阿里云百煉 ：API 調用，離線 API 和實時 API 分別適合批量處理和流式交互場景
● 非實時：https://help.aliyun.com/zh/model-studio/qwen-omni
● 實時：https://help.aliyun.com/zh/model-studio/realtime
Qwen Chat ：網頁/App 端直接對話，上手最快 https://chat.qwen.ai/

總結

Qwen3.5-Omni 給我的整體感覺是，野心很大，完成度也不低。它真正有意思的地方，在于把文本、圖像、音頻、視頻、實時語音回復放進了同一個統一框架里，把多模態從"能看圖"推進到了"能聽音頻、看視頻、還能直接說話"，解決統一底座問題，工程上更省拼裝成本。

大模型世界很缺"圖像理解+音視頻理解 + 語音輸出"一體化底座，很多團隊只能自己拼ASR、VLM、TTS、Agent；人機交互也正在從鍵盤窗口走向攝像頭、麥克風、耳機、車機、眼鏡，一個統一模型把交互層、理解層、生成層接起來，產品形態會快很多。

一旦跑順，能做的事情太多了：私有化會議助手、本地視頻問答、播客整理、素材打標、語音Agent、OCR + 多模態知識庫……這類能力對播客摘要、音頻檢索、會議記錄增強都有直接價值，很多人現在都盯著視頻理解和實時助手，我反而覺得 audio caption這條線后面很可能會跑出不少特別實用的場景。

我判斷，未來一兩年 Omni 模型會成為很多設備助手和企業助手的默認底座，路線也很明確，后面會繼續往低延遲、更輕量推進。真正爆發的場景大概率在車載、教育、客服、內容生產、個人知識管理這幾類持續聽、持續看、持續說的產品里。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.