<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      Qwen3.5 還有高手,全模態大模型來了,實測很強

      0
      分享至

      兄弟們,Qwen3.5 系列我寫過十幾篇了,涉及簡介、測評、本地部署、微調等等


      本來以為可以收手了,沒想到還有高手!

      它就是全面超越 Gemini 3.1 Pro 的全模態大模型——Qwen3.5-Omni

      簡介

      Qwen3.5-Omni 是 Qwen3-Omni 的全面進化版,真正把“看、聽、說、想”放進同一套開源底座里的模型,在海量文本、視覺,以及超過 1 億小時的音視頻數據上進行原生多模態預訓練,支持文本、圖片、音頻、音視 頻全模態理解與生成。

      幾個關鍵數字:

      • 256k 超長上下文 ,可支持超過 10 小時 的音頻理解

      • 支持超過 400 秒的 720P 音視頻 對話

      • 113 種語種和方言 語音識別, 36 種語種和方言 語音生成

      • 音頻/音視頻的理解、推理和交互任務上取得了 215 項 子任務 / Benchmark 的 SOTA

      根據官方披露的數據,Qwen3.5-Omni-Plus 在通用音頻理解、推理、識別、翻譯、對話能力上全面超越了 Gemini 3.1 Pro,在多語言語音識別/生成上也顯著優于 Gemini 3.1 Pro,215 項音頻/音視頻子任務達到 SOTA 成績。


      這次 Qwen3.5-Omni 分 Plus / Flash / Light 三檔:

      版本

      定位

      Plus

      旗艦,音頻/音視頻理解 215 項 SOTA,對標頂級商業模型

      Flash

      平衡,速度與能力折中

      Light

      輕量,適合資源受限或高并發場景

      API 接入分兩種:離線 API(文件級批量處理)和實時 API(流式語音對話、實時交互),根據場景選就行。

      實測 1、音頻理解

      輸入音頻讓其轉錄成字幕,實測有些錯別字,這點是任何模型都不可避免的,比如這個老張/老章。


      我之前用剪映做字幕,那是相當難受,先語音識別,再導出字幕文件用本地編輯器打開(剪映自帶的操作太難受了),逐個修改錯別字。

      有了 Qwen 3.5-Omni-Plus 我感覺完全可以這樣:先用它錄音轉錄成字幕,然后把口播稿給它,修復其中所有錯別字,識別錯誤之處,然后給出的就是完美字幕文件了。

      2、超長音頻轉錄

      Qwen 3.5-Omni-Plus超過 10 小時的音頻輸入,這有點太誘人了,又臭又長的會議錄音有救了。但是網頁端處理不了,好在阿里云百煉平臺提供了 API,調用方式與之前一致。

      我拿最近特別火的張小珺 7 小時馬拉松對話做測試


      用我的 B 站音、視頻下載 skills 將其下載,抽取 MP3 音頻


      我寫了一個腳本,用 Qwen3.5-Omni-Plus 將其完整,一口氣把這個將近 7 個小時的 MP3 轉成文字稿


      # 代碼太長了,僅展示一下提示詞

      PROMPT = (
      "請將這段音頻完整逐字轉錄為文字稿。要求:\n"
      "1. 保留所有對話內容,不要遺漏或概括\n"
      "2. 標注不同說話人(如 說話人A、說話人B)\n"
      "3. 保留口語化表達、語氣詞\n"
      "4. 如果有明顯的話題轉換,用空行分隔"
      )

      結果如下,整整 14 萬字,如果加上一些提示詞會更好,比如人名:


      3、聯網搜索+工具調用+可變音色音頻輸出

      看簡介,Qwen 3.5-Omni-Plus 支持端到端語音控制,模型可以像人一樣遵循指令來對聲音的大小/語速/情緒等自由調節;還支持音色克隆,可以上傳自己的聲音,定制 AI 的專屬音色。這個我很有興趣,大家看我的視頻配音,其實用的就是我的音色克隆,本地跑有點慢,不太穩定,后面決定試試 Omni-Plus。

      但是,我更加感興趣的是它的原生聯網搜索支持與工具調用能力,加上輸出音頻的音色支持,完全可以復刻出一個大模型支持的智能音箱了(Qwen 3.5-Omni 有實時版本,也支持聯網搜索),事實上,我正在做這個,把我那臺要退休的 M1 Macmini 改造成支持語音喚醒的智能音響,大家靜待佳音。

      實際測試,它真的相當可以


      大家感受一下

      而且還可以切換音色

      4、語義打斷,視頻通話

      傳統語音助手有個經典問題:你還沒說完,它就搶話了;或者背景有點噪音,它以為你在叫它。Qwen3.5-Omni 支持語義打斷,自動識別turn-talking意圖,模型可以精準判斷什么時候該接話,什么只是用戶無意識的附和、停頓或背景聲音。


      也支持視頻通話,我的 macmini 沒有攝像頭,所以沒有測試


      5、視頻理解

      整個活兒,雞湯來了的視頻,它是真實看懂了的,幾個問題它都能精準找到答案


      我確認了一下,看左下角時間軸,分秒不差


      我還給了它我最近的一個視頻讓其總結


      它對關鍵幀畫面的理解很不錯,而且對整理風格和內容也有總結:


      6、圖像理解

      這個題目之前我測試過幾個號稱支持圖像輸入的旗艦大模型,都失敗了。

      Qwen3.5-Omni-Plus 表現的確實像真實看過的樣子


      意外發現,它自帶 OCR 能力也相當可以,比如我常需要的 latex 公式識別


      它可以自動識別,并渲染


      然后它的 OCR 能力不輸專業 OCR 大模型,比如我這張測試專用圖片


      核心內容完成 get 到了,右下角那個表格也準確識別


      7、圖片生成

      這沒什么好說的,應該是全模態大模型的基本功了,我試了一個之前 Gemini 中用過的提示詞,Qwen3.5-Omni-Plus 表現也非常不錯,細節很多,人物也很自然。

      生圖之后還支持局部修改,這種精準 PS 級別的操作,確實可以


      8、文檔解析

      提示詞:把這個 PDF 完整解析成結構清晰的 markdown 文檔,翻譯成中文,doublecheck 翻譯質量,不要總結,不要遺漏

      意外的是,它出奇的快,幾乎是我按下 Enter 之后立即便開始輸出了


      對比了原文,質量也沒問題


      如何體驗 Qwen3.5-Omni

      官方提供兩個正式渠道:

      1. 阿里云百煉 :API 調用,離線 API 和實時 API 分別適合批量處理和流式交互場景

        ● 非實時:https://help.aliyun.com/zh/model-studio/qwen-omni

        ● 實時:https://help.aliyun.com/zh/model-studio/realtime

      2. Qwen Chat :網頁/App 端直接對話,上手最快 https://chat.qwen.ai/

      總結

      Qwen3.5-Omni 給我的整體感覺是,野心很大,完成度也不低。它真正有意思的地方,在于把文本、圖像、音頻、視頻、實時語音回復放進了同一個統一框架里,把多模態從"能看圖"推進到了"能聽音頻、看視頻、還能直接說話",解決統一底座問題,工程上更省拼裝成本。

      大模型世界很缺"圖像理解+音視頻理解 + 語音輸出"一體化底座,很多團隊只能自己拼ASR、VLM、TTS、Agent;人機交互也正在從鍵盤窗口走向攝像頭、麥克風、耳機、車機、眼鏡,一個統一模型把交互層、理解層、生成層接起來,產品形態會快很多。

      一旦跑順,能做的事情太多了:私有化會議助手、本地視頻問答、播客整理、素材打標、語音Agent、OCR + 多模態知識庫……這類能力對播客摘要、音頻檢索、會議記錄增強都有直接價值,很多人現在都盯著視頻理解和實時助手,我反而覺得 audio caption這條線后面很可能會跑出不少特別實用的場景。

      我判斷,未來一兩年 Omni 模型會成為很多設備助手和企業助手的默認底座,路線也很明確,后面會繼續往低延遲、更輕量推進。真正爆發的場景大概率在車載、教育、客服、內容生產、個人知識管理這幾類持續聽、持續看、持續說的產品里。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      國運來了擋不住!我國發現世界最大"超巨型金礦床"、價值6000億

      國運來了擋不住!我國發現世界最大"超巨型金礦床"、價值6000億

      愛競彩的小周
      2026-04-02 12:32:25
      收到中方賀電,金正恩很高興,回電感謝并做出重要決定。

      收到中方賀電,金正恩很高興,回電感謝并做出重要決定。

      張嘴說財經
      2026-04-01 22:24:17
      太突然!他倆宣布離婚

      太突然!他倆宣布離婚

      廣州生活美食圈
      2026-04-01 19:01:31
      今麥郎董事長回應“手打掛面的‘手打’是商標”:該商標已用了20年,4月2日凌晨起停產相關產品

      今麥郎董事長回應“手打掛面的‘手打’是商標”:該商標已用了20年,4月2日凌晨起停產相關產品

      封面新聞
      2026-04-02 05:07:12
      中方奉陪到底!沒等來日本道歉,高市卻掀桌了,突然亮出獠牙!

      中方奉陪到底!沒等來日本道歉,高市卻掀桌了,突然亮出獠牙!

      娛樂的宅急便
      2026-04-01 14:42:42
      福建福州振興鄉村集團有限公司董事長陳志武接受審查調查

      福建福州振興鄉村集團有限公司董事長陳志武接受審查調查

      界面新聞
      2026-04-02 08:36:22
      66歲陳永貴,退休后對秘書發脾氣,李先念下令:不許再給他送文件

      66歲陳永貴,退休后對秘書發脾氣,李先念下令:不許再給他送文件

      簡史檔案館
      2026-04-02 11:05:03
      特朗普剛表態認輸,不到24小時,美債遭遇大規模拋售,美國失算了

      特朗普剛表態認輸,不到24小時,美債遭遇大規模拋售,美國失算了

      深析古今
      2026-04-01 21:52:44
      金價徹底爆了!

      金價徹底爆了!

      新浪財經
      2026-04-02 10:04:40
      現在教育最大的問題是:大多數學生根本就不想學習。

      現在教育最大的問題是:大多數學生根本就不想學習。

      李老師講最真教育
      2026-04-01 22:07:16
      山西柳林一飯店發現3人死亡 疑似煤氣中毒

      山西柳林一飯店發現3人死亡 疑似煤氣中毒

      新京報
      2026-04-02 12:21:11
      李榮浩抄襲案逆轉? 網揪「時間軸證據」質疑說謊:版權公司根本沒倒

      李榮浩抄襲案逆轉? 網揪「時間軸證據」質疑說謊:版權公司根本沒倒

      ETtoday星光云
      2026-04-02 16:50:10
      女生主動起來有多黏人?網友:這些女的太開放了

      女生主動起來有多黏人?網友:這些女的太開放了

      帶你感受人間冷暖
      2026-01-27 00:20:06
      鄭麗文強援已到!美國竄訪團抵臺當天,北京出手,大陸來撐腰了

      鄭麗文強援已到!美國竄訪團抵臺當天,北京出手,大陸來撐腰了

      混沌錄
      2026-04-01 20:37:15
      不能錯過!4月2日下午14:00比賽!中央5套CCTV5、CCTV5+直播表

      不能錯過!4月2日下午14:00比賽!中央5套CCTV5、CCTV5+直播表

      皮皮觀天下
      2026-04-02 13:52:19
      社交潛規則:沒有人有義務透過你邋遢的外表,去發現你優秀的內在

      社交潛規則:沒有人有義務透過你邋遢的外表,去發現你優秀的內在

      清風拂心
      2026-03-18 10:08:19
      香港演員施明去世,終年74歲,曾出演《倚天屠龍記》紫衫龍王,精通武術曾做史泰龍保鏢

      香港演員施明去世,終年74歲,曾出演《倚天屠龍記》紫衫龍王,精通武術曾做史泰龍保鏢

      大象新聞
      2026-03-31 14:49:05
      天氣轉暖,醫生提醒冠心病患者:寧可多看看電視,也別隨意做5事

      天氣轉暖,醫生提醒冠心病患者:寧可多看看電視,也別隨意做5事

      岐黃傳人孫大夫
      2026-03-30 23:30:03
      這面相太好了,妥妥旺夫相,膀大腰圓氣血足,穿著干凈舒服!

      這面相太好了,妥妥旺夫相,膀大腰圓氣血足,穿著干凈舒服!

      可樂談情感
      2026-03-29 15:16:24
      晚飯七分飽被推翻了?醫生調查:過了56歲,吃飯盡量要做到這5點

      晚飯七分飽被推翻了?醫生調查:過了56歲,吃飯盡量要做到這5點

      蜉蝣說
      2026-02-03 15:00:19
      2026-04-02 17:28:49
      Ai學習的老章 incentive-icons
      Ai學習的老章
      Ai學習的老章
      3302文章數 11122關注度
      往期回顧 全部

      科技要聞

      三年虧20億,最新估值58億,Xreal沖刺港股

      頭條要聞

      外媒稱伊朗已向中國尋求安全保障 外交部回應

      頭條要聞

      外媒稱伊朗已向中國尋求安全保障 外交部回應

      體育要聞

      這六個字,代表了邵佳一的新國足

      娛樂要聞

      宋寧峰帶女兒出軌,張婉婷找董璇哭訴

      財經要聞

      電商售械三水光針 機構倒貨or假貨猖獗?

      汽車要聞

      三電可靠 用料下本 百萬公里的蔚來ES6 拆開看

      態度原創

      親子
      本地
      旅游
      時尚
      公開課

      親子要聞

      輔酶q10備孕怎么吃?高齡備孕吃什么提高卵泡數量?

      本地新聞

      從學徒到世界冠軍,為什么說張雪的底氣在重慶?

      旅游要聞

      河南中牟:地鐵直達赴春約 “微度假”成春日近郊游爆款

      女人有沒有品位看看穿搭就知道,這些造型值得借鑒,溫柔高級

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版