<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      港科大聯(lián)合騰訊微信、北大發(fā)布首個大一統(tǒng)框架 Audio-Omni

      0
      分享至



      近年來,隨著多模態(tài)大模型的飛速發(fā)展,視覺領域(如圖像、視頻)的「理解 - 生成 - 編輯」大一統(tǒng)模型不斷涌現(xiàn)。然而,在聲音的物理世界中,音頻模型卻依然處于各自為戰(zhàn)的狀態(tài):

      現(xiàn)有的音頻大模型往往局限于單一任務(只能理解,或只能生成),或者受限于特定領域(做語音的處理不了音樂,做音樂的處理不了環(huán)境音)。與此同時,音頻編輯(Audio Editing)更是因為極其匱乏大規(guī)模、高質(zhì)量的指令數(shù)據(jù)集,遲遲難以實現(xiàn)突破。

      面對這一長期存在的技術難題,香港科技大學、騰訊微信視覺團隊與北京大學的研究人員提出了一種全新的解耦框架 ——Audio-Omni。這是業(yè)界首個在統(tǒng)一框架下,同時支持通用聲音、音樂、語音三大領域的理解、生成與編輯的全能型多模態(tài)模型。

      Audio-Omni 巧妙地將凍結的多模態(tài)大模型(MLLM)的強大推理能力,與可訓練的擴散生成器(DiT)的高保真合成能力完美結合。更重要的是,由于繼承了 MLLM 豐富的世界知識,Audio-Omni 展現(xiàn)出了眾多專家音頻模型難以實現(xiàn)的「涌現(xiàn)能力」。

      目前,該研究成果已被頂級學術會議 SIGGRAPH 2026 接收,項目已開源。





      An overview of the Audio-Omni framework and its capabilities.

      • 項目主頁:https://zeyuet.github.io/Audio-Omni/
      • 論文地址:https://arxiv.org/pdf/2604.10708
      • 開源代碼:https://github.com/ZeyueT/Audio-Omni
      • 開源模型:https://huggingface.co/HKUSTAudio/Audio-Omni

      效果展示

      無論是基礎的跨模態(tài)生成,還是精細的指令編輯,亦或是復雜的邏輯推理,Audio-Omni 都能在單一模型中輕松搞定。

      1. 多模態(tài)音頻生成

      在常規(guī)生成任務上,Audio-Omni 在多個基準測試中達到 SoTA 水平,支持多種模態(tài)控制:

      • 文生音頻 (T2A)

      A telephone dials twice, followed by the sound of glass shattering.



      • 文生音樂 (T2M)

      Compose a bright jazz swing instrumental with walking bass, brushed drums, and a lively horn melody.



      Create a cheerful acoustic folk song accompaniment with strummed guitar, light percussion, and a whistling-style lead melody.



      • 視頻配音 (V2A)



      視頻地址:https://mp.weixin.qq.com/s/yBgZVzS28-WnG2KzQYAR0w?click_id=21

      • 視頻配樂 (V2M)



      視頻地址:https://mp.weixin.qq.com/s/yBgZVzS28-WnG2KzQYAR0w?click_id=21

      • 文本到語音合成 (TTS)

      The alchemist erased the circle in the sand, and the snake slithered away among the rocks.



      2. 指令級靈活音頻編輯

      前 10s 是輸入音頻,后 10s 是編輯后的結果:

      • 添加 (Add):在原有場景音中自然融入新元素。

      Prompt: Add the sound of'skateboarding' to the input audio.



      Input



      Output



      • 移除 (Remove):剝離環(huán)境中的指定聲音。

      Prompt: Remove the sound of 'female singing' from the input audio.



      Input



      Output



      • 提取 (Extract):精準提取混音中的特定聲源。

      Prompt: Extract the sound of 'ambulance siren' from the input audio.



      Input



      Output



      • 風格遷移 (Style Transfer):改變物體的音色或整體環(huán)境風格,同時精準保留原始音頻的時序節(jié)奏與音高(Pitch)走向。

      Prompt: Change the sound of 'dog barking' to 'hammering'.



      Input



      Output



      Prompt: Change the sound of 'playing electric guitar' to 'playing saxophone'.







      3. MLLM 賦予的「繼承能力」(Inherited Capabilities)

      得益于獨特的架構設計,Audio-Omni 完美繼承了凍結的 MLLM 內(nèi)部的世界知識,展現(xiàn)出了傳統(tǒng)音頻生成模型難以具備的推理與認知能力

      • 知識增強生成(Knowledge-Augmented Generation)

      當你在提示詞里寫下「齊柏林飛艇(Led Zeppelin)樂隊的 John Bonham 所演奏樂器的聲音」 時,大多數(shù)常規(guī)模型會因為缺乏對應文本與音頻的直接配對而生成失敗。但 Audio-Omni 能夠自行推理出該樂器是「架子鼓」,并直接合成出極具辨識度的硬核鼓點!

      Prompt:The sound of the instrument that John Bonham played in Led Zeppelin.



      • 上下文生成(In-Context Generation)

      給定一段簡單的鋼琴錄音,并輸入指令「生成一段不斷累積緊張感的電影配樂」,模型能精準提取原音頻的音色,并創(chuàng)作出全新的旋律。

      • 零樣本跨語言控制(Cross-Lingual Control)

      盡管模型訓練時主要使用英文指令,但由于 MLLM 的多語言底子,你可以直接用中文、法語、德語、日語輸入指令,Audio-Omni 依然能生成毫不遜色的高保真音頻。



      4. 自然解鎖的零樣本語音生成

      通過訓練時的掩碼(Masking)策略,Audio-Omni 可以在不進行特定任務微調(diào)的情況下,直接解鎖零樣本音色轉換以及語音編輯能力



      架構揭秘:High/Low Level 混合條件控制策略

      讓一個模型同時勝任「理解、生成、編輯」和「音、樂、語」所有領域,最大的挑戰(zhàn)在于如何處理復雜且存在差異的控制信號。單純的交叉注意力(Cross-Attention)無法做到高精度對齊,而全部拼接(Concatenation)又會破壞語言模型的語義空間。

      為此,研究團隊提出了一種優(yōu)雅的解耦架構與雙流混合條件策略(Hybrid Conditioning Strategy)



      1. 理解核心:采用凍結的預訓練多模態(tài)大模型(Qwen2.5-Omni-3B),保留其所有的世界知識和推理能力。

      2. 生成核心:一個具有 3B 參數(shù)的可訓練擴散生成器(DiT),結合 Rectified Flow 目標函數(shù)負責高保真音頻合成。

      3. 混合條件注入

      • 高層語義流(High-Level Semantic stream):包含 MLLM 提取的多模態(tài)特征和轉錄文本。這些特征被當作全局指令向導,通過交叉注意力(Cross-attention)注入 DiT,賦予模型極大的語義靈活度。
      • 底層信號流(Low-Level Signal stream):包含 Mel 頻譜特征(用于音色 / 編輯參考)和視頻同步特征(用于音畫對齊)。這些特征與輸入的噪聲隱變量進行通道級拼接(Channel-wise Concatenation),從而為模型注入細粒度的時序約束,實現(xiàn)對生成內(nèi)容的高精度對齊與結構把控。

      這一「宏觀靠注意力,微觀靠拼接」的設計,徹底打通了音頻全能生成的壁壘。另外,為了激發(fā)上述的零樣本語音能力,團隊在訓練階段對語音提示詞的 Mel 頻譜進行隨機掩碼,逼迫模型學會從上下文中推理音色和內(nèi)容,從而自然習得了音色轉換和語音編輯能力。

      數(shù)據(jù)破局:

      構建百萬級指令音頻編輯數(shù)據(jù)集 AudioEdit

      在視覺領域,大規(guī)模數(shù)據(jù)集徹底引爆了圖像編輯;而在音頻領域,長期缺乏這樣的指令成對數(shù)據(jù)。目前基于合成的管線往往存在明顯的「合成感」,難以應對真實世界的復雜聲學環(huán)境。

      研究團隊為此構建了包含超 100 萬高質(zhì)量樣本的指令音頻編輯數(shù)據(jù)集 ——AudioEdit



      數(shù)據(jù)處理流水線圖

      為了兼顧數(shù)據(jù)的真實聲學保真度與超大規(guī)模多樣性,團隊設計了雙管齊下的混合流水線:

      • 真實數(shù)據(jù)挖掘分支(Real Data Branch):從 VGGSound 等真實世界視頻入手,利用大模型(Gemini 2.5 Pro)識別核心發(fā)聲物,并調(diào)用最新的 SAM-Audio 進行精準音源分離(Source Separation)。通過嚴格的多階段 VAD 和 CLAP 語義對齊過濾,提取出極其純凈的「原始 - 編輯」音頻對。
      • 程序化合成數(shù)據(jù)分支(Synthesis Data Branch):利用 Scaper 工具包,將不同的前景音和背景音進行音高、時長、信噪比的隨機混合,批量制造大規(guī)模的精準標注數(shù)據(jù)。

      在 AudioEdit 的加持下,Audio-Omni 擁有了能夠應對多項音頻編輯任務的能力。

      Insight:

      最后一層特征未必更適合跨模態(tài)合成

      在探索 MLLM 與 DiT 的連接方式時,研究團隊進行了一系列消融實驗,并得出了一個極具啟發(fā)性的結論:

      對于音頻生成任務,直接使用 MLLM 最后一層(Last Layer, -1)或復雜的 Query 機制效果并不理想,反而使用倒數(shù)第二層(Penultimate Layer, -2)的特征,能取得顯著更優(yōu)的表現(xiàn)。



      團隊深入分析認為:MLLM 的最后一層特征為了迎合下一詞預測(Next-token prediction)的訓練目標,往往變得過于「文本特化」,在這個過程中,大量豐富的、未壓縮的聲學細節(jié)和視覺語義被丟棄了。

      而倒數(shù)第二層則像一個原生態(tài)的信息蓄水池,它既完成了高度抽象的語義理解,又保留了足以讓 DiT 合成高保真音頻的密集底層細節(jié)。這也揭示了:在將 LLM 接入高保真生成模型時,避免底層信息的丟失比設計復雜的注意力查詢機制更為關鍵。

      項目已開源

      Audio-Omni 已在 GitHub 和 Hugging Face 上開源,包括代碼和模型權重。開源以來,Audio-Omni 在Hugging Face 全模態(tài)(Any-to-Any)模型熱榜(https://huggingface.co/models?pipeline_tag=any-to-any)上持續(xù)位列Top 5,受到了社區(qū)的廣泛關注與好評。



      結語

      Audio-Omni 的問世,證明了通過單一框架解決跨域音頻任務的可行性,打破了理解、生成和編輯之間的技術壁壘。其展現(xiàn)出的強大推理與零樣本控制能力,為后續(xù)工作提供了未來通用生成式音頻人工智能(Universal Generative Audio Intelligence)的演進方向。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      1983年,李大釗的兒子去祭拜父親,欣喜發(fā)現(xiàn)了埋在地下的一塊碑

      1983年,李大釗的兒子去祭拜父親,欣喜發(fā)現(xiàn)了埋在地下的一塊碑

      云霄紀史觀
      2026-04-22 03:32:49
      回報暴漲超十倍!張雪機車一戰(zhàn)封神,資本50億爭搶投資,執(zhí)意加碼

      回報暴漲超十倍!張雪機車一戰(zhàn)封神,資本50億爭搶投資,執(zhí)意加碼

      阿傖說事
      2026-04-24 18:47:53
      CBA收官夜4大慘案,廣東創(chuàng)恥辱紀錄,季后賽格局徹底定盤

      CBA收官夜4大慘案,廣東創(chuàng)恥辱紀錄,季后賽格局徹底定盤

      劉森森
      2026-04-25 10:51:14
      深圳一泳池火了,太原生態(tài)了!

      深圳一泳池火了,太原生態(tài)了!

      小南看城市
      2026-04-24 23:15:22
      女生長的太漂亮是什么體驗?網(wǎng)友:母以子貴,父以女榮

      女生長的太漂亮是什么體驗?網(wǎng)友:母以子貴,父以女榮

      另子維愛讀史
      2026-03-10 22:56:08
      吳邦國致法大60周年信曝光,書法天賦引熱議!

      吳邦國致法大60周年信曝光,書法天賦引熱議!

      書畫相約
      2026-04-25 07:56:42
      金莎近照曝光翻車!妝容失敗像大媽,穿寬松裙子被猜懷孕

      金莎近照曝光翻車!妝容失敗像大媽,穿寬松裙子被猜懷孕

      小徐講八卦
      2026-04-24 06:06:44
      123國同時發(fā)出逮捕令,中國為何選擇此刻在安理會“算總賬”?

      123國同時發(fā)出逮捕令,中國為何選擇此刻在安理會“算總賬”?

      王姐懶人家常菜
      2026-04-24 18:46:27
      兩兄弟公司破產(chǎn)的真相!小雞嘴女星復出的代價!

      兩兄弟公司破產(chǎn)的真相!小雞嘴女星復出的代價!

      八卦瘋叔
      2026-04-25 11:34:30
      “門口快遞三天沒動,不對勁!”北京物業(yè)保潔員一閃念,救了一命

      “門口快遞三天沒動,不對勁!”北京物業(yè)保潔員一閃念,救了一命

      環(huán)球網(wǎng)資訊
      2026-04-25 09:01:24
      DeepSeek聯(lián)手華為掀桌子后,黃仁勛給英偉達下達了死命令

      DeepSeek聯(lián)手華為掀桌子后,黃仁勛給英偉達下達了死命令

      南宗歷史
      2026-04-25 10:12:48
      23歲女孩深夜騎摩托回家,路上遭幾名醉酒男子騷擾,“一女子摁住她不讓走,有男人趁機摟腰”,女孩被嚇得驚聲尖叫,哭泣闖紅燈逃走

      23歲女孩深夜騎摩托回家,路上遭幾名醉酒男子騷擾,“一女子摁住她不讓走,有男人趁機摟腰”,女孩被嚇得驚聲尖叫,哭泣闖紅燈逃走

      觀威海
      2026-04-24 10:00:04
      震驚!徐向前揭露西安事變背后的驚天秘密!

      震驚!徐向前揭露西安事變背后的驚天秘密!

      鑒史錄
      2026-04-23 00:15:03
      052D過橫當水道后,遼寧艦抵臺海,日本向中國抗議,不滿東海行動

      052D過橫當水道后,遼寧艦抵臺海,日本向中國抗議,不滿東海行動

      老赳說歷史
      2026-04-23 16:08:53
      離橫掃只差1場,湖人怎么贏的,4件事很正確,一人要拿大合同了

      離橫掃只差1場,湖人怎么贏的,4件事很正確,一人要拿大合同了

      體壇大辣椒
      2026-04-25 11:16:37
      10億都救不了一命!京東副總裁蔡磊,生命進入倒計時

      10億都救不了一命!京東副總裁蔡磊,生命進入倒計時

      聽風喃
      2026-04-06 11:16:04
      身材頂級,達達里奧的美劇太生猛了

      身材頂級,達達里奧的美劇太生猛了

      來看美劇
      2026-04-23 21:20:15
      大陸24日起實施管制,歐企交易凍結,臺當局加速轉移資產(chǎn)

      大陸24日起實施管制,歐企交易凍結,臺當局加速轉移資產(chǎn)

      今夜繁星墜落
      2026-04-25 11:41:12
      胡奇才執(zhí)意不去第四縱隊上任,陳云:“那你知道司令員是誰嗎?”

      胡奇才執(zhí)意不去第四縱隊上任,陳云:“那你知道司令員是誰嗎?”

      鑒史錄
      2026-04-25 08:49:04
      建國后外逃級別最高的貪官!至今未落網(wǎng),23年來逃跑方式仍是謎

      建國后外逃級別最高的貪官!至今未落網(wǎng),23年來逃跑方式仍是謎

      鐵血江湖人
      2026-04-23 22:21:26
      2026-04-25 12:32:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業(yè)的人工智能媒體
      12852文章數(shù) 142636關注度
      往期回顧 全部

      科技要聞

      Anthropic剛拿亞馬遜250億美元,又拿谷歌400億

      頭條要聞

      房屋燒毀3年居民安置落空:原地塊已被規(guī)劃為商業(yè)用地

      頭條要聞

      房屋燒毀3年居民安置落空:原地塊已被規(guī)劃為商業(yè)用地

      體育要聞

      火箭0-3觸發(fā)百分百出局定律:本季加時賽9戰(zhàn)8敗

      娛樂要聞

      鄧超最大的幸運,就是遇見孫儷

      財經(jīng)要聞

      別高估英偉達,別低估DeepSeek

      汽車要聞

      2026款樂道L90亮相北京車展 樂道L80正式官宣

      態(tài)度原創(chuàng)

      教育
      手機
      時尚
      本地
      數(shù)碼

      教育要聞

      農(nóng)村學生迎來“好消息”!教育部新規(guī):取消戶籍限制,9月起執(zhí)行

      手機要聞

      華為Pura X Max和三星Galaxy Z Fold8 Wide折疊手機尺寸對比

      朱珠到底為什么接這部劇?

      本地新聞

      云游中國|逛世界風箏都 留學生探秘中國傳統(tǒng)文化

      數(shù)碼要聞

      華為WATCH Buds 2開售 手表耳機二合一 3488元起

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 婷婷99狠狠躁天天躁中| 欧美丝袜另类| 日日爽| 欧美中文一区| 国产高清色高清在线观看| 亚洲人妻系列无码专区| 欧美日产国产精品日产| 中文字幕乱码一区av久久| 国内精品视频一区二区三区| 国产真实的和子乱拍在线观看| 亚洲成人小说| 天堂中文字幕观看| 亚洲欧洲日韩国产综合在线二区| 亚洲欧美成人久久综合中文网| 日韩欧美国产丝袜视频| 亚洲国色天香卡2卡3卡4| 泸州市| 亚洲18禁私人影院| 色综合久| 无码无卡| 91牛| 亚洲一区国色天香| 国产日韩综合av在线| 亚洲区1区3区4区中文字幕码| 国产va免费精品高清在线观看 | 日韩AV一区二区三区| 亚洲国产资源| 久久无码人妻丰满熟妇区毛片| 亚洲伊人精品久视频国产| 亚洲熟女VS国产对比| 亚洲区视频在线观看| 深夜国产成人福利在线观看| 久久99精品久久久久久| 人人妻人人插视频| 中文字幕在线影视| 亚洲人妻一区二区精品| 69堂在线观看线无码视频一| 试看做受1分钟小视频| 精品人妻无码专区| 人妻丝袜| 国内外精品成人免费视频|