<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      清華新作ControlAudio:聲音何時響、說啥話?都能按劇本可控生成

      0
      分享至



      本文第一作者是江宇軒,清華大學博士生,研究方向為生成模型、文生音頻和多模態學習,指導老師為朱軍教授與竇維蓓教授。

      文本到音頻(Text-to-Audio, TTA)生成技術近年來取得了顯著進展,從早期的簡單聲效合成逐步發展到基于擴散模型的高保真音頻生成,能夠較好地還原復雜的自然語言描述,為影視配音、游戲音效及多媒體內容創作提供了重要的技術支撐。

      然而,現有 TTA 技術在精細化控制方面仍面臨挑戰:一方面,模型難以實現對聲音事件發生時間的精確控制;另一方面,生成的語音內容往往不夠清晰,缺乏可理解性。

      針對這一問題,清華大學研究團隊提出了 ControlAudio,一種基于漸進式擴散建模的文生音頻方法。該方法通過系統性的數據構建流程與漸進式建模策略,在統一框架下實現了對時間結構與語音內容的聯合建模。

      目前,該工作已被 ACL 2026 Main Conference 接收,并擬推薦為口頭報告。



      • 論文地址:https://arxiv.org/abs/2510.08878
      • 效果試聽:https://control-audio.github.io/Control-Audio

      研究背景

      文生音頻系統旨在合成與自然語言描述一致的音頻內容(如「鳥兒正在鳴叫」),在高保真生成方面已取得顯著進展,但在精細化控制維度仍存在明顯不足:

      • 精確的時間控制:如「鳥兒在 2 至 5 秒間鳴叫」;
      • 可理解語音生成:如「鳥兒在鳴叫,同時一名男子在說:『今天天氣真好』」。

      然而,由于帶有精確時間標注和語音轉錄的信息難以大規模獲取,可控 TTA 系統在規?;柧毰c生成能力上仍受到限制。同時,現有方法通常僅關注單一控制維度,尚未在統一框架下同時實現時間控制與可理解語音生成。

      核心方法

      本文提出 ControlAudio,一種漸進式擴散建模方法,通過逐步建模文本、時間與音素等不同粒度的條件信息,實現可控的 TTA 生成。整體方法包含三個核心部分:

      1. 數據構造與表征:通過人工標注與仿真生成相結合的方式構建多層級數據,并設計結構化提示詞(Structured Prompt),使預訓練文本編碼器能夠統一編碼文本、時間與音素信息;
      2. 模型訓練:采用漸進式訓練策略。首先在大規模文本 - 音頻數據上預訓練擴散模型,隨后逐步引入時間與語音內容信息進行建模,使模型逐步具備更細粒度的控制能力;
      3. 引導采樣:針對擴散模型「由粗到細」的生成特性,設計漸進式引導采樣策略,在推理過程中先生成整體時間結構,再逐步細化語音內容。



      漸進式擴散建模

      ControlAudio 將多條件建模拆解為一個由粗到細的漸進過程。

      在訓練階段,模型分三步逐步引入控制信號:首先在大規模文本 - 音頻數據上預訓練,學習基礎的文本到音頻生成能力;隨后在包含時間標注的數據上進行微調,使模型能夠控制聲音事件的時間結構;最后進一步引入音素信息進行聯合訓練,實現對語音內容的建模。

      在這一過程中,通過使用 Text、Text + Timing 以及 Text + Timing + Phoneme 等不同條件組合,逐步提升模型對細粒度控制信號的建模能力。



      在推理階段,方法提出了漸進式引導采樣策略:在擴散早期,僅使用文本與時間條件進行引導,先生成整體的時間結構;在后期階段,再引入音素信息并提高引導強度,用于細化語音內容。該設計與擴散模型由粗到細的生成過程一致,從而在時間對齊與語音清晰度上取得更好的效果。

      數據集構建

      針對可控 TTA 所需的時間標注與語音內容數據稀缺問題,ControlAudio 構建了一個多來源的數據體系,將真實標注與仿真數據相結合。

      首先,在真實數據方面,基于具有時間標注的 AudioSet-SL,篩選包含語音的片段,并通過分離與轉寫流程,獲得帶有時間戳與語音內容的信息,將原始的 ?text, audio? 擴展為 ?text, timing, phoneme, audio? 的細粒度數據。在此基礎上,進一步構建大規模仿真數據。

      方法從真實數據中統計語音活動分布,并據此合成單人或多人語音片段,按照合理的時間結構進行排列,并與背景音頻混合生成復雜音頻場景。該流程額外擴展了超過 17 萬條訓練樣本,提升了數據規模與多樣性。

      此外,在結構化提示詞的構建過程中,ControlAudio 引入基于鏈式推理(Chain-of-Thought, CoT)的自動生成流程,將自然語言描述解析為「事件 — 時間 — 語音內容」的結構化表示,為模型提供更加清晰的條件輸入。



      實驗結果

      為了驗證 ControlAudio 的有效性,團隊首先在時間可控音頻生成的 AudioCondition 測試集上進行評估。相比現有方法,在事件時間對齊指標上取得顯著提升,同時在 FAD、CLAP 等音頻質量指標上保持競爭力甚至更優表現。



      在包含語音生成的評測任務中,ControlAudio 同樣展現出更強的語音可理解性與整體音頻質量,驗證了其在統一框架下同時建模時間結構與語音內容的能力。



      在文生音頻任務中,ControlAudio 同樣取得了與當前主流方法相當甚至更優的生成質量,在引入時間與語音控制能力的同時,并未降低基礎的文本到音頻生成性能。



      總結與展望

      ControlAudio 從數據構建、模型訓練到采樣策略三個層面系統性地解決了文生音頻中的精細化控制問題,在統一框架下實現了文本、時間與語音內容的協同建模,并在多項任務上取得了優于現有方法的表現。

      相比以往僅關注單一控制維度的工作,ControlAudio 展現了更強的通用性與擴展潛力。

      隨著音頻與多模態生成模型的發展,越來越多系統開始探索 Speech、Audio、Music 的統一建模范式。研究團隊希望ControlAudio 所提出的「多粒度條件統一建模 + 漸進式生成」思路,能夠為通用音頻生成提供一種可擴展的技術路徑,推動模型從單一任務走向更復雜、多維度可控的內容生成。

      樣本展示

      Text Prompt:Music plays, followed by mechanisms, typing, beeps, and an alarm.

      Timing Prompt:Music : 0.00s - 10.00s; Beeps : 1.00s - 1.20s 3.00s - 3.20s 4.90s - 5.10s 6.90s - 7.10s; Typing : 1.20s - 7.80s; Alarm : 7.85s - 8.50s.

      Structured prompt:Music plays, followed by mechanisms, typing, beeps, and an alarm. @{Music. & <0.00,10.00>}@{Beeps. & <1.00,1.20><3.00,3.20><4.90,5.10><6.90,7.10>}@{Typing. & <1.20,7.80>}@{Alarm. & <7.85,8.50>}



      Text Prompt:A man speaking over an intercom as a crowd of people talk followed by a dog barking.

      Content Prompt:and contain them until that person can be taken into custody effectively and safely on the part of the other team of police sheriffs.

      Structured prompt:A man speaking over an intercom as a crowd of people talk followed by a dog barking. @{Crowd talking ambience & <0.00,10.00>}@{Male speech, man speaking & <0.46,5.14>"And contain them until that person can be taken into custody effectively and safely."<5.64,8.22>"On the part of the other team of police sheriffs."}@{Dog barking & <9.26,9.46>}



      Text Prompt:Females voice narrating a scene as music is playing and rain drops are falling.

      Content Prompt:Daniel came out of the airport. He raised one arm to hail a taxi.

      Structured prompt:Females voice narrating a scene as music is playing and rain drops are falling. @{Music & <0.00,10.00>}@{Female speech, woman narrating & <2.62,4.65>"Daniel came out of the airport."<5.37,8.26>"He raised one arm to hail a taxi."}@{Rain falling & <8.26,10.00>}



      Text Prompt:Splashing water followed by a girl speaking then scraping and spitting.

      Content Prompt:This is the last time you did that first thing. Same thing.

      Structured prompt:Splashing water followed by a girl speaking then scraping and spitting. @{Splashing water & <0.00,1.38>}@{Female speech, girl speaking & <1.57,4.52>"This is the last time you did that first thing. Same thing."}@{Scraping & <4.66,6.81><7.10,8.00>}@{Spitting & <8.10,8.48>}



      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      奪冠概率聯盟第三,卻爆冷翻車!裁員傷到動脈,東部懸念越來越小

      奪冠概率聯盟第三,卻爆冷翻車!裁員傷到動脈,東部懸念越來越小

      老梁體育漫談
      2026-04-23 00:03:48
      郭德綱悉尼相聲專場起爭議,弘揚傳統文化還是丟人丟到國外?

      郭德綱悉尼相聲專場起爭議,弘揚傳統文化還是丟人丟到國外?

      我就是個碼字的
      2026-04-22 12:55:03
      曾經那些真實的特供,超出普通人的想象…

      曾經那些真實的特供,超出普通人的想象…

      深度報
      2026-04-21 22:56:47
      河南鄭州的房價,成了一個天大的笑話,現在賣房子可笑到什么程度

      河南鄭州的房價,成了一個天大的笑話,現在賣房子可笑到什么程度

      林子說事
      2026-04-22 15:12:29
      國際刑事法院裁定:對菲律賓前總統杜特爾特相關案件擁有管轄權

      國際刑事法院裁定:對菲律賓前總統杜特爾特相關案件擁有管轄權

      新京報
      2026-04-22 17:43:16
      百萬粉絲女博主在線相親:誰替我還12萬我就嫁給誰!

      百萬粉絲女博主在線相親:誰替我還12萬我就嫁給誰!

      映射生活的身影
      2026-04-22 12:12:25
      “濕氣”最怕這種豆,中老年人每周吃2次,利尿消水腫,健脾祛濕

      “濕氣”最怕這種豆,中老年人每周吃2次,利尿消水腫,健脾祛濕

      江江食研社
      2026-04-21 22:30:03
      為鼓勵大學畢業生回爐讀技校,北京推出全日制大學生技師班

      為鼓勵大學畢業生回爐讀技校,北京推出全日制大學生技師班

      映射生活的身影
      2026-04-21 12:57:40
      杜蕾斯供應商宣布漲價

      杜蕾斯供應商宣布漲價

      第一財經資訊
      2026-04-22 14:42:25
      重慶警方發布警情通報

      重慶警方發布警情通報

      極目新聞
      2026-04-23 01:13:12
      豆芽立大功!浙科大實證:豆芽可通過菌群代謝,減少84%腹部脂肪!

      豆芽立大功!浙科大實證:豆芽可通過菌群代謝,減少84%腹部脂肪!

      科學認識論
      2026-04-20 14:45:02
      好不容易送走了葉珂,又來了趙薇!悲催的黃曉明,終究繞不過女人坑

      好不容易送走了葉珂,又來了趙薇!悲催的黃曉明,終究繞不過女人坑

      八卦王者
      2026-04-22 09:51:07
      伊朗“宮斗”分出勝負?12小時就改口要談判,改革派重新占據上風

      伊朗“宮斗”分出勝負?12小時就改口要談判,改革派重新占據上風

      民間胡扯老哥
      2026-04-22 05:07:48
      蔣介石恐做夢也沒想到,被拒之門外的私生子,最終卻代表了蔣家

      蔣介石恐做夢也沒想到,被拒之門外的私生子,最終卻代表了蔣家

      曉張說
      2026-04-21 07:04:10
      哪吒汽車造車3年虧損183億,多次被限消,創始人方運舟、張勇已被列為“老賴”

      哪吒汽車造車3年虧損183億,多次被限消,創始人方運舟、張勇已被列為“老賴”

      新浪財經
      2026-04-22 11:57:18
      俄羅斯刪除20年法院數據:審判記錄一夜清空,戰爭信息正在被封住

      俄羅斯刪除20年法院數據:審判記錄一夜清空,戰爭信息正在被封住

      桂系007
      2026-04-21 23:55:34
      賴清德遭遇恥辱性一幕,民進黨暴怒!日本嚷著:我們要跟中國談判

      賴清德遭遇恥辱性一幕,民進黨暴怒!日本嚷著:我們要跟中國談判

      自己選擇的路
      2026-04-23 00:18:13
      美國科學研究:用直覺來做決定,準確率達90%

      美國科學研究:用直覺來做決定,準確率達90%

      尚曦讀史
      2026-04-21 10:15:02
      突發!協議即將達成,28國聯手對付中國,名單公布,沒一個是善茬

      突發!協議即將達成,28國聯手對付中國,名單公布,沒一個是善茬

      游古史
      2026-04-22 13:02:50
      深夜23股暴雷,珀萊雅下跌6%,福耀玻璃下滑16%,疫苗龍下滑426%

      深夜23股暴雷,珀萊雅下跌6%,福耀玻璃下滑16%,疫苗龍下滑426%

      風風順
      2026-04-22 07:17:34
      2026-04-23 04:28:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      12831文章數 142633關注度
      往期回顧 全部

      科技要聞

      對話梅濤:沒有視頻底座,具身智能走不遠

      頭條要聞

      伊朗:特朗普“又說謊了”

      頭條要聞

      伊朗:特朗普“又說謊了”

      體育要聞

      網易傳媒再度簽約法國隊和阿根廷隊

      娛樂要聞

      蜜雪冰城泰國代言人 被扒出辱華黑歷史

      財經要聞

      醫院專家號"秒空"!警方牽出黑色產業鏈

      汽車要聞

      純電續航301km+激光雷達 宋Pro DM-i飛馳版9.99萬起

      態度原創

      旅游
      家居
      房產
      手機
      健康

      旅游要聞

      “運上行”周五首航

      家居要聞

      極簡繪夢 克制和諧

      房產要聞

      官宣!今年9月起,廣州中小學“重點班”將成歷史!

      手機要聞

      消息稱部分廠商停更Ultra級別旗艦手機,Pro Max機型成重頭戲

      干細胞抗衰4大誤區,90%的人都中招

      無障礙瀏覽 進入關懷版