<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      分割一切、3D重建一切還不夠,Meta開源SAM Audio分割一切聲音

      0
      分享至



      編輯|陳萍、Panda

      繼 SAM(Segment Anything Model)、SAM 3D 后,Meta 又有了新動作。

      深夜,Meta 放出音頻分割模型SAM Audio,其通過多模態提示(無論是文本、視覺,還是標注時間片段),讓人們能夠輕松地從復雜的音頻混合中分離出任意聲音,從而徹底改變音頻處理方式。

      SAM Audio 的核心是Perception Encoder Audiovisual(PE-AV),這是推動其實現業界領先性能的技術引擎。

      PE-AV 基于 Meta 今年早些時候開源發布的 Perception Encoder 模型,能夠支持更先進的計算機視覺系統,幫助人們完成日常任務,其中就包括聲音檢測。

      你可以把 PE-AV 想象成幫助 SAM Audio 運作的耳朵,而 SAM Audio 則是完成音頻分割任務的大腦。這兩者的結合帶來了許多令人興奮的應用場景。

      設想一下:一段樂隊演出的錄像,只需在畫面中點擊一下吉他,就能單獨分離出吉他的聲音。SAM Audio 還可以通過文本提示進行音頻分離,比如從戶外拍攝的視頻中濾除嘈雜的交通噪聲。此外,Meta 業內首創的時間跨度提示(span prompts),可以幫助人們一次性解決整段音頻中的問題,例如在整期播客錄音中去除持續出現的狗叫聲等噪音。



      Meta 表示,他們正在利用這些技術進展來構建下一代創意媒體工具。相關團隊看到了大量潛在的應用場景,包括音頻清理、背景噪聲移除,以及其他能夠幫助用戶提升創造力的工具。此次,Meta 向社區開放了 SAM Audio 和 PE-AV,并同時發布了兩篇研究論文,分別深入介紹了這兩個模型的技術細節。此外,Meta 還發布了:

      1. SAM Audio-Bench:首個真實環境(in-the-wild)的音頻分離基準;
      2. SAM Audio Judge:首個用于音頻分離的自動評測模型。

      Meta 還將上述所有成果整合進 Segment Anything Playground,這是一個全新的平臺,任何人都可以在其中體驗其最新模型。



      地址:https://aidemos.meta.com/segment-anything

      從即日起,用戶可以從平臺提供的音頻和視頻素材庫中進行選擇,或上傳自己的內容,以探索 SAM Audio 的能力。Meta 表示,他們期待繼續圍繞 SAM 展開討論 —— 而這一次,也將首次聽到用戶使用這些突破性新模型所創作出的內容。

      用于音頻分割的統一多模態提示模型

      在此之前,音頻分割和編輯一直是一個較為割裂的領域,市面上存在著多種只針對單一用途的工具。作為一個統一模型,SAM Audio 首次支持多種交互方式,這些方式與人們自然理解和思考聲音的方式高度契合,并在多項任務上實現了業界領先的性能,包括在文本提示和視覺提示條件下的樂器、人聲以及通用聲音分離。

      SAM Audio 能夠在多樣且真實的應用場景中穩定運行,支持使用文本、視覺以及時間維度的線索進行音頻分割。這種方法為用戶提供了對音頻分離過程更精確、更直觀的控制能力。

      該模型提供了三種音頻分割方式,這些方式既可以單獨使用,也可以靈活組合,以實現所需的分割效果:

      1. 文本提示:輸入「狗叫聲」或「歌唱聲」等描述,即可提取對應的特定聲音。
      2. 視覺提示:在視頻中點擊正在說話的人或發聲的物體,即可分離其對應的音頻。
      3. 時間跨度提示(Span Prompting):業內首創的方法,允許用戶標記目標聲音出現的時間片段,從而實現更精確的音頻分割。



      1. SAM Audio 論文地址:https://ai.meta.com/research/publications/sam-audio-segment-anything-in-audio/
      2. 代碼地址:https://github.com/facebookresearch/sam-audio

      模型架構

      從核心技術上看,SAM Audio 采用了一種基于流匹配擴散 Transformer 的生成式建模框架。該架構接收一段混合音頻以及一個或多個提示信息,將它們編碼為共享表示,并生成目標音軌與剩余音軌。



      在生成式建模框架之外,研究團隊還為 SAM Audio 構建了一套完整的數據引擎,用于解決大規模、高質量音頻分離數據難以獲取的問題。該數據引擎融合了先進的音頻混合技術、自動化的多模態提示生成方法,以及穩健的偽標簽(pseudo-labeling)pipeline,從而生成貼近真實應用場景的訓練數據,用于提升模型在現實世界中的表現。



      該模型基于這一多樣化的數據集進行訓練,數據集涵蓋了真實與合成的混合音頻,內容橫跨語音、音樂以及各類通用聲音事件。先進的音頻數據合成策略進一步提升了模型的魯棒性,確保其在各種復雜環境中都能保持穩定、可靠的表現。

      感知編碼器(視聽版)

      第二個模型 PE-AV 是支撐 SAM Audio 效果表現的核心引擎。它為多個關鍵組件提供能力支持,包括主字幕生成模型以及 SAM Audio Judge(用于音頻分離的自動評測模型)。



      1. PE-AV 論文地址:https://ai.meta.com/research/publications/pushing-the-frontier-of-audiovisual-perception-with-large-scale-multimodal-correspondence-learning/
      2. 代碼地址:https://github.com/facebookresearch/perception_models

      PE-AV 構建于 Meta Perception Encoder 之上,這是 Meta 于今年 4 月發布的一個開源模型。在此基礎上,PE-AV 將先進的計算機視覺能力擴展到了音頻領域。正如團隊此前在 SAM 3 中將該模型適配用于目標檢測一樣,這一次又進一步擴展了其框架,使其能夠對聲音進行編碼,從而支持 SAM Audio 對復雜音頻混合的分離,并適應那些視覺上下文同樣重要的真實世界應用場景。



      通過提取逐幀級別的視頻特征并將其與音頻表示進行對齊,系統能夠融合視聽信息并為其加上精確的時間標注。這種設計使 SAM Audio 能夠準確分離那些在視覺上有明確對應的聲源,例如畫面中的說話者或正在演奏的樂器,同時也可以結合場景上下文,對畫面外發生的聲音事件進行推斷。

      PE-AV 通過在精確的時間點上對齊視頻幀與音頻,提供了穩健且語義信息豐富的特征表示。這種時間對齊機制對于將所見與所聞進行匹配至關重要,是實現高精度多模態音頻分離的基礎。如果缺少這一能力,模型將無法獲得足夠細粒度的視覺理解,從而難以實現靈活且符合人類感知的音頻分割效果。



      從技術層面來看,PE-AV 融合了多種開源組件和前沿研究成果。除 Meta 的 Perception Encoder 之外,該模型還使用 PyTorchVideo 進行高效的視頻處理,利用 FAISS 實現大規模語義搜索,并引入了對比學習框架來提升多模態表示能力。

      PE-AV 基于超過 1 億條視頻進行訓練,采用大規模多模態對比學習方法,訓練數據來自開放數據集以及合成字幕生成流水線,從而確保了數據覆蓋的廣泛性和模型的強泛化能力。這些要素共同構建了一個靈活且高性能的基礎架構,能夠支持文本、視覺和時間維度的提示方式,適用于多種音頻分離與理解任務。

      SAM Audio Judge

      Meta 還發布了SAM Audio Judge,這是一套全新的評測框架與模型,旨在以更加貼近人類感知方式來評估音頻分割質量。與傳統依賴參考音軌進行對比的評測指標不同,這些指標往往難以捕捉人類真實聽感中的細微差別,SAM Audio Judge 提供了一種無需參考音頻的客觀評測方式,從感知層面對分割后的音頻進行評價。

      用戶可以借助 SAM Audio Judge,在音樂、語音以及音效等不同場景下,對音頻分離模型進行評測和比較,從而深入了解輸出質量以及音頻分離任務本身的內在難度。SAM Audio Judge 的構建始于對 9 個感知維度的定義,其中包括召回率(recall)、精確度(precision)、忠實度(faithfulness)和整體質量(overall quality)等。隨后,研究團隊依據詳細的標注規范,采用五分制量表收集了大量人工評分數據。

      在模型設計上,SAM Audio Judge 結合了先進的音頻與文本編碼器、Transformer 主干網絡,以及一種獨特的預訓練策略,用于提升模型判斷輸出是否符合文本提示的能力。感知對齊的評測標準、嚴謹的數據采集流程與創新的模型架構相結合,為推動音頻分離領域的發展提供了有力支撐。

      SAM Audio-Bench

      此外,為了在不同任務之間對模型性能進行一致且有意義的評估,該團隊還構建了一個新基準:SAM Audio-Bench

      這是一個全面的音頻分離基準,覆蓋了所有主要音頻領域。包括語音、音樂和通用音效。同時也覆蓋了文本、視覺以及時間段提示等多種提示類型。

      該團隊表示:「該基準能夠對分離模型進行公平評測。從而確保該領域的進展是可衡量的。并且與日常使用場景密切相關。」

      該團隊表示,這種方法可確保 SAM Audio-Bench 更加真實且更具靈活性。它支持從語音和音樂分離,到樂器以及通用聲音提取等多種任務。所有能力都統一在一個框架之中。



      SAM Audio-Bench 還率先引入了無參考評估(reference-free evaluation)方式。

      這使得在不需要孤立參考音軌的情況下,也可以評估音頻分離效果。它結合了人工聽感測試與 SAM Audio Judge 模型。即使原始音軌不可用,也能提供可靠的評估結果。

      通過融合真實世界音頻、多模態提示,以及對不同聲音領域的全面覆蓋,可以說 SAM Audio-Bench 為音頻分離系統的測試樹立了新標準。這一標準能更好地反映模型在實驗室之外的實際使用方式。

      結果

      SAM Audio 在音頻分離技術上取得了顯著進展。它在多種基準和任務上超越了此前的最先進模型。

      該模型不僅在通用音頻分離方面顯著領先于以往工作,還在所有音頻類別上達到了最佳領域專用模型的性能水平。這些類別包括語音、音樂以及通用聲音。

      其多模態提示機制支持文本、視覺和點擊式輸入。這使得模型能夠進行靈活、開放域的音頻分割。因此既適用于真實環境中的應用,也適用于專業音頻場景。



      性能評估表明,SAM Audio 在各類模態特定任務中均達到了 SOTA 水平。

      混合模態提示方式表現尤為突出。例如將文本與時間段提示結合使用。其效果優于單一模態的方法。

      值得注意的是,該模型的運行速度快于實時處理。實時因子約為 0.7 (RTF ≈ 0.7)。在 5 億到 30 億參數規模下,都能高效地進行大規模音頻處理。

      盡管 SAM Audio 在質量和效率方面樹立了新標準,但它仍存在一些局限。

      1. 目前不支持以音頻本身作為提示。
      2. 在沒有任何提示的情況下進行完整音頻分離,也不在其能力范圍內。
      3. 在高度相似的音頻事件之間進行分離仍然具有挑戰性。例如從合唱中分離出單一歌手,或從交響樂中分離出某一種樂器。

      展望:音頻 AI 的未來

      該 Meta 團隊表示,SAM Audio 屬于 Segment Anything 模型家族,這次也是將音頻能力引入了該系列模型。「我們相信 SAM Audio 是目前綜合表現最強的音頻分離模型。這種統一的方法也為理解復雜聲學環境提供了新的可能性。并且能夠跨多種模態,對自然提示作出響應。」

      此外,Meta 還宣布與美國最大的助聽器制造商 Starkey 以及一家面向殘障創始人的領先創業加速器 2gether-International 建立了合作關系。這兩個合作伙伴都在探索,像 SAM Audio 這樣的模型可以如何進一步推動無障礙技術的發展。

      Meta 表示:「這種音頻工具的普及推廣,是邁向更易用、更具創造力、更加包容的 AI 的一步。具備音頻感知能力的 AI 未來才剛剛開始。我們期待并支持未來涌現出的創新與發現。」

      https://ai.meta.com/blog/sam-audio/

      https://x.com/AIatMeta/status/2000980784425931067

      文章視頻鏈接:

      https://mp.weixin.qq.com/s/-4fkFz0cV5iqGl_4sJ1c3g

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      日本“35歲熟女”曬自拍照,被大量不請自來的女網民挑戰了

      日本“35歲熟女”曬自拍照,被大量不請自來的女網民挑戰了

      叨叨話影
      2025-12-16 19:54:53
      媒體人:國安曾希望讓邵佳一接手,新主帥大概率還是歐洲外教

      媒體人:國安曾希望讓邵佳一接手,新主帥大概率還是歐洲外教

      懂球帝
      2025-12-17 20:40:07
      2016年中美南海對峙,270名軍工工程師拒絕撤離,并寫好遺書!

      2016年中美南海對峙,270名軍工工程師拒絕撤離,并寫好遺書!

      阿胡
      2025-12-16 17:02:47
      好友相繼緬懷拼湊出,何晴生命最后時光:拮據、變樣、舍不下兒子

      好友相繼緬懷拼湊出,何晴生命最后時光:拮據、變樣、舍不下兒子

      TVB的四小花
      2025-12-16 16:16:30
      3-4!斯諾克再爆冷門:1號種子3-2領先被逆轉!止步32強無緣衛冕

      3-4!斯諾克再爆冷門:1號種子3-2領先被逆轉!止步32強無緣衛冕

      球場沒跑道
      2025-12-17 22:02:56
      頂級美人和普通美人的區別,看央視《大生意人》5位女演員就懂了

      頂級美人和普通美人的區別,看央視《大生意人》5位女演員就懂了

      陳述影視
      2025-12-09 21:51:09
      24歲美女被騙到緬北,經歷兩個月“雙開門”折磨,被救已不成人形

      24歲美女被騙到緬北,經歷兩個月“雙開門”折磨,被救已不成人形

      阿妹講故事
      2025-03-12 22:39:50
      CBA瘋狂一夜!三巨頭轟52+13北京大勝遼籃,山東險被四川爆冷

      CBA瘋狂一夜!三巨頭轟52+13北京大勝遼籃,山東險被四川爆冷

      多特體育說
      2025-12-17 22:26:50
      特朗普又有大動作,另起爐灶成立“C5”,中俄在列,歐洲盟友出局

      特朗普又有大動作,另起爐灶成立“C5”,中俄在列,歐洲盟友出局

      田園小歸
      2025-12-17 20:35:24
      許家印被捕多年了,在獄中的生活是怎么樣的,會不會被判死刑?

      許家印被捕多年了,在獄中的生活是怎么樣的,會不會被判死刑?

      歷史偉人錄
      2025-12-09 11:22:40
      中國已經提前準備好,開戰之后的第一件事,先廢掉美國的“星鏈”

      中國已經提前準備好,開戰之后的第一件事,先廢掉美國的“星鏈”

      科普100克克
      2025-12-17 01:07:54
      曝小米SU7新款將漲價2萬

      曝小米SU7新款將漲價2萬

      電動知家
      2025-12-17 13:52:21
      好利來大公子穿女裝惹爭議!自稱是妹妹點贊網友評論,承認變女人

      好利來大公子穿女裝惹爭議!自稱是妹妹點贊網友評論,承認變女人

      萌神木木
      2025-12-16 15:56:34
      毛主席對尼泊爾首相說:你想把珠峰全部劃歸貴國?還有更好的辦法

      毛主席對尼泊爾首相說:你想把珠峰全部劃歸貴國?還有更好的辦法

      鶴羽說個事
      2025-10-30 15:53:46
      外媒:004正組裝2座核動力裝置安全殼,“電力自由”30年不換燃料

      外媒:004正組裝2座核動力裝置安全殼,“電力自由”30年不換燃料

      墨蘭史書
      2025-12-17 20:25:04
      S媽回應:將帶具俊曄去小S家跨年,身體好多了,不像以前那么傷痛

      S媽回應:將帶具俊曄去小S家跨年,身體好多了,不像以前那么傷痛

      丁丁鯉史紀
      2025-12-17 22:16:50
      江門新會新華村鎮銀行解散 廣東順德農村商業銀行承繼其全部業務

      江門新會新華村鎮銀行解散 廣東順德農村商業銀行承繼其全部業務

      東方網銀保頻道
      2025-12-17 17:25:30
      柬埔寨的洪家天下:“金邊肯德基全家桶”

      柬埔寨的洪家天下:“金邊肯德基全家桶”

      Wilsonhe8
      2025-07-01 00:24:02
      宇宙中最不可思議的天體:3根高達5光年的星云柱,比太陽系還大

      宇宙中最不可思議的天體:3根高達5光年的星云柱,比太陽系還大

      觀察宇宙
      2025-12-16 19:48:38
      新加坡估計怎么也想不通一覺醒來,家門口的海南釜底抽薪

      新加坡估計怎么也想不通一覺醒來,家門口的海南釜底抽薪

      忠于法紀
      2025-12-12 09:14:49
      2025-12-17 23:19:00
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      11943文章數 142512關注度
      往期回顧 全部

      科技要聞

      特斯拉值1.6萬億靠畫餅 Waymo值千億靠跑單

      頭條要聞

      捐贈博物館價值8800萬的名畫現身拍賣市場 捐贈方發聲

      頭條要聞

      捐贈博物館價值8800萬的名畫現身拍賣市場 捐贈方發聲

      體育要聞

      短短一年,從爭冠到0勝墊底...

      娛樂要聞

      狗仔曝熱播劇姐弟戀真談了???

      財經要聞

      重磅信號!收入分配制度或迎重大突破

      汽車要聞

      一車多動力+雙姿態 長城歐拉5上市 限時9.18萬元起

      態度原創

      旅游
      藝術
      家居
      數碼
      公開課

      旅游要聞

      大理洱源縣境內的G214國道擅長蛇形走位,堪稱經典的天險路段

      藝術要聞

      毛主席書寫林則徐詩詞,字跡超凡,引發關注。

      家居要聞

      溫馨獨棟 駝色與淺色碰撞

      數碼要聞

      連續五年全國銷量第一 添可洗地機為何被稱一次性用品?

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 贡觉县| 国产乱子伦真实精品!| 色婷久久| 亚洲成熟女人毛毛耸耸多| 亚洲精品一区二区三区在线观看| 少妇高潮灌满白浆毛片免费看 | 国产熟妇与子伦hd| 国产全是老熟女太爽了| 日韩欧美视频一区二区三区| 97激情| 操操人妻| 国产亚洲精久久久久久无码77777| 潮喷失禁大喷水无码| 国产美女无遮挡裸色视频| 亚洲国产精品无码久久电影| 中文字幕亚洲有码| 人人妻人人澡人人爽人人欧美一区 | 中文字幕日韩精品人妻| 丰满人妻被黑人猛烈进入| www.99re6| 国产成人精品二三区波多野| 国产av麻豆mag剧集| 欧美日韩另类国产| 成人深爱网| 激情色播| 国产成人无码精品亚洲| 欧美交a欧美精品喷水| 99在线视频免费观看| 国产人妖TS重口系列网站观看| 人妻自拍网| av区无码字幕中文色| 日韩 欧美 亚洲 一区二区| 亚洲综合图| 成人色一区二区三区| 亚洲一区二区三区av无码| 色伦专区97中文字幕| 国产精品无码天天爽视频| 亚洲日韩成人无码| 香港三级韩国三级日本三级| 人妻av一区二区三区精品| 极品虎白女一线天在线看|