網易首頁 > 網易號 > 正文申請入駐

重磅！雷軍發文：小米7篇論文入選國際頂會！

2025-12-05 22:25:55　來源: 科研絕技

重慶舉報

分享至

來源：小米技術、微博@雷軍

12月1日晚，雷軍發文稱，“人工智能領域的國際頂級會議AAAI，致力于推動人工智能領域的學術研究與創新發展。AAAI 2026，小米共有7篇最新研究成果成功入選，涵蓋了音效編輯、具身智能3D Agent、檢索、推斷解碼、語音問答、VLN導航、自動駕駛等。這是小米大模型和具身智能部分研究成果的階段性展示，也踐行小米科技戰略‘深耕底層技術、長期持續投入’。”

AAAI 是人工智能領域的國際頂級會議之一，由人工智能促進協會（Association for the Advancement of Artificial Intelligence）主辦，在中國計算機學會（CCF）推薦會議列表中被列為 A 類會議。AAAI 致力于推動人工智能領域的學術研究與創新發展，每年舉辦一次，AAAI 2026 是該會議的第40屆，共收到創紀錄的23680篇有效投稿，總共4167篇論文被錄取，錄取率17.6%。該會議于2026年1月20日至27日在新加坡博覽中心舉辦。

論文簡介

AV-Edit: Multimodal Generative Sound Effect Editing via Audio-Visual Semantic Joint Control

論文作者：郭新月，楊曉冉，張李攀，楊劍軒，王昭，欒劍

錄用類型：主會

論文鏈接：https://arxiv.org/abs/2511.21146

音效編輯——即通過添加、移除或替換元素來修改音頻——目前仍受限于僅依賴低級信號處理或粗粒度文本提示的傳統方法，這往往導致編輯靈活性有限且音質欠佳。為此，我們提出 AV-Edit 這一生成式音效編輯框架，通過聯合利用視覺、音頻與文本語義，實現對視頻中現有音軌的細粒度編輯。

具體而言，該方法采用專門設計的對比式視聽掩碼自編碼器（CAV-MAE-Edit）進行多模態預訓練，學習對齊的跨模態表征。這些表征隨后用于訓練編輯型多模態擴散 Transformer（MM-DiT），通過基于關聯的訓練策略，能夠消除視覺無關的音效并生成與視頻內容一致的缺失音頻元素。此外，我們構建了專門的視頻音效編輯數據集作為評估基準。

實驗表明，所提出的 AV-Edit 能基于視覺內容生成具有精確修改的高質量音頻，在音效編輯與音頻生成領域實現了最先進的性能表現。

作為小米在視頻音效領域的首篇頂會論文，生成式音效編輯填補了傳統方法在細粒度編輯、多模態語義對齊上的空白，突破了僅靠低級信號處理或粗粒度提示的局限；落地手機等產品后，能讓普通用戶便捷實現專業級音效修改（如短視頻精準加/消音），大幅降低創作門檻，重塑移動端音視頻編輯體驗。

《Cook and Clean Together: Teaching Embodied Agents for Parallel Task Execution

*表示共同第一作者

論文作者：梁定康*，張誠*，許小鵬，鞠建忠，羅振波，白翔

錄用類型：主會，口頭報告（Oral）

論文鏈接：https://arxiv.org/abs/2511.19430

在具身智能（Embodied AI）時代，讓智能體在 3D 物理世界中高效執行復雜任務至關重要。然而，現有的任務規劃研究大多被過度簡化，模型只能逐一執行指令，缺乏利用“運籌學知識（Operations Research Knowledge）” 進行效率優化的能力。

例如，具身智能體在執行“使用微波爐” 這樣的并行任務時，無法利用等待時間去執行“洗水槽” 或“擦柜臺” 等其他工作，導致總時長遠非最優。同時，這些規劃往往缺乏在 3D 空間中的視覺定位能力（3D grounding），難以在真實世界中執行。

為解決“任務效率”與“ 3D 視覺定位”難題，本文首次定義了基于運籌學知識的 3D Grounding 調度這一任務。為推動該任務研究，本文構建了大規模數據集 ORS3D-60K（包含 4K 真實場景中的 60K 個任務）。

此外，本文提出了一個名為 GRANT 的具身多模態大語言模型。GRANT 的核心是一個簡潔高效的 “調度令牌機制” （Scheduling Token Mechanism, STM）。模型不再自己盲目規劃，而是首先識別任務屬性（如“并行”或“非并行”），然后通過一個特殊的令牌調用外部優化求解器，生成“最優執行序列”。該序列隨后被注入模型，引導其生成高效且在 3D 空間中精確定位的步驟化行動。

實驗證明，GRANT 在任務調度效率上相比基線方法取得了高達 30.53% 的顯著提升，同時在 3D grounding 準確率上也獲得增益，驗證了其在空間理解、3D grounding 和調度效率方面的全面有效性。

《AutoLink: Autonomous Schema Exploration and Expansion for Scalable Schema Linking in Text-to-SQL at Scale

〡本文受小米揭榜掛帥科研專項支持

*表示共同第一作者

論文作者：王資洋*，鄭元雷*，曹振彪，張曉今，魏忠鈺，付培，羅振波，陳偉，白翔

錄用類型：主會

論文鏈接：https://arxiv.org/abs/2511.17190

在工業級 Text-to-SQL 場景中，數據庫規模往往極為龐大（動輒數百至數千列），將完整模式直接輸入大語言模型不僅會引入大量無關噪聲，而且容易觸發上下文長度限制，從而影響 SQL 生成的準確性。因此，如何在不暴露完整數據庫結構的前提下，高召回地篩選出與用戶問題相關的模式子集（Schema Linking）成為核心難點。

為解決這一問題，本文提出 AutoLink，一種由大模型驅動的自適應、逐步式模式連接框架。AutoLink 不再一次性提供全量模式，而是模擬數據庫工程師的探索式工作方式，在數據庫環境與向量檢索環境之間進行多輪交互，通過“檢索→探索→驗證→擴展”的迭代過程，動態構建與問題相關的模式子集，實現高召回與低噪聲的平衡。

該框架不需要遍歷全模式，也無需將數據庫完整結構輸入語言模型，具備高度可擴展性。實驗結果表明，AutoLink 在多個主流基準上取得了顯著優勢：在 Bird-Dev 上實現 97.4% 的嚴格模式召回率（SRR），在大規模 Spider 2.0-Lite 上達到 91.2% 的 SRR，均為當前最優表現。

同時，AutoLink 在保持高執行準確率的前提下顯著降低 Token 消耗，即便在擁有 3000+ 列的超大數據庫中依舊保持穩定性能，展示了工業級可落地的魯棒性與可擴展性。

《Scaling LLM Speculative Decoding: Non-Autoregressive Forecasting in Large-Batch Scenarios》

〡本文受小米揭榜掛帥科研專項支持

論文作者：史洛合，李祖超，張樂飛，齊保元，劉國明

錄用類型：主會，口頭報告（Oral）

論文鏈接：https://arxiv.org/abs/2511.20340

大語言模型（Large Language Models, LLMs）自回歸解碼由于其低運算強度常出現訪存帶寬瓶頸并浪費算力。投機解碼（Speculative Decoding）通過草稿模型猜測后續 token 以增強主模型的并行性。目前的主要研究方法通過擴充草稿 token 數量來增強準確率，在單樣本下行取得了很好的效果。

誠然，在一定的批大小下，這類方法性能迅速退化，由于在可供使用的冗余算力減小的同時，每個樣本能夠分配到的草稿 token 數量也快速降低，同時串行生成草稿 token 也會占據過多時間。

通過分析這些問題，我們提出了一種新的并行草稿 token 生成算 SpecFormer。通過將單向和雙向的兩個 Transformer 層堆疊，并在輸入 token 和草稿 token 兩個維度上進行注意力運算，我們可以基于完整的輸入序列進行預測，并且并行化的生成全部的草稿 token。

SpecFormer 是一個具有更強語言建模能力并且并行化的草稿模型，可以高質高效的完成草稿 token 預測任務，并且在較為有限的條件下，也就是中大批大小下，得到更佳的預測質量，同時減少草稿 token 運行時間，總體上得到更好的加速效果。

《End-to-end Contrastive Language-Speech Pretraining Model For Long-form Spoken Question Answering》

〡本文受小米揭榜掛帥科研專項支持

論文作者：胡繼亮，李祖超，齊保元，劉國明，王平

錄用類型：主會

論文鏈接：https://arxiv.org/abs/2511.09282

近年來，語音問答（SQA）領域取得了顯著進展。然而，包括大型音頻語言模型（LALM）在內的許多現有方法在處理長音頻時仍面臨困難。隨著檢索增強生成技術的成功，語音相關檢索器在預處理長語音方面展現出潛力，但現有語音檢索器的性能仍有不足。

為應對這一挑戰，我們提出了 CLSR——一種端到端的對比式語音-語言檢索器，能夠高效地從長音頻錄音中提取與問題相關的片段，以支持下游語音問答任務。

與傳統語音-文本對比模型不同，CLSR在模態對齊前引入了將聲學特征轉換為類文本表征的中間步驟，從而更有效地彌合模態差異。

在四個跨模態檢索數據集上的實驗結果表明，CLSR 既優于端到端的語音相關檢索器，也超越了結合語音識別與文本檢索的流水線方法，為推進實用型長語音問答應用奠定了堅實基礎。

《What You See Is What You Reach: Towards Spatial Navigation with High-Level Human Instructions

*表示共同第一作者 ?表示共同通訊作者

論文作者：張凌峰*，傅昊翔*，郝孝帥?，張書逸，張強，劉瑞，陳龍，丁文伯?

錄用類型：主會

論文鏈接：https://openreview.net/pdf?id=ow65qpDY3Q

本文提出了空間導航（Spatial Navigation）任務，使智能體能夠理解“在沙發左側空地等我”等高級人類指令并完成相應的導航。

與傳統方法僅限于識別預定義物體類別或執行詳細路徑指令不同，該任務要求智能體結合空間關系推理，完成空間物體導航（SpON）和空間區域導航（SpAN）兩類任務。

研究團隊構建了一個包含10,000條軌跡的數據集，并提出了 SpNav 分層框架。該框架通過視覺-語言模型解析指令，利用專門訓練的 NaviPoint 模型進行目標定位，最后基于地圖的 Map-to-Action 模塊實現精確導航。

實驗結果表明，SpNav 在導航性能上達到了當前最先進水平（SOTA），超越了之前的最佳基線，并且在真實環境中實現了零樣本遷移。

這項工作首次系統地解決了具身導航中復雜空間關系理解與高級指令解析的結合問題，為家庭服務機器人等實際應用中的自然人機互動奠定了基礎。

《VILTA：A VLA-in-the-Loop Adversary for Enhancing Driving Policy Robustness》

論文作者：陳其茂，李方，徐少清，賴志懿，謝子勛，羅悅晨，蔣盛銀，李漢冰，陳龍，王兵，張毅，楊志新

錄用類型：主會

當前，自動駕駛領域的開源數據集在豐富性方面仍顯不足。盡管策略網絡在常規場景中的學習性能已趨于收斂，但在長尾困難場景下的表現依然有限。

為此，本文提出 VILTA（VLA-in-the-Loop Trajectory Adversary），旨在解決長尾場景數據稀缺以及現有生成方法多樣性不足的問題。VILTA 創新性地將視覺語言模型（VLM）直接嵌入訓練閉環，構建了一種“視覺–語言–編輯”（Vision-Language-Editing）的新范式。

該方法充分利用 VLM 強大的場景理解能力，對周圍車輛的未來軌跡進行精細化的對抗性編輯，摒棄了傳統兩階段生成流程。同時，通過引入后處理機制確保生成軌跡的運動學可行性，從而能夠高效生成既符合物理規律又極具挑戰性的多樣化駕駛場景。

在 CARLA 仿真環境中的實驗表明，經強化學習優化后的策略顯著降低了碰撞率，大幅提升了自動駕駛系統在極端場景下的魯棒性，為端到端策略在長尾場景中的優化提供了有效驗證與可行路徑。

由于公眾號改版，為防錯過更多資源，給我們加個星標吧

說明：來源：小米技術、微博@雷軍，如需轉載，請在開頭注明來源。僅供學習交流分享使用，版權歸原作者所有，文章只代表作者本人觀點，不代表公眾號立場。如有侵權，請聯系我們（Hilib oy）刪除，感謝支持！也歡迎有興趣的朋友分享、投稿、申請轉載、互開長白。

了解更多信息

↓↓↓歡迎點贊和推薦哦

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.