<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      長期持續投入! 雷軍:小米7篇論文入選國際頂級會議AAAI

      0
      分享至

      12月1日晚,雷軍發文稱,“人工智能領域的國際頂級會議AAAI,致力于推動人工智能領域的學術研究與創新發展。AAAI 2026,小米共有7篇最新研究成果成功入選,涵蓋了音效編輯、具身智能3D Agent、檢索、推斷解碼、語音問答、VLN導航、自動駕駛等。這是小米大模型和具身智能部分研究成果的階段性展示,也踐行小米科技戰略‘深耕底層技術、長期持續投入’。”



      AAAI 是人工智能領域的國際頂級會議之一,由人工智能促進協會(Association for the Advancement of Artificial Intelligence)主辦,在中國計算機學會(CCF)推薦會議列表中被列為 A 類會議。AAAI 致力于推動人工智能領域的學術研究與創新發展,每年舉辦一次,AAAI 2026 是該會議的第40屆,共收到創紀錄的23680篇有效投稿,總共4167篇論文被錄取,錄取率17.6%。該會議于2026年1月20日至27日在新加坡博覽中心舉辦。

      論文簡介

      ▍《AV-Edit: Multimodal Generative Sound Effect Editing via Audio-Visual Semantic Joint Control》

      論文作者:郭新月,楊曉冉,張李攀,楊劍軒,王昭,欒劍

      錄用類型:主會

      論文鏈接:https://arxiv.org/abs/2511.21146

      音效編輯——即通過添加、移除或替換元素來修改音頻——目前仍受限于僅依賴低級信號處理或粗粒度文本提示的傳統方法,這往往導致編輯靈活性有限且音質欠佳。為此,我們提出 AV-Edit 這一生成式音效編輯框架,通過聯合利用視覺、音頻與文本語義,實現對視頻中現有音軌的細粒度編輯。

      具體而言,該方法采用專門設計的對比式視聽掩碼自編碼器(CAV-MAE-Edit)進行多模態預訓練,學習對齊的跨模態表征。這些表征隨后用于訓練編輯型多模態擴散 Transformer(MM-DiT),通過基于關聯的訓練策略,能夠消除視覺無關的音效并生成與視頻內容一致的缺失音頻元素。此外,我們構建了專門的視頻音效編輯數據集作為評估基準。

      實驗表明,所提出的 AV-Edit 能基于視覺內容生成具有精確修改的高質量音頻,在音效編輯與音頻生成領域實現了最先進的性能表現。

      作為小米在視頻音效領域的首篇頂會論文,生成式音效編輯填補了傳統方法在細粒度編輯、多模態語義對齊上的空白,突破了僅靠低級信號處理或粗粒度提示的局限;落地手機等產品后,能讓普通用戶便捷實現專業級音效修改(如短視頻精準加/消音),大幅降低創作門檻,重塑移動端音視頻編輯體驗。

      ▍《Cook and Clean Together: Teaching Embodied Agents for Parallel Task Execution》

      *表示共同第一作者

      論文作者:梁定康*,張誠*,許小鵬,鞠建忠,羅振波,白翔

      錄用類型:主會,口頭報告(Oral)

      論文鏈接:https://arxiv.org/abs/2511.19430

      在具身智能(Embodied AI)時代,讓智能體在 3D 物理世界中高效執行復雜任務至關重要。然而,現有的任務規劃研究大多被過度簡化,模型只能逐一執行指令,缺乏利用“運籌學知識(Operations Research Knowledge)” 進行效率優化的能力。

      例如,具身智能體在執行“使用微波爐” 這樣的并行任務時,無法利用等待時間去執行“洗水槽” 或“擦柜臺” 等其他工作,導致總時長遠非最優。同時,這些規劃往往缺乏在 3D 空間中的視覺定位能力(3D grounding),難以在真實世界中執行。

      為解決“任務效率”與“ 3D 視覺定位”難題,本文首次定義了基于運籌學知識的 3D Grounding 調度這一任務。為推動該任務研究,本文構建了大規模數據集 ORS3D-60K(包含 4K 真實場景中的 60K 個任務)。

      此外,本文提出了一個名為 GRANT 的具身多模態大語言模型。GRANT 的核心是一個簡潔高效的 “調度令牌機制” (Scheduling Token Mechanism, STM)。模型不再自己盲目規劃,而是首先識別任務屬性(如“并行”或“非并行”),然后通過一個特殊的 令牌調用外部優化求解器,生成“最優執行序列”。該序列隨后被注入模型,引導其生成高效且在 3D 空間中精確定位的步驟化行動。

      實驗證明,GRANT 在任務調度效率上相比基線方法取得了高達 30.53% 的顯著提升,同時在 3D grounding 準確率上也獲得增益,驗證了其在空間理解、3D grounding 和調度效率方面的全面有效性。

      ▍《AutoLink: Autonomous Schema Exploration and Expansion for Scalable Schema Linking in Text-to-SQL at Scale》

      〡本文受小米揭榜掛帥科研專項支持

      *表示共同第一作者

      論文作者:王資洋*,鄭元雷*,曹振彪,張曉今,魏忠鈺,付培,羅振波,陳偉,白翔

      錄用類型:主會

      論文鏈接:https://arxiv.org/abs/2511.17190

      在工業級 Text-to-SQL 場景中,數據庫規模往往極為龐大(動輒數百至數千列),將完整模式直接輸入大語言模型不僅會引入大量無關噪聲,而且容易觸發上下文長度限制,從而影響 SQL 生成的準確性。因此,如何在不暴露完整數據庫結構的前提下,高召回地篩選出與用戶問題相關的模式子集(Schema Linking)成為核心難點。

      為解決這一問題,本文提出 AutoLink,一種由大模型驅動的自適應、逐步式模式連接框架。AutoLink 不再一次性提供全量模式,而是模擬數據庫工程師的探索式工作方式,在數據庫環境與向量檢索環境之間進行多輪交互,通過“檢索→探索→驗證→擴展”的迭代過程,動態構建與問題相關的模式子集,實現高召回與低噪聲的平衡。

      該框架不需要遍歷全模式,也無需將數據庫完整結構輸入語言模型,具備高度可擴展性。實驗結果表明,AutoLink 在多個主流基準上取得了顯著優勢:在 Bird-Dev 上實現 97.4% 的嚴格模式召回率(SRR),在大規模 Spider 2.0-Lite 上達到 91.2% 的 SRR,均為當前最優表現。

      同時,AutoLink 在保持高執行準確率的前提下顯著降低 Token 消耗,即便在擁有 3000+ 列的超大數據庫中依舊保持穩定性能,展示了工業級可落地的魯棒性與可擴展性。

      ▍《Scaling LLM Speculative Decoding: Non-Autoregressive Forecasting in Large-Batch Scenarios》

      〡本文受小米揭榜掛帥科研專項支持

      論文作者:史洛合,李祖超,張樂飛,齊保元,劉國明

      錄用類型:主會,口頭報告(Oral)

      論文鏈接:https://arxiv.org/abs/2511.20340

      大語言模型(Large Language Models, LLMs)自回歸解碼由于其低運算強度常出現訪存帶寬瓶頸并浪費算力。投機解碼(Speculative Decoding)通過草稿模型猜測后續 token 以增強主模型的并行性。目前的主要研究方法通過擴充草稿 token 數量來增強準確率,在單樣本下行取得了很好的效果。

      誠然,在一定的批大小下,這類方法性能迅速退化,由于在可供使用的冗余算力減小的同時,每個樣本能夠分配到的草稿 token 數量也快速降低,同時串行生成草稿 token 也會占據過多時間。

      通過分析這些問題,我們提出了一種新的并行草稿 token 生成算 SpecFormer。通過將單向和雙向的兩個 Transformer 層堆疊,并在輸入 token 和草稿 token 兩個維度上進行注意力運算,我們可以基于完整的輸入序列進行預測,并且并行化的生成全部的草稿 token。

      SpecFormer 是一個具有更強語言建模能力并且并行化的草稿模型,可以高質高效的完成草稿 token 預測任務,并且在較為有限的條件下,也就是中大批大小下,得到更佳的預測質量,同時減少草稿 token 運行時間,總體上得到更好的加速效果。

      ▍《End-to-end Contrastive Language-Speech Pretraining Model For Long-form Spoken Question Answering》

      〡本文受小米揭榜掛帥科研專項支持

      論文作者:胡繼亮,李祖超,齊保元,劉國明,王平

      錄用類型:主會

      論文鏈接:https://arxiv.org/abs/2511.09282

      近年來,語音問答(SQA)領域取得了顯著進展。然而,包括大型音頻語言模型(LALM)在內的許多現有方法在處理長音頻時仍面臨困難。隨著檢索增強生成技術的成功,語音相關檢索器在預處理長語音方面展現出潛力,但現有語音檢索器的性能仍有不足。

      為應對這一挑戰,我們提出了 CLSR——一種端到端的對比式語音-語言檢索器,能夠高效地從長音頻錄音中提取與問題相關的片段,以支持下游語音問答任務。

      與傳統語音-文本對比模型不同,CLSR在模態對齊前引入了將聲學特征轉換為類文本表征的中間步驟,從而更有效地彌合模態差異。

      在四個跨模態檢索數據集上的實驗結果表明,CLSR 既優于端到端的語音相關檢索器,也超越了結合語音識別與文本檢索的流水線方法,為推進實用型長語音問答應用奠定了堅實基礎。

      ▍《What You See Is What You Reach: Towards Spatial Navigation with High-Level Human Instructions》

      *表示共同第一作者 ?表示共同通訊作者

      論文作者:張凌峰*,傅昊翔*,郝孝帥?,張書逸,張強,劉瑞,陳龍,丁文伯?

      錄用類型:主會

      論文鏈接:https://openreview.net/pdf?id=ow65qpDY3Q

      本文提出了空間導航(Spatial Navigation)任務,使智能體能夠理解“在沙發左側空地等我”等高級人類指令并完成相應的導航。

      與傳統方法僅限于識別預定義物體類別或執行詳細路徑指令不同,該任務要求智能體結合空間關系推理,完成空間物體導航(SpON)和空間區域導航(SpAN)兩類任務。

      研究團隊構建了一個包含10,000條軌跡的數據集,并提出了 SpNav 分層框架。該框架通過視覺-語言模型解析指令,利用專門訓練的 NaviPoint 模型進行目標定位,最后基于地圖的 Map-to-Action 模塊實現精確導航。

      實驗結果表明,SpNav 在導航性能上達到了當前最先進水平(SOTA),超越了之前的最佳基線,并且在真實環境中實現了零樣本遷移。

      這項工作首次系統地解決了具身導航中復雜空間關系理解與高級指令解析的結合問題,為家庭服務機器人等實際應用中的自然人機互動奠定了基礎。

      ▍《VILTA:A VLA-in-the-Loop Adversary for Enhancing Driving Policy Robustness》

      論文作者:陳其茂,李方,徐少清,賴志懿,謝子勛,羅悅晨,蔣盛銀,李漢冰,陳龍,王兵,張毅,楊志新

      錄用類型:主會

      當前,自動駕駛領域的開源數據集在豐富性方面仍顯不足。盡管策略網絡在常規場景中的學習性能已趨于收斂,但在長尾困難場景下的表現依然有限。

      為此,本文提出 VILTA(VLA-in-the-Loop Trajectory Adversary),旨在解決長尾場景數據稀缺以及現有生成方法多樣性不足的問題。VILTA 創新性地將視覺語言模型(VLM)直接嵌入訓練閉環,構建了一種“視覺–語言–編輯”(Vision-Language-Editing)的新范式。

      該方法充分利用 VLM 強大的場景理解能力,對周圍車輛的未來軌跡進行精細化的對抗性編輯,摒棄了傳統兩階段生成流程。同時,通過引入后處理機制確保生成軌跡的運動學可行性,從而能夠高效生成既符合物理規律又極具挑戰性的多樣化駕駛場景。

      在 CARLA 仿真環境中的實驗表明,經強化學習優化后的策略顯著降低了碰撞率,大幅提升了自動駕駛系統在極端場景下的魯棒性,為端到端策略在長尾場景中的優化提供了有效驗證與可行路徑。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      涉嫌嚴重違紀違法!吳飚,被查!

      涉嫌嚴重違紀違法!吳飚,被查!

      中國基金報
      2025-12-11 20:57:14
      努爾哈赤叛亂早期,從鐵嶺到遼陽,只要滿清八旗兵來攻城,城門就會突然失守,豁然洞開,跟兒戲一樣

      努爾哈赤叛亂早期,從鐵嶺到遼陽,只要滿清八旗兵來攻城,城門就會突然失守,豁然洞開,跟兒戲一樣

      歷史按察使司
      2025-12-11 17:48:06
      300068籌劃控制權變更,停牌!

      300068籌劃控制權變更,停牌!

      新浪財經
      2025-12-12 07:21:29
      一場大火燒怕了有錢人!11月:理想MEGA交出一份“黑色”成績單

      一場大火燒怕了有錢人!11月:理想MEGA交出一份“黑色”成績單

      言車有徐
      2025-12-10 15:55:09
      野心勃勃!中超新土豪大手筆不斷 一口氣敲定4大國腳+2名巴西新援

      野心勃勃!中超新土豪大手筆不斷 一口氣敲定4大國腳+2名巴西新援

      零度眼看球
      2025-12-11 07:39:27
      這事有點詭異:“中國英偉達”上市3天,H200芯片就解禁了

      這事有點詭異:“中國英偉達”上市3天,H200芯片就解禁了

      互聯網.亂侃秀
      2025-12-11 10:30:49
      原來所有崗位都可以混進去再學!網友分享令人眼前一亮:還能這樣

      原來所有崗位都可以混進去再學!網友分享令人眼前一亮:還能這樣

      另子維愛讀史
      2025-12-08 20:56:00
      1.55米廣西“小孩姐”球技驚艷全網!面對記者采訪,她這樣說……

      1.55米廣西“小孩姐”球技驚艷全網!面對記者采訪,她這樣說……

      環球網資訊
      2025-12-11 17:40:07
      重慶崖洞干尸身份確定后續,家屬已認領,兒女曝父親死亡具體細節

      重慶崖洞干尸身份確定后續,家屬已認領,兒女曝父親死亡具體細節

      知法而形
      2025-12-11 09:17:12
      歐洲多國街頭現“京東快遞”,旅德華人:周日晚9點下單,次日上午9點收貨,感受到“中國速度”

      歐洲多國街頭現“京東快遞”,旅德華人:周日晚9點下單,次日上午9點收貨,感受到“中國速度”

      極目新聞
      2025-12-11 18:29:31
      41歲男演員向佐哭訴:娛樂圈的人很恐怖!向華強此前稱為捧向佐虧了幾個億,“我這輩子唯一捧不起來的就是我的親兒子”

      41歲男演員向佐哭訴:娛樂圈的人很恐怖!向華強此前稱為捧向佐虧了幾個億,“我這輩子唯一捧不起來的就是我的親兒子”

      極目新聞
      2025-12-10 21:26:55
      起拍價1個億6000萬成交,廣西這家破產房地產,有人接手了!

      起拍價1個億6000萬成交,廣西這家破產房地產,有人接手了!

      嶺南美玉
      2025-12-12 00:08:59
      日本航母緊急出動,迎戰遼寧艦?美國突然發話,給中國送上國運!

      日本航母緊急出動,迎戰遼寧艦?美國突然發話,給中國送上國運!

      老范談史
      2025-12-10 20:26:38
      CCTV 8黃金檔,12月15號正式開播!這部27集電視劇深得我心

      CCTV 8黃金檔,12月15號正式開播!這部27集電視劇深得我心

      小邵說劇
      2025-12-12 08:00:14
      奇瑞固態電池炸場:600Wh/kg1500公里續航,新能源汽車要“變天了

      奇瑞固態電池炸場:600Wh/kg1500公里續航,新能源汽車要“變天了

      娛樂圈的筆娛君
      2025-12-11 13:24:31
      男子彩票中748萬遭店主扣押實體票后續,重慶市體彩中心回應:獎金仍凍結,等待判決

      男子彩票中748萬遭店主扣押實體票后續,重慶市體彩中心回應:獎金仍凍結,等待判決

      瀟湘晨報
      2025-12-09 17:01:21
      今年三九天,“十年不遇”,今年冬天到底冷不冷,答案來了

      今年三九天,“十年不遇”,今年冬天到底冷不冷,答案來了

      三農雷哥
      2025-12-11 09:07:38
      許家印為保命爆出三大靠山!百億房東浮出水面,抱得美人歸引熱議

      許家印為保命爆出三大靠山!百億房東浮出水面,抱得美人歸引熱議

      詩意世界
      2025-09-26 10:31:06
      老太破壞修路路面后續:民警走了又挖,村干部曝真相,子女被牽連

      老太破壞修路路面后續:民警走了又挖,村干部曝真相,子女被牽連

      奇思妙想草葉君
      2025-12-11 00:25:02
      天災還沒完,中國突然傳來倆噩耗,高市的臉上,第一次出現了慌張

      天災還沒完,中國突然傳來倆噩耗,高市的臉上,第一次出現了慌張

      阿器談史
      2025-12-12 03:30:44
      2025-12-12 08:43:00
      單行科技
      單行科技
      科技財經領域的溫度與深度解讀
      3903文章數 604關注度
      往期回顧 全部

      科技要聞

      凌晨突發!GPT-5.2上線,首批實測感受來了

      頭條要聞

      牛彈琴:美國被指要組建C5來替代G7 中俄在列沒有歐洲

      頭條要聞

      牛彈琴:美國被指要組建C5來替代G7 中俄在列沒有歐洲

      體育要聞

      你最看不上的人,關鍵時刻卻最想救你...

      娛樂要聞

      黃慧頤曝保劍鋒出軌細節!

      財經要聞

      美國要組建C5,全世界大吃一驚

      汽車要聞

      長途穿越更輕松 二代哈弗H9穿越版限時售23.29萬

      態度原創

      本地
      旅游
      數碼
      親子
      公開課

      本地新聞

      打工人夢想中的生活,寵物已經提前過上了

      旅游要聞

      渝見好“村”光|酉陽山羊古寨:紅葉深處的詩意田園

      數碼要聞

      海盜船推出《輻射》主題外設:鍵鼠耳機統統披上“核子可樂”涂裝

      親子要聞

      這嘟嘟嘴太可愛了吧

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 国产大片黄在线观看| 亚洲精品国产AV| 制服丝袜无码在线| 亚洲av片在线免费观看| 亚洲的天堂av无码| 国产超高清麻豆精品传媒麻豆精品| 亚洲小视频| 遂宁市| 亚洲国产精品人人做人人爱| 久久婷婷五月综合色99啪| 亚洲另类激情专区小说婷婷久| 亚州无码熟女| 亚洲无码精品人妻| 亚洲精品熟女国产| 亚洲天堂av 在线| 91视频网亚瑟视频| 精品人妻无码中文字幕| 国产成人亚洲日韩欧美| 广东少妇大战黑人34厘米视频| 人人超碰在线| 精品人妻无码中文字幕| 麻豆国产va免费精品高清在线| 中文字幕精品久久久久人妻红杏1| 永久免费mv入口| 伊人久久大香线蕉精品,亚洲国产一成人久久精品,久久99精品久久久久久三级,亚 | 亚洲人成电影在线天堂色| 67194欧洲| 日本一卡二卡三卡四卡五卡六卡| 国产欧美一区二区三区免费视频| 免费午夜无码视频在线观看| 亚洲AV无码久久精品色欲| 狼人伊人久久| 无码欧精品亚洲日韩一区| 亚洲欧洲∨国产一区二区三区| 夜福利导航| 又大又紧又粉嫩18p少妇| 中文无码日韩欧| 国产午夜精品久久精品电影| 中文字幕二区| 欧洲精品码一区二区三区| 中国内地毛片免费高清|