![]()
新智元報道
編輯:KingHZ 好困
【新智元導讀】AAAI 2026「七龍珠」,華人團隊強勢霸榜!從視覺重建到因果發(fā)現(xiàn),再到知識嵌入傳承,新一代AI基石正在新加坡閃耀。
萬眾期待的AAAI 2026開獎了!
今年共有5篇論文摘下杰出論文桂冠,2篇論文獲得經(jīng)典論文獎。
其中,圖靈獎得主Yoshua Bengio,達成AI領域首個百萬被引作者成就之后,憑借在2011年參與的一篇論文獲經(jīng)典論文獎。
AAAI 2026是第40屆AAAI年會,本月20日至27日在新加坡博覽中心舉行。
![]()
杰出論文獎
AAAI人工智能會議杰出論文獎,旨在表彰在技術貢獻和論述方面樹立了最高標準的優(yōu)秀論文。
在雙盲評審過程中,程序委員會成員會推薦論文,以供評選主技術賽道及各特別賽道的「杰出論文獎」( Outstanding Paper Award)。
今年,有5篇論文獲得杰出論文,其中華人作者參與了其中3篇論文。
![]()
此外,會議于2021年增設了「優(yōu)秀論文」(Distinguished Papers)這一類別,以給予特別表彰。
論文:ReconVLA: Reconstructive Vision-Language-Action Model as Effective Robot Perceiver
作者:Wenxuan Song、Ziyang Zhou、Han Zhao、Jiayi Chen、Pengxiang Ding、Haodong Yan、Yuxin Huang、Feilong Tang、Donglin Wang、Haoang Li
機構:香港科技大學(廣州)、西湖大學、浙江大學、莫納什大學
![]()
論文地址:https://arxiv.org/abs/2508.10333
視覺-語言-動作模型的最新進展使機器人能夠融合多模態(tài)理解與動作執(zhí)行。
然而,實證分析表明,當前VLA模型難以將視覺注意力分配到目標區(qū)域,其視覺注意力始終處于分散狀態(tài)。
為引導視覺注意力正確錨定目標,研究人員提出了隱式錨定范式的重建式VLA模型。
該方法以模型視覺輸出為條件,通過擴散變換器重建圖像中對應于操作目標的注視區(qū)域。這一過程促使VLA模型學習細粒度表征并精準分配視覺注意力,從而有效利用任務相關的視覺信息并執(zhí)行精確操作。
![]()
此外,他們從開源機器人數(shù)據(jù)集中構建了包含逾10萬條軌跡、200萬數(shù)據(jù)樣本的大規(guī)模預訓練數(shù)據(jù)集,進一步提升了模型在視覺重建任務中的泛化能力。
在仿真環(huán)境與現(xiàn)實場景中的大量實驗驗證了隱式錨定方法的優(yōu)越性,展現(xiàn)了其在精確操作與泛化能力方面的杰出性能。
論文:LLM2CLIP: Powerful Language Model Unlocks Richer Cross-Modality Representation
作者:Weiquan Huang、Aoqi Wu、Yifan Yang、Xufang Luo、Yuqing Yang、Usman Naseem、Chunyu Wang、Qi Dai、Xiyang Dai、Dongdong Chen、Chong Luo、Lili Qiu、Liang Hu
機構:同濟大學、微軟、麥考瑞大學
![]()
論文地址:https://arxiv.org/abs/2411.04997
這篇論文主要目的是利用LLM的能力來進一步提升多模態(tài)表征學習。
將LLM融入CLIP的潛在益處顯而易見。然而,要做到這一點很難。
實驗表明,直接將LLM集成到CLIP中會導致性能出現(xiàn)災難性的下降。
他們提出了新方法LLM2CLIP,利用LLM的力量來釋放了CLIP潛力。
![]()
通過在描述空間(caption space)利用對比學習對LLM進行微調(diào)(fine-tuning),文本能力被提取到輸出嵌入中,顯著提高了輸出層的文本區(qū)分度。
接著,研究人員設計了一種高效的訓練流程,讓微調(diào)后的LLM充當CLIP視覺編碼器的強力教師。
得益于LLM的加入,大家現(xiàn)在可以納入更長、更復雜的圖像描述,而不再受限于原版CLIP文本編碼器的上下文窗口和能力限制。
實驗證明,該方法在跨模態(tài)任務中帶來了實質性的提升。
新方法直接將此前SOTA的EVA02模型在長文本和短文本檢索任務上的性能提升了16.5%,將一個僅在英語數(shù)據(jù)上訓練的CLIP模型轉變?yōu)闃I(yè)界領先的跨語言模型。
此外,當集成到像Llava 1.5這樣的模型進行多模態(tài)訓練時,它在幾乎所有基準測試中都持續(xù)優(yōu)于CLIP,展現(xiàn)了全面的性能提升。
論文:High-Pass Matters: Theoretical Insights and Sheaflet-Based Design for Hypergraph Neural Networks
作者:Ming Li、Yujie Fang、Dongrui Shen、Han Feng、Xiaosheng Zhuang、Kelin Xia、Pietro Lio
在建模多元實體間高階關系方面,超圖神經(jīng)網(wǎng)絡潛力巨大。
然而,現(xiàn)有方法主要側重低通濾波,普遍忽視高頻信息的作用。
本研究通過理論分析揭示了HGNN的頻譜特性,并證明結合低頻與高頻分量能構建更具表達力與效能的學習模型。特別值得注意的是,我們的分析表明高頻信號對于捕捉超圖內(nèi)部局部判別性結構具有關鍵作用。
基于此發(fā)現(xiàn),研究人員創(chuàng)新性地提出層化框架超圖神經(jīng)網(wǎng)絡(HyperSheaflets),該模型融合胞腔層論與小框架變換,在保持高階依賴關系的同時實現(xiàn)多尺度頻譜分解。
![]()
該框架顯式強調(diào)高頻分量,與理論分析形成呼應。在基準數(shù)據(jù)集上的大量實驗表明,新方法優(yōu)于現(xiàn)有技術,驗證了高頻信息在超圖學習中的重要性。
論文:Model Change for Description Logic Concepts
作者:Ana Ozaki、Jandson S Ribeiro
機構:奧斯陸大學、卡迪夫大學
他們研究這樣一個問題:在以「帶指向的解釋」(pointed interpretations)所表示的模型背景下,如何修改一個描述邏輯概念。我們將這一設定稱為模型變更(model change),并區(qū)分三類主要的變更方式:
驅逐(eviction):僅通過移除元素來實現(xiàn)變更;
接納(reception):將元素納入其中;
修訂(revision):在一次操作中同時包含元素的移除與納入。
他們引入了修訂的形式化概念,并論證修訂并不能(直覺上似乎可以)簡化為「驅逐+接納」的簡單組合。
研究人員還針對EL與ALC描述邏輯概念中,驅逐與接納的相容性給出了正反兩方面的結果,并進一步給出關于ALC概念修訂相容性的結果。
論文:Causal Structure Learning for Dynamical Systems with Theoretical Score Analysis
作者:Nicholas Tagliapietra、Katharina Ensinger、Christoph Zimmer、Osman Mian
機構:博世人工智能中心,達姆施塔特工業(yè)大學,巴登-符騰堡雙元制大學,德國醫(yī)學人工智能研究所(IKIM)
![]()
論文地址:https://arxiv.org/abs/2512.14361
現(xiàn)實世界系統(tǒng)依據(jù)其內(nèi)在因果關系在連續(xù)時間中演進,但這類動力學常不可知。現(xiàn)有動力學學習方法通常需對時間離散化(導致在非均勻采樣數(shù)據(jù)上表現(xiàn)欠佳),或忽略底層因果關系。研究人員提出CADYT,一種解決這些挑戰(zhàn)的動態(tài)系統(tǒng)因果發(fā)現(xiàn)新方法。
與當前采用離散時間動態(tài)貝葉斯網(wǎng)絡建模的先進因果發(fā)現(xiàn)方法不同,CADYT框架基于差分因果模型,能以更溫和的假設建模系統(tǒng)的連續(xù)性。
CADYT利用精確的高斯過程推理來模擬連續(xù)時間動力學,從而更貼合底層動態(tài)過程。他們提出一種實用實現(xiàn)方案:通過算法馬爾可夫條件和最小描述長度原則指導的貪心搜索來識別因果結構。
實驗表明,CADYT在均勻與非均勻采樣數(shù)據(jù)上均優(yōu)于當前最優(yōu)方法,所發(fā)現(xiàn)的因果網(wǎng)絡更接近真實的底層動力學。
![]()
經(jīng)典論文獎
AAAI經(jīng)典論文獎旨在表彰從特定年份的會議中選出的一篇或多篇最具影響力的論文。2026年的獎項將頒發(fā)給第二十五屆人工智能會議上最具影響力的論文。
論文的評選標準主要基于其影響力,例如:
開創(chuàng)了一個新的研究(子)領域
催生了重要的應用
回答了一個長期懸而未決的問題,或厘清了此前晦澀不明的概念
取得了在該子領域歷史上具有里程碑意義的重大進展
被人工智能內(nèi)部(或外部)的其他領域所重視并廣泛采用
被大量引用
今年有兩篇入選:
![]()
論文:Learning Structured Embeddings of Knowledge Bases
作者:Antoine Bordes、Jason Weston、Ronan Collobert、Yoshua Bengio
機構:CNRS、谷歌、IDIAP、蒙特利爾大學
![]()
論文地址:https://ojs.aaai.org/index.php/AAAI/article/view/7917
這篇2011年的論文通過將符號事實表示為連續(xù)向量,戲劇性地改變了AI系統(tǒng)使用知識的方式,首次使結構化知識能夠被神經(jīng)網(wǎng)絡所訪問。
這一突破在后續(xù)模型的推動下得到完善,確立了通往現(xiàn)代大語言模型(LLM)的直系脈絡。
作者Antoine Bordes將發(fā)表「AAAI-26經(jīng)典論文獎」主題演講,展示該論文的核心概念如今如何成為當代AI的基石,尤其是為檢索增強生成(RAG)提供了動力——
因為該技術將LLM與外部知識庫連接起來,將其建立在事實數(shù)據(jù)之上,使得該論文的最初愿景對于構建當今準確、可靠的AI系統(tǒng)變得至關重要。
![]()
Antoine Bordes博士是Helsing的首席科學,此前為FAIR的聯(lián)合管理總監(jiān)。
論文:Understanding Natural Language Commands for Robotic Navigation and Mobile Manipulation
作者:Stefanie Tellex、Thomas Kollar、Steven Dickerson、Matthew Walter、Ashis Banerjee、Seth Teller、Nicholas Roy
機構:MIT
![]()
論文地址:https://ojs.aaai.org/index.php/AAAI/article/view/7979
這篇論文與2011年第25屆AAAI會議上,作者當時的工作單位均為MIT。
本文提出了一種新型模型,用于理解半結構化環(huán)境中,自主導航與移動操縱系統(tǒng)所接收自然語言指令。
傳統(tǒng)方法采用固定結構模型,依據(jù)環(huán)境與指令,推斷動作序列的可能性。
與之相對,他們提出的「廣義接地圖框架」(Generalized Grounding Graphs)能根據(jù)自然語言指令的層次化組合語義結構,動態(tài)實例化特定指令的概率圖模型。
![]()
該系統(tǒng)通過模型推理成功生成并執(zhí)行與自然語言指令相對應的規(guī)劃,例如「將輪胎托盤放到卡車上」。
![]()
該模型采用眾包收集的指令語料庫進行訓練,通過將每條指令與機器人動作配對來學習模型參數(shù)。
通過從自然語言指令推斷規(guī)劃、在仿真環(huán)境中執(zhí)行規(guī)劃、并邀請用戶評估系統(tǒng)表現(xiàn)等方式,研究人員驗證了機器人性能。實驗表明,該系統(tǒng)能成功執(zhí)行語料庫中多數(shù)自然語言指令。
參考資料:
https://aaai.org/conference/aaai/aaai-26/award-talks/
https://aaai.org/about-aaai/aaai-awards/aaai-conference-paper-awards-and-recognition/
https://jandsonribeiro.github.io/home/
https://sites.google.com/view/dravcap
https://personal.cityu.edu.hk/xzhuang7/pubs/2026-LFSFZXL-AAAI-Sheaflets.pdf
![]()
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.