
作者 | 木子
新加坡的會場里,全球人工智能頂會AAAI,正式揭曉年度獎項,也迎來了它的第 40 個年頭。
今年共頒發(fā)了 5 個杰出論文獎,以及 2 個經(jīng)典論文獎。在獲獎名單中,竟然還有“機器學習三巨頭”之一的Yoshua Bengio。
不過這一次,他并不是因為最新成果獲獎,而是憑借在 2011 年寫的一篇論文獲得了經(jīng)典論文獎。而且不久前,他剛達成 AI 領(lǐng)域首個“百萬被引作者”的成就。
為什么 10 多年前的這篇論文,會在今年被重新拉出來,還獲得了經(jīng)典論文獎?
不妨來看看它講了些什么。
論文名為 Learning Structured Embeddings of Knowledge Bases(《面向知識庫的結(jié)構(gòu)化表示學習》)。提出了一種方法,把知識庫的結(jié)構(gòu)化數(shù)據(jù)嵌入到連續(xù)空間中,從而讓結(jié)構(gòu)化知識更容易用于機器學習任務(wù)。
換句話說,這篇文章解決的是如何把離散世界(知識、事實、關(guān)系)嵌入到連續(xù)空間;以及如何讓神經(jīng)網(wǎng)絡(luò)不靠純統(tǒng)計,而是“接住現(xiàn)實結(jié)構(gòu)”。而今天熱門的世界模型、RAG、Agent 的外部記憶等等這些東西,從本質(zhì)上講,全都在復(fù)用這條路線。
再說回今年獲獎的5 篇杰出論文,這些論文有講機器人和 VLA 的,有在講如何在連續(xù)時間系統(tǒng)中讓 AI 模型“白盒化”的,還有講 LLM 和 CLIP、講高頻信號和局部判別結(jié)構(gòu)的。
![]()
串起來看,這些論文的研究方向,其實可以概括出一個共同指向:AI 的競爭,已從拼實驗環(huán)境的中的炫酷 Demo,轉(zhuǎn)向真正的應(yīng)用層。Scaling Law 那套雖然不完全失效,但多少有點過時了,誰能在真實世界中被理解、被修訂、被信任越來越關(guān)鍵。
AAAI 2026: AI 走向現(xiàn)實,
評獎標準重塑
下面來看看這幾篇杰出論文,都有哪些有意思的信息。
具身智能領(lǐng)域:
論文名: ReconVLA: Reconstructive Vision-Language-Action Model as Effective Robot Perceiver (ReconVLA:作為高效機器人感知器的重建式視覺 - 語言 - 動作模型)
![]()
要說清本文的創(chuàng)新點,需要再這里先簡單回顧一下什么是 VLA——VLA(Vision-Language-Action)具身智能領(lǐng)域的一個關(guān)鍵模型,可以把視覺感知、語言理解和動作生成統(tǒng)一到同一個模型中,直接根據(jù)“看到什么 + 聽到什么”,來輸出可執(zhí)行機器人動作。
不過當前 VLA 的缺陷也是很明顯的:比如模型在執(zhí)行動作時,視覺注意力高度分散;即便模型能“理解指令”,但在復(fù)雜場景、多干擾物、長任務(wù)中,往往看不準真正要操作的物體。
結(jié)果就是:抓錯對象、操作不精確(現(xiàn)實世界對精確度要求很高)、長鏈任務(wù)中途失敗等等。
總之,以往 VLA 只監(jiān)督“動作輸出”,幾乎不約束“視覺感知過程本身”。
而ReconVLA 的關(guān)鍵思想是:不“告訴模型看哪里”,而是“逼模型把關(guān)鍵區(qū)域重建出來”。
其核心機制,簡單來說,就是模擬人類視覺的“凝視(gaze)”機制,不要求模型輸出框,也不輸入裁剪圖,而是讓模型在內(nèi)部生成一種“重建信號”,去還原“當前要操作的局部區(qū)域”。
論文還系統(tǒng)性地對比了三類視覺定位(grounding)范式:
一類是以外部檢測器和裁剪圖像為代表的Explicit Grounding,
一類是先輸出目標框、再生成動作的CoT Grounding,
以及作者提出的Implicit Grounding(隱式 Grounding),也就是 ReconVLA 的方式。
![]()
圖注:不同范式 Grounding 之間的概念性對比。
前兩類方法本質(zhì)上都是在顯式告訴模型“答案在哪里”,并未真正改變 VLA 內(nèi)部的視覺表示和注意力機制。
而 ReconVLA 通過重建過程,將關(guān)鍵區(qū)域作為一種隱式的視覺監(jiān)督信號,引導模型生成所謂的“重建 token(reconstructive tokens)”,從而在不引入額外輸入或輸出的前提下,重塑視覺感知能力。
換句話說,它不再讓模型“蒙著眼睛試動作”,而是強制模型在每一步?jīng)Q策前,先把目標對象看準,再去動手。
關(guān)于從“結(jié)果可解釋”,走向“結(jié)構(gòu)可操作”:
論文名: Causal Structure Learning for Dynamical Systems with Theoretical Score Analysis (基于理論評分分析的動態(tài)系統(tǒng)因果結(jié)構(gòu)學習方法)
![]()
這篇論文提出了一種方法:CADYT。能夠在連續(xù)時間、甚至不規(guī)則采樣的數(shù)據(jù)中,同時刻畫系統(tǒng)的動力學演化,并恢復(fù)其中的因果結(jié)構(gòu)。
![]()
更重要的是,作者證明了用于判斷因果關(guān)系的評分函數(shù),在理論上等價于一種合理的模型選擇準則,而不是經(jīng)驗性的啟發(fā)式指標。換句話說,就是這個評分不是憑經(jīng)驗設(shè)計的,而是從理論上保證:它會偏向那些“解釋得剛剛好、不多也不少”的因果結(jié)構(gòu)。
在現(xiàn)實世界的系統(tǒng)中,無論是工業(yè)控制、物理系統(tǒng),還是醫(yī)療過程,系統(tǒng)本質(zhì)上都是連續(xù)時間演化的,而且由穩(wěn)定的因果機制驅(qū)動。但以往的方法往往只能解決其中一半問題。
一類是時間序列因果發(fā)現(xiàn)方法,它們通常基于離散時間建模(如 DBN、Granger),并假設(shè)規(guī)則采樣,因此在面對真實的連續(xù)動力學和不規(guī)則采樣時,難以準確刻畫系統(tǒng)本身的演化機制。
另一類是連續(xù)時間動力學建模方法(如 Neural ODE、GP-ODE),雖然能自然處理不規(guī)則采樣,卻主要關(guān)注預(yù)測精度,本質(zhì)上并不區(qū)分因果依賴與偶然相關(guān)。
這就留下了一個長期存在的空白:幾乎沒有方法,既工作在連續(xù)時間框架下,又能夠同時恢復(fù)系統(tǒng)的動力學機制和因果結(jié)構(gòu)。
而 CADYT 正是針對這一空白提出的。它將連續(xù)時間的高斯過程動力學建模,與基于最小描述長度(MDL)和算法馬爾可夫條件(AMC)的因果評分結(jié)合起來,在不規(guī)則采樣條件下,通過比較不同因果結(jié)構(gòu)對數(shù)據(jù)的“壓縮能力”,來識別真正的因果關(guān)系,并給出了明確的理論保證。
說得更直白一點,這項工作把連續(xù)時間動力學建模,從“擬合得像不像真實軌跡”,推進到了“學到的機制在因果上是不是對的”。
論文名: Model Change for Description Logic Concepts (描述邏輯概念的模型變更)
![]()
此論文還未公開上傳,暫無鏈接。
關(guān)于表示學習,重新審視結(jié)構(gòu)本身
論文名: LLM2CLIP: Powerful Language Model Unlocks Richer Cross-Modality Representation (LLM2CLIP:強大語言模型解鎖更豐富跨模態(tài)表征)
![]()
CLIP(Contrastive Language–Image Pre-training)是一個經(jīng)典的多模態(tài)模型,通過對比學習,將圖像和文本映射到同一語義空間,從而實現(xiàn)“以文找圖、以圖找文”等跨模態(tài)理解能力。
CLIP 在跨模態(tài)檢索和基礎(chǔ)語義對齊上表現(xiàn)出色,但它也有一個公認的短板:文本編碼器容量較小、上下文長度有限,對長、復(fù)雜、信息密集的文本理解能力不足。這在長文本檢索、多語言理解等場景中尤為明顯。
LLM 在語言理解、上下文建模和世界知識方面,倒是明顯更強。但問題在于,LLM 不能直接接入 CLIP。
——一方面,原生 LLM 的句向量并不具備對比學習所需的“高區(qū)分度”,很難有效拉開不同 caption 之間的距離;另一方面,如果端到端聯(lián)合訓練 LLM 和 CLIP,計算成本也高得不可接受。
這篇論文提出了一種系統(tǒng)化的新方法,名曰:LLM2CLIP,顧名思義,把 LLM“接入”或“輸送”到 CLIP 里,用 LLM 來替代或者增強 CLIP 的文本能力。
![]()
但這并不是簡單地把 LLM 直接接進去。作者給出的解決路徑,是分兩步走,各解決一個關(guān)鍵障礙。
第一步,是先讓 LLM 成為一個“合格的文本 embedding 模型”。為此,論文提出了Caption-Contrastive Fine-tuning:
使用同一張圖像對應(yīng)的不同 caption 作為正樣本,通過對比學習,讓語義相近的描述在向量空間中更接近、不相關(guān)的描述更遠;同時配合平均池化、雙向注意力和 LoRA 等結(jié)構(gòu)調(diào)整,提升句向量的穩(wěn)定性和可區(qū)分性。
這一步的目標并不是做多模態(tài),而是把 LLM 訓練成一個真正“好用”的文本表示器。
第二步,則是直接用經(jīng)過處理的 LLM,替換掉 CLIP 原有的文本編碼器。在這一階段,LLM 參數(shù)被凍結(jié),僅訓練一個非常輕量的 adaptor 來對齊視覺特征,使整體訓練流程幾乎等同于普通的 CLIP 微調(diào),算力成本基本不變。
大量消融實驗表明:同時保留兩個文本編碼器、或試圖在兩者之間做復(fù)雜對齊,效果反而更差;“直接替換”是最簡單、也是最有效的方案。
實驗結(jié)果顯示,LLM2CLIP 在長文本檢索任務(wù)上提升最為顯著,短文本檢索也有穩(wěn)定增益,同時多語言檢索能力明顯增強。更重要的是,這些提升是在僅使用百萬級數(shù)據(jù)、幾乎不增加訓練成本的前提下實現(xiàn)的。
總體來看,LLM2CLIP 的價值在于,它沒有重造一個更大的多模態(tài)模型,而是用一種低成本、可復(fù)用的方式,把“語言理解”這塊短板,直接補進了 CLIP 的核心結(jié)構(gòu)里。
論文名: High-Pass Matters: Theoretical Insights and Sheaflet-Based Design for Hypergraph Neural Networks (高頻信息的重要性:面向超圖神經(jīng)網(wǎng)絡(luò)的理論分析與 Sheaflet 方法設(shè)計)
![]()
此論文還未公開上傳,暫無鏈接。
總而言之,這些研究都在把關(guān)注點從結(jié)果層面的性能,推向模型內(nèi)部的感知、結(jié)構(gòu)和機制本身。
論文地址:
https://arxiv.org/abs/2508.10333
https://arxiv.org/abs/2411.04997
https://arxiv.org/abs/2512.14361
https://aaai.org/about-aaai/aaai-awards/aaai-conference-paper-awards-and-recognition/
https://aaai.org/about-aaai/aaai-awards/aaai-classic-paper-award/?utm_source
https://aaai.org/conference/aaai/aaai-26/award-talks/
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.