henry 發自 凹非寺
量子位 | 公眾號 QbitAI
壓縮即智能,又有新進展!
在最新研究CompressARC中,Mamba作者Albert Gu團隊給出了一個不同于大規模預訓練的智能配方——
最小描述長度(MDL)
![]()
研究顯示,僅通過在推理階段最小化目標謎題的描述長度,一個76K參數,完全沒有經過預訓練的模型,就能在ARC-AGI-1基準上解決20%的問題。
![]()
值得一提的是,CompressARC不僅沒使用ARC-AGI的訓練集,還是目前唯一一個只在單個樣本上運行的深度學習方法。
憑借這一突破,CompressARC獲得了ARC Prize 2025的第三名,并且據論文一作Isaac Liao透露,這項研究僅使用了一張GPU就得以完成。
![]()
這是怎么做到的?
新的智能recipe:最小描述長度
如上所說,CompressARC一沒利用訓練集、二不進行預訓練,且網絡中僅有76K參數,但它仍能泛化并解決20%的評估謎題和34.75%的訓練謎題。
這種不靠預訓練獲取智能的關鍵在于,CompressARC的最終目標不是像普通神經網絡那樣學習一個泛化的規則,而是把一個特定的ARC-AGI謎題用一個最短的計算機程序表達出來。
換句話說,CompressARC并不是像監督學習一樣,學習一個x到y的映射,而是尋找一種能用最少比特信息來表述給定謎題的方法。
這一思想源自最小描述長度(MDL)理論(以及與其相關的Solomonoff歸納法和Kolmogorov復雜度理論)——一個現象(謎題)的最短描述(程序)往往能揭示其最深層的規律。
在ARC-AGI的情境中,CompressARC旨在將一個特定的ARC-AGI謎題(包括其輸入和期望的輸出)用一個最短的計算機程序來表達出來。
這個最短的程序意味著它找到了最簡潔、最本質的規則,而這些規則恰好就是謎題的解。
與此同時,研究還遵循奧卡姆剃刀原理,即最短的程序被假設具有最強大的泛化能力
因此,CompressARC僅使用謎題本身(兩個示例輸入/輸出對和測試輸入),而不加載任何額外的附加數據或訓練集。
接下來,我們具體來看。
CompressARC挑戰的ARC-AGI-1是一個檢驗系統能否在少量示例中找到規則的測試。
簡單來說,這有點像行測考試里的找規律題,每道題目會給出幾對輸入-輸出作為示例,模型需要找到謎題中的規則,從而生成正確的、對應的網格。
CompressARC 的“壓縮”過程,就是找到圖里最本質的信息/規則
![]()
目前,在該測試中取得最好成績的仍是基于互聯網數據預訓練的大語言模型。
比如o3能達到88%的成績,但o1則只有25%左右。
而在不進行預訓練、僅使用ARC-AGI 數據訓練的神經網絡中,最高成績為40.3%,CompressARC這次只在測試謎題本身上進行訓練。
![]()
總的來說,CompressARC解決問題的過程,是一個最小化目標謎題的程序性描述長度(Minimum Description Length, MDL)的過程,這可看作是用神經網絡來“寫”最短的程序。
![]()
MDL 框架與搜索空間的轉換
首先,由于計算機程序的組合搜索空間過于龐大,無法窮盡所有可能的程序來找到絕對最短的那一個(計算上不可行)。
因此,論文設計了一個固定的“程序模板”(Template Program / Algorithm 1)。
這個模板包含一套固定的運算流程:從隨機噪聲z采樣,經過一個神經網絡,再次采樣生成謎題顏色。
![]()
這些模板中留下了幾個“空位”,用于填入硬編碼的數值(即“種子”)以及神經網絡的權重。
只要填入了這些種子和權重,這個模板程序就能運行,并“打印”出整個 ARC-AGI 數據集。
由此,尋找最短程序的問題,就轉化成了尋找最短的種子和權重的問題。
接下來,研究借鑒了變分自編碼器(VAE)的原理,將程序長度的最小化轉化為一個可微分的優化問題:
![]()
- 種子長度 1 (KL 散度):衡量了從標準正態分布中采樣隨機輸入z所需的編碼信息成本。通過最小化z分布與標準正態分布的KL散度,實現了對z所攜帶信息量的懲罰,迫使網絡以最短的比特數來編碼z。
- 種子長度 2 (交叉熵/重構損失): 衡量了神經網絡輸出的謎題與真實已知謎題的匹配程度(即負對數似然)。匹配得越好,說明該謎題被成功重構,所需的“額外校正信息”(即用于校正輸出結果的種子)就越少。
不過,原始的算法2需要進行復雜的相對熵編碼(REC),涉及指數級的計算,速度太慢。
因此,CompressARC通過算法3跳過了這些復雜步驟,直接用VAE中的損失函數(KL 散度和交叉熵)來近似種子的預期長度。
![]()
這把原本不可行的“尋找最短程序”的組合搜索問題,轉化成了一個可行的、可以用梯度下降(深度學習的標準優化方法)來求解的優化問題。
在架構方面,網絡的全部目標是:在沒有外部訓練數據的情況下,通過內置的強大歸納偏置(Inductive Biases),使得網絡本身就具有極高的概率能“生成”一個合理的 ARC-AGI 謎題,從而使所需的種子信息量降到最低。
![]()
這包含四個方面的處理:
等變性與對稱性處理:
架構內置了對ARC-AGI 謎題常見變換的等變性(Equivariance),包括旋轉、翻轉、顏色置換和示例順序置換。
這保證了網絡能夠默認賦予所有等價變換后的謎題相同的概率,避免了使用冗長代碼來描述這些對稱性,進一步縮短了程序長度。
數據結構:多張量(Multitensor):
網絡內部并非使用一個單一的大張量,而是使用一個“張量桶”或多張量(Multitensor),其中包含形狀不同的張量,每個張量代表不同粒度的信息。
這種表示方式專門用于存儲高層次的關系信息,從而提供了更有效的歸納偏置,使網絡能夠更容易地進行抽象推理。
核心骨干:類 Transformer 結構:
架構在結構上類似于Transformer,采用一個殘差骨干(Residual Backbone),由線性投影(讀取/寫入)和專門設計的操作組成,并重復運行4次。
整個模型僅有76K參數。這是因為大部分參數僅用于通道維度的線性讀/寫投影,而核心操作本身是無參數的。
歸納偏置:無參數的自定義操作:
網絡的核心功能不是傳統的注意力機制,而是一系列針對謎題規則高度定制的、無參數的操作,這些操作直接體現了對ARC-AGI謎題規則的先驗知識:
- 信息匯總與傳播: 沿著一個軸求和并將結果廣播回去,實現不同粒度信息的交互。
- 幾何操作: 沿著幾何維度進行單像素平移(實現對象的移動/復制)。
- 拓撲/形狀操作: 沿著幾何維度取累積最大值(Cumulative Max),有助于捕捉圖案的延伸、填充或邊界等拓撲屬性。
通過這種“高度工程化”的架構,CompressARC確保了其對謎題的描述性程序能夠被最大程度地壓縮,從而在無預訓練、數據極度受限的條件下,成功實現了對ARC-AGI謎題的泛化求解。
實驗驗證
為了評估CompressARC的性能,研究為CompressARC提供了2000個推理時訓練步驟來處理每個謎題,每個謎題大約花費20分鐘。
在這個推理時計算預算內,CompressARC 正確解決了20%的評估集謎題和34.75%的訓練集謎題。(如開頭所示)
總的來說,研究挑戰了智能必須源于大規模預訓練和數據的假設,其表明巧妙地運用MDL和壓縮原理可以帶來令人驚訝的能力。
CompressARC作為一個概念證明,旨在展示現代深度學習框架可以與MDL結合,從而創建一條通往通用人工智能(AGI)的可能的、互補的替代路徑。
One more thing
這篇論文的作者Isaac Liao目前是CMU機器學習系的在讀博士生,師從Albert Gu教授。
他本科與碩士階段均就讀于麻省理工學院(MIT),且本科期間便拿下了計算機科學與物理學雙學位。
![]()
他的研究興趣包括最小描述長度(Minimum Description Length, MDL)、變分推斷、超網絡(Hypernetworks)、元學習、優化方法以及稀疏性。
值得一提的是,這項研究中用到的核心基準測試ARC-AGI-1(Abstraction and Reasoning Corpus) 由Google AI 研究員、深度學習庫Keras的創始人Fran?ois Chollet于2019年提出。
![]()
這一基準是為了應對當時深度學習方法在狹窄、專業任務上表現出色,但在展示類人泛化能力方面不足的現狀,旨在評估 AI 處理新穎、未曾明確訓練過的問題的能力,是衡量通用人工智能(AGI)能力的核心標尺。
它專門用于基準測試技能習得能力(智能的根本核心),而非在單一預定義任務上的性能。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.