![]()
本工作由香港科技大學、中科院自動化所、加州大學圣克魯斯分校的研究者們共同完成
![]()
當我們解一道復雜的數(shù)學題或觀察一幅抽象圖案時,大腦往往需要反復思考、逐步推演。然而,當前主流的深度學習模型卻走的是「一次通過」的路線——輸入數(shù)據(jù),經(jīng)過固定層數(shù)的網(wǎng)絡,直接輸出答案。
這種前饋式架構在圖像分類等感知任務上表現(xiàn)出色,但面對需要多步推理的抽象問題時,卻顯得力不從心。最典型的例子就是「ARC-AGI 基準測試」——一個被認為是衡量 AI 抽象推理能力的「試金石」。
近日,來自香港科技大學、中科院自動化所、UC Santa Cruz 的研究團隊提出了「Loop-ViT」,首次將循環(huán) Transformer 引入視覺推理領域。這個僅有18M 參數(shù)的模型,在 ARC-AGI-1 基準上達到了「65.8%」的準確率,超越了參數(shù)量高達 73M 的 VARC 集成模型。更令人驚訝的是,其 3.8M 的小型版本也能達到 60.1% 的準確率,幾乎追平人類平均水平(60.2%)。
![]()
- 論文標題:LoopViT: Scaling Visual ARC with Looped Transformers
- 論文鏈接:https://arxiv.org/abs/2602.02156
- 代碼開源:https://github.com/WenjieShu/LoopViT
什么是 ARC-AGI?
為什么它如此困難?
ARC-AGI(Abstraction and Reasoning Corpus)是由 Keras 之父 Fran?ois Chollet 提出的抽象推理基準。與 ImageNet 等傳統(tǒng)視覺基準不同,ARC 不考察模型識別貓狗、汽車的能力,而是測試其歸納推理能力。
每個 ARC 任務僅提供 2–4 個示例對(輸入-輸出網(wǎng)格),模型需要從這些示例中歸納出潛在規(guī)則,然后將其應用到新的測試輸入上。這些規(guī)則可能涉及:
- 對象的平移、旋轉、鏡像
- 圖案的重復與填充
- 基于顏色的條件變換
- 類似「重力」的物理模擬
人類通常能夠通過觀察示例、提出假設、驗證修正的迭代過程來解決這些問題。然而,傳統(tǒng)的前饋神經(jīng)網(wǎng)絡卻缺乏這種「反復思考」的能力——它們的計算深度被固定綁定在網(wǎng)絡層數(shù)上。
Loop-ViT 的核心創(chuàng)新
![]()
- 循環(huán)架構:解耦計算深度與參數(shù)量
傳統(tǒng) Vision Transformer 的計算流程是:輸入 → 第 1 層 → 第 2 層 → …… → 第 L 層 → 輸出。每增加一層就意味著更多的參數(shù),計算深度與模型容量緊密綁定。
Loop-ViT 的設計理念截然不同:重復執(zhí)行同一組權重。模型的核心是一個權重共享的 Transformer 塊,可以被循環(huán)執(zhí)行 T 次。這意味著:
- 計算深度可以任意擴展,而不增加參數(shù)
- 模型被迫學習一個通用的「思考步驟」,而非任務特定的啟發(fā)式規(guī)則
- 類似于人類大腦的工作記憶被反復更新
![]()
- 混合編碼塊:全局推理 + 局部更新
研究團隊觀察到,ARC 任務需要兩種不同的處理模式:
- 全局規(guī)則歸納:理解整體變換規(guī)律(如「所有藍色變紅色」)
- 局部模式執(zhí)行:精確的像素級操作(如「填充封閉區(qū)域」)
為此,Loop-ViT 設計了Hybrid Block,融合了:
- 自注意力機制:捕捉全局依賴關系
- 深度可分離卷積:處理局部空間模式
- 動態(tài)退出:知道何時停止思考
并非所有問題都需要同樣長的思考時間。簡單的幾何變換可能幾步就能確定答案,而復雜的算法推理則需要更多迭代。
Loop-ViT 引入了基于熵的動態(tài)退出機制
- 每次迭代后,計算預測分布的 Shannon 熵
- 當熵值低于閾值(模型「確信」了答案),立即停止
- 無需任何額外參數(shù),完全基于模型的內在不確定性
實驗表明,能夠「早退」的樣本準確率高達 83.33%,而需要完整迭代的困難樣本準確率為 45.80%。這與人類的認知資源分配策略驚人地一致——簡單問題快速解決,復雜問題投入更多時間。
實驗結果:
小參數(shù),大性能
在 ARC-AGI-1 基準上,Loop-ViT 的表現(xiàn)令人印象深刻。幾個關鍵觀察如下:
![]()
參數(shù)效率驚人:3.8M 的 Loop-ViT-Small 超越 18M 的 VARC,僅用 1/5 參數(shù)。
超越模型集成:18M 的 Loop-ViT 超越 73M 的 VARC 四模型集成。
深入理解:
模型在「思考」什么?
研究團隊對 Loop-ViT 的內部機制進行了可視化分析,揭示了有趣的「涌現(xiàn)」行為:
預測結晶現(xiàn)象:隨著迭代進行,模型的預測從模糊逐漸變得清晰確定。早期迭代的預測波動較大,后期則趨于穩(wěn)定——就像溶液中的晶體逐漸析出。
注意力模式演化
- 早期迭代:注意力分布廣泛,模型在「掃描」整個輸入,收集信息。
- 后期迭代:注意力變得稀疏聚焦,精確對準需要操作的區(qū)域。
這種從「全局探索」到「局部執(zhí)行」的轉變,與人類解決視覺推理問題的策略高度相似。
結語
Loop-ViT 的成功揭示了一個重要洞見:在視覺領域,對于需要推理的任務,「思考時間」比「模型大小」更重要。
這與當前大模型領域一味追求參數(shù)規(guī)模的趨勢形成鮮明對比。也許,實現(xiàn)真正的人工智能不僅需要更大的網(wǎng)絡,更需要讓模型學會像人一樣「反復思考」。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.