網易首頁 > 網易號 > 正文申請入駐

三星 TRM 論文：少即是多，用遞歸替代深度，挑戰 Transformer 范式

2025-11-03 18:40:13　來源: 大數據文摘

北京舉報

分享至

大數據文摘整理

三星SAIL蒙特利爾實驗室的研究人員近日發布論文《Less is More: Recursive Reasoning with Tiny Networks》，提出一種名為Tiny Recursive Model（TRM）的新型遞歸推理架構。

這項研究顯示，在推理任務上，小網絡也能戰勝大型語言模型。

TRM僅使用700萬參數、兩層神經網絡，就在多項高難度任務中超過了 DeepSeek R1、Gemini 2.5 Pro、O3-mini 等模型。

在架構上，TRM也放棄了自注意力層（僅限 TRM-MLP 變體；TRM-Att 仍含自注意力。）。論文表明，對于小規模固定輸入任務，MLP反而能減少過擬合。另外，當上下文長度較短時，注意力機制反而是一種浪費。TRM 在某些任務（例如 Sudoku、Maze-Hard 等）中，使用純 MLP 結構優于 Transformer-based 模型。

圖注： Tiny Recursive Model（TRM）通過不斷在“答案 y和“潛在思考變量 z 之間遞歸更新，實現小參數模型的多輪自我修正推理。

傳統大模型依賴鏈式思維（Chain-of-Thought）生成推理步驟，但這種方法成本高、容易累積錯誤。

TRM 則通過遞歸地更新“答案”和“潛在思考變量”，讓模型在多輪自我修正中逼近正確結果。

論文總結：“TRM以極小的規模實現了前所未有的泛化能力。”在ARC-AGI推理基準上，TRM獲得45%（ARC-AGI-1）與8%（ARC-AGI-2）的準確率，高于多數大型模型。在Sudoku-Extreme任務上，它的準確率更是達到87.4%，刷新紀錄。

研究團隊稱，這種結構的核心邏輯是“遞歸即深度”：深度遞歸可替代增加層數，模型不需更多層數，只需反復思考。

推理機制重構：少即是多

TRM的設計源自對上一代Hierarchical Reasoning Model（HRM）的反思。

HRM模型在兩種不同頻率下遞歸更新潛變量與的過程，通過先無梯度、后帶梯度的雙階段循環，實現高低頻遞歸推理的結合。

HRM 使用兩個網絡在不同“頻率層次”上遞歸運算，模仿人腦的多層推理結構。
然而，其訓練過程復雜，依賴固定點理論（Fixed-Point Theorem）和生物學假設。

TRM徹底放棄這些理論假設。

研究者發現，單一網絡加深度監督（Deep Supervision）即可實現相同甚至更好的推理效果。

模型通過多次前向遞歸更新內部潛變量z與當前答案y，讓推理鏈條在每一步收斂得更準。

與HRM相比，TRM的參數量減少參數縮減約74%，單步前向次數減半，同時提升準確率。

論文數據顯示：在Maze-Hard數據集上，TRM測試準確率為85.3%，高出HRM 10個百分點。

TRM還取消了傳統的“繼續計算”機制（Adaptive Computational Time, ACT）中第二次前向傳播。

研究者改用一個簡單的二元判斷來決定是否停止推理。

結果顯示，模型訓練速度顯著提升，準確率幾乎不變。

在架構上，TRM也放棄了自注意力層。對于小規模固定輸入任務（如數獨），使用多層感知機（MLP）反而能減少過擬合。

論文指出，“當上下文長度較短時，注意力機制反而是一種浪費。”這一發現挑戰了AI界“模型越大越強”的經驗法則。減少層數、加深遞歸，是讓模型學會‘思考’的關鍵。

結果與啟示：推理的新尺度

實驗結果表明，TRM不僅在性能上反超HRM，更在泛化能力與效率比上建立了新標準。

在Sudoku-Extreme上，它以5M參數實現87.4%準確率；

在Maze-Hard任務上，以7M參數實現85.3%；

在ARC-AGI系列測試中，表現超過Gemini 2.5 Pro與DeepSeek R1等大模型。

研究團隊將這一成果概括為：“以遞歸取代規模，以思考取代堆疊。”

論文分析認為，大模型在生成式推理中往往容易被一次性錯誤放大，而TRM通過循環式的自我修正，將推理劃分為多個小步，顯著降低誤差傳播。

這種結構在小樣本條件下尤為有效。

作者還發現，兩層網絡的泛化能力優于更深模型。當層數增加到四層或以上時，性能反而下降，原因在于過擬合。

團隊引入指數移動平均（EMA）以穩定訓練，使模型在小數據集上保持一致收斂。

研究指出，這種方法提供了一條新的“輕量AI推理路線”：當算力與數據受限時，小模型通過遞歸學習仍可實現復雜思維行為。

這為未來的邊緣AI與低資源應用提供了方向。智能的深度，不一定來自規模，而可能來自重復思考。

注：頭圖AI生成

作者長期關注 AI 產業與學術，歡迎對這些方向感興趣的朋友添加微信Q1yezi，共同交流行業動態與技術趨勢！

GPU 訓練特惠！

H100/H200 GPU算力按秒計費，平均節省開支30%以上！

掃碼了解詳情?

點「贊」的人都變好看了哦！

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.