聞樂 發自 凹非寺
量子位 | 公眾號 QbitAI
英偉達小模型持續獲勝。
ARC-AGI 2最新成績,4B小模型NVARC27.64%的公開榜成績力壓GPT-5 Pro 18.3%登頂榜首。
且每任務成本僅20美分,大約是GPT-5 Pro單任務成本(超過7美元)的1/36。
![]()
據官方分析,此次NVARC奪冠的亮點在于零預訓練深度學習方法,沒有依賴大規模通用數據集進行前期預訓練,規避了預訓練模型的領域偏見、數據依賴等問題。
而ARC-AGI 2確實是一個消除了與公共訓練數據重疊的更高難度測試,主要是看測試模型能否高效地獲取超出其訓練數據的新技能。
![]()
成績出爐后,官方訪談到了NVARC團隊的Jean-Francois Puget和Ivan Sorokin,進行技術剖析。
![]()
快來看看“性價比之王”是如何“練”成的?
不靠參數堆料
英偉達的策略是將復雜推理移至離線的合成數據管道,訓練能在評估時快速運行的較小模型。
簡單來說就是大規模合成高質量數據,然后對現有模型進行優化,并且將昂貴的計算工作轉移到離線進行
![]()
由于Kaggle比賽對計算資源限制非常嚴格,團隊意識到,他們不能直接使用那些需要超強算力的大型LMM來進行復雜的、一步一步的推理和代碼生成。
因此他們改變了思路,決定將最燒錢的計算工作轉移到離線完成。比如利用GPT-OSS-120B來大規模制作高質量的合成謎題。
團隊從H-ARC、BARC數據集中搜集了現有的ARC謎題數據,然后將簡單的謎題混合起來,生成更復雜的新謎題。
![]()
為了確保數據質量,他們將復雜的推理管線拆分成不同的階段,每個階段都可以獨立驗證。
通過這種方式,他們建立了一個含320萬+增強樣本的合成數據集,其中每個樣本最多有7對輸入/輸出。
![]()
這里忍不住提一嘴,哈薩比斯剛強調了Scaling Law的重要性,那么合成數據的Scaling怎么不算呢(doge)?
![]()
言歸正傳,NVARC核心的推理模塊以改進版ARChitects方法為基礎,選用小參數模型Qwen3-4B,通過對話式模板簡化謎題理解。
訓練時借助NeMo RL框架和Megatron后端進行監督微調。
不過,讓模型取得優異成績的關鍵一步在于測試時微調(TTFT)。
針對ARC-AGI-2“每個任務都是全新規則”的特點,NVARC引入了LoRA微調技術,并且是針對每一個問題都進行微調,讓模型在做題前快速適應。
而對ARChitects方法的改進在于解碼階段DFS算法做了批處理優化,修復結果非確定性問題。
同時統一了8種數據增強操作評估候選解,最終在公開榜獲得了27.64%的分數。
![]()
在競賽后期,團隊還應用了“少即是多”的TRM方法,嘗試與Qwen3-4B集成補充分數,雖然有一定提升,但受各種限制并沒有大幅優化。
那么問題來了,有人會說這樣訓練出來的小模型不就是做題機器嗎?哪里比得上全面發力的超級大模型?
但更值得關注的或許不在于模型本身,而在于實現突破的方法。
在特定領域任務中,小模型經過針對性優化,性能并不遜色,再加之成本、速度、適配性與領域聚焦優勢,它們已經在諸多場景嶄露頭角。
將正確的方法用在正確的地方,將會實現更大的價值。
![]()
借用這位網友所說,模型或許應該被設計得更加“敏捷”。
論文地址:https://drive.google.com/file/d/1vkEluaaJTzaZiJL69TkZovJUkPSDH5Xc/view
[1]https://developer.nvidia.com/blog/nvidia-kaggle-grandmasters-win-artificial-general-intelligence-competition/
[2]https://arcprize.org/blog/arc-prize-2025-results-analysis
[3]https://www.kaggle.com/competitions/arc-prize-2025/writeups/nvarc
— 完 —
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.