想發大模型論文,卻還在“模型規模”上打轉?那你跟頂會大概率無緣了!研究風向已經變了, “能力深化與場景適配”才是王道。
具體來說:仔細研究近2年的頂會頂刊能發現,審稿人的口味主要集中在:大模型的技術架構創新、能力邊界拓展、多模態融合、效率優化、安全可控等。因此,非常建議想做這領域的伙伴,多多關注前沿的進展。
為方便大家研究的順利進行,我給大家整理了目前大模型領域最熱門的10大方向,共120篇高質量論文,原文和源碼都有。主要涉及:原生統一全模態模型、世界模型、VLM、Agent系統、強化學習、潛在推理、高效推理、安全性和可控性……
![]()
掃描下方二維碼,回復「120LLM」
免費獲取全部論文合集及項目代碼
VLA模型
Spec-VLA: Speculative Decoding for Vision-Language-Action Modelswith Relaxed Acceptance
內容:該研究針對視覺 - 語言 - 動作(VLA)模型因視覺語言模型(VLM)參數量大、自回歸解碼特性導致的高計算成本問題,首次將投機解碼(SD)框架適配并改進提出 Spec-VLA,解決了直接應用 SD 于 VLA 動作預測任務提速效果微弱的痛點。研究基于 VLA 模型動作令牌的相對距離設計了松弛接受機制,有效提升了令牌接受長度,在多個測試場景的實驗結果表明,該框架相較 Open VLA 基線模型將接受長度提升 44%,實現了 1.42 倍的推理加速,且完全不損失任務成功率,驗證了投機執行在 VLA 動作預測場景的廣泛應用潛力,相關代碼等研究產物遵循 Apache 協議開源并完成了規范的實驗統計與文檔說明。
![]()
原生統一全模態模型
Mobile-O: Unified Multimodal Understanding and Generation on Mobile Device
內容:該論文提出了一款名為 Mobile-O 的緊湊型視覺 - 語言 - 擴散模型,旨在為移動設備提供統一的多模態理解與生成能力。其核心創新包括 Mobile Conditioning Projector(MCP)模塊 —— 通過深度可分離卷積和分層對齊實現視覺 - 語言特征的高效融合,以及創新的四元組(生成提示、圖像、問題、答案)統一后訓練方案,僅需少量訓練樣本即可同時提升視覺理解與生成性能。Mobile-O 僅含 1.6B 參數,在 GenEval 基準上達到 74% 的成績,分別超越 Show-O 和 JanusFlow 5% 和 11%,且運行速度快 6-11 倍;在 7 個視覺理解基準上平均性能領先 15.3% 和 5.1%,同時在 iPhone 17 Pro 上實現約 3 秒生成 512×512 圖像、內存占用低于 2GB 的實時部署,無需依賴云端,為邊緣設備上的實時多模態智能應用奠定了基礎,其代碼、模型和數據集均已公開。
![]()
掃描下方二維碼,回復「120LLM」
免費獲取全部論文合集及項目代碼
世界模型
OccTENS: 3D Occupancy World Model via Temporal Next-Scale Prediction
內容:該論文提出了面向自動駕駛的 3D 占用世界模型 OccTENS,針對現有自回歸占用模型存在的推理低效、長時生成時序退化和缺乏位姿可控性問題,將占用世界模型重構為時間下一尺度預測(TENS)任務,把時序序列建模拆解為空間逐層生成和時間逐幀預測,設計了 TensFormer 架構實現對占用序列時間因果性和空間關聯性的靈活高效建模,并提出整體位姿聚合策略,將車輛自運動與占用信息統一序列建模,同時實現位姿可控的占用生成和自動駕駛運動規劃。模型由多尺度場景分詞器、運動分詞器和生成式世界模型構成,通過解耦幀回歸與尺度回歸、分離尺度級時間因果注意力和幀級空間注意力,解決了多尺度時序建模的注意力過載問題。在 nuScenes 數據集的實驗表明,OccTENS 在 4D 占用預測任務中大幅超越 OccWorld、OccLLaMA 等 SOTA 方法,基于真值占用輸入的平均 mIoU 達 22.06%、IoU 達 31.03%,運動規劃的長期預測表現更優,且 2 尺度版本推理速度快于 OccWorld,6 尺度版本在性能和效率間實現最優權衡,同時能精準根據給定位姿生成匹配的占用場景,為自動駕駛實時應用提供了高性能、可控制、高效率的 3D 占用世界模型方案。
![]()
隱式/潛空間推理
DYNAMICS WITHIN LATENT CHAIN-OF-THOUGHT: AN EMPIRICAL STUDY OF CAUSAL STRUCTURE
內容:該論文針對潛在思維鏈(Latent CoT)中間計算難以通過關聯探針之外的方式評估的問題,提出將其視為表征空間中可操控的因果過程,通過將潛在步驟建模為結構因果模型(SCM)中的變量,并借助逐步干預分析其影響,以探究三個核心問題:哪些步驟對正確性具有因果必要性、答案何時可早期判定;影響如何跨步驟傳播及該結構與顯式 CoT 的差異;中間軌跡是否保留競爭答案模式及輸出層面與表征層面的承諾差異。研究在數學和通用推理任務上對 Coconut 和 CODI 兩種代表性范式展開實驗,發現潛在步驟預算更偏向具有非局部路由的階段化功能而非同質化的額外深度,且早期輸出偏倚與后期表征承諾之間存在持續差距。該研究構建了首個因果化、步驟解析的潛在 CoT 評估視角,提出算子和讀出條件化的影響分析方法,其結果為模式條件化和穩定性感知分析及相關訓練 / 解碼目標提供了支撐,也為改進潛在推理系統指明方向。
![]()
掃描下方二維碼,回復「120LLM」
免費獲取全部論文合集及項目代碼
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.