網易首頁 > 網易號 > 正文申請入駐

讀完200篇論文，看DeepMind、Meta、DeepSeek ，中美巨頭都在描述哪種AGI敘事｜2025 AI 年度復盤

2026-01-22 18:40:48　來源: 星海情報局

北京舉報

分享至

編者按：以定力致遠，以重構圖新。大象新聞、大象財富聯合騰訊新聞、騰訊科技推出2025年終策劃《定力與重構》，回望2025、展望2026，讓洞察照見本質，向變革尋求確定。

文｜博陽

編輯｜徐青陽

在剛剛過去的2025年，我通讀了大約兩百篇人工智能領域的論文。

如果用一個詞來形容這一年的技術體感，那就是「暴力美學」時代的終結。單純依靠堆砌參數摘取低垂果實的日子已經過去，2025年的技術進化回歸到了基礎研究。

這篇文章，我想通過梳理這一年的技術脈絡，明確三個結論：

第一，2025年，技術進步主要集中在流體推理（Fluid Reasoning）、長期記憶（Long-term Memory）、空間智能（Spatial Intelligence）以及元學習（Meta-learning）這四個領域。原因在于Scaling Law在單純的參數規模上遇到了邊際效應遞減，為了突破AGI的瓶頸，業界被迫尋找新的增長點，即從「把模型做大」轉向把「模型做聰明」。

第二，現在的技術瓶頸主要在模型要“不僅要博學，更要懂思考和能記住”。通過Yoshua Bengio提出的AGI框架（基于CHC認知理論），我們發現之前的AI存在嚴重的「能力偏科」：它在一般知識（K）上得分極高，但在即時推理（R）、長期記憶（MS）和視覺處理（V）上幾乎是空白。這種不平衡構成了通往AGI的最大阻礙。

第三，這些瓶頸在25年其實都找了一些新的解決方向，可以說是補短板很成功的一年。其中最重要的是三個方面。

● 推理能力：通過Test-Time Compute（推理時計算）引發的革命，AI學會了慢思考，推理能力實現了從0到8的質變。

● 記憶能力： Titans架構和Nested Learning的出現，打破了Transformer的無狀態假設，讓模型具備了內化的“海馬體”，有望徹底根治金魚記憶。

● 空間智能：視頻生成不再只是像素的堆砌，而是開始掌握物理規律，邁向了真正的世界模型。

接下來，我將根據這一年間的論文閱讀，帶領大家詳細看看這些關鍵拼圖是如何被一塊塊補齊的。

（因為篇幅限制，各個方向上涉及的論文我只是簡單做了講述，如果有興趣深入了解，可以看文后的相關論文參考。已分章節處理。）

流體推理的進化，Test Time Compute的誕生與發展

在2024年，AI明顯的短板是即時推理 (R)能力。在GPT-4的時代，AI只會依賴概率直覺，推理什么的一點不會。但在2025年，Test-Time Compute（推理時計算）通過拉長推理時間來換取智能。Test-Time Compute 的核心理念是：智能不僅是參數的函數，也是時間的函數。以OpenAI o1和DeepSeek R1為代表，AI學會了「慢思考」。通過在推理階段投入更多的計算資源，它開始在輸出答案前，在內部進行長達數秒甚至數分鐘的自我辯論和推演。

這就是2025年最重要的范式革新，讓AI從背書的鸚鵡轉向思考的機器。

因為模型的思維過程是無法在預訓練期間進行引導的，因此后訓練、尤其是強化學習（RL），就成了提升推理能力的最重要的手段。

但事情并非一帆風順，在2025年，《強化學習真的能激勵LLM超越基座模型的推理能力嗎？》這篇論文引發了大概半年左右的學術爭論。該研究發現，在許多情況下，RLVR訓練后的模型生成的正確推理路徑，其實在基座模型的采樣分布中原本就存在。RL的作用僅僅是銳化了分布，顯著提高了采樣到這些路徑的概率，而并非真正“創造”了基座模型完全未知的推理能力。

對此，在后續長達半年的論爭后，現在的通行結論是基座模型可能確實包含了所有必要的原子推理步驟（如加減法、基本邏輯變換），但RL的作用在于通過數萬次的試錯，篩選出能夠穩定維持長距離依賴的策略路徑。

另外，CMU研究指出，RL訓練存在三個階段。第一階段是“銳化”，僅提升已知路徑的概率；但隨著訓練深入，模型進入“鏈接（Chaining）”階段，開始將基座模型中原本概率極低的不對稱技能（如驗證與生成）鏈接起來，從而解決從未見過的難題。這說明RL不光在銳化，也確實能夠有效組合新的推理方法。

但學術界的這種形而上討論，沒能阻止業界的工程優化熱情。因為Benchmark的增長不會騙人。

強化學習的本質，就是通過與環境交互獲得反饋，在探索未知與利用已知之間尋找平衡，以最大化長期累積獎勵為目標，從而學習出一套最優的決策策略。因此，它的工程可以拆分成核心的三個策略，探索策略（采樣）、評分（包括評分標準和如何評分）和參數更新算法三個部分。

在2025年，強化學習的方法在其中兩部分中都得到了明顯的發展。而采樣的策略則還是集中在蒙特卡洛方法（一步一步尋找新分支）、暴力溫度采樣（調高模型的多樣性，采出多種可能）和在23年大火的STaR 模式（就是模型對自己的結論點評后，根據點評再找別的路）這三種方法上，不過25年，因為DeepSeek R1的成功，暴力溫度采樣明顯成了主流，因為工程簡單又能出不錯的結果。

評分系統的革新

在2025年首先發生的是基于可驗證獎勵的強化學習（RLVR）和稀疏獎勵指標（ORM）的全面崛起。

由于DeepSeek R1的成功，讓大家發現，只要給模型一個對錯結論作為獎勵信號，模型就可以自發探索其中的推理過程。這導致了ORM的崛起。

而在ORM領域，那些能夠明確給出結果對錯（可驗證的客觀真理）的領域，比如數學、代碼、邏輯等方面，強化學習就很好下手，效果也很容易得到提高。基于這些客觀真理形成的強化學習獎勵機制，就被稱為可驗證獎勵。在2025年前半年，RLVR（可驗證結果）+GPRO（分組探索解法）的方法突飛猛進，基本成了主流方法，也帶來了模型在代碼、數學領域的能力大幅提升。

然而，用的久了，大家發現如果像復雜數學、代碼這種推理過程過長的情況，那ORM很有可能會崩掉。所以有的公司會在其中加一部分過程獎勵評分系統（PRM）的因素，比如Qwen的代碼解釋器驗證，主打識別推理過程中的錯誤步驟。而防止ORM崩潰跑偏的KL正則理論也在今年有了更多的發展。

另一個問題就是RLVR是挺好用的，但不是所有領域都有可驗證的真假，比如在文學、乃至醫療這種更偏統計性的領域，目前就沒有完全的真假科研，那怎么辦呢？因此我們可能需要一個更宏大的Universal Verifier（通用驗證器），去解決這個問題。

目前已經有的兩個思路，一個外求法：既然標準不唯一，那就人工或者靠模型制定復雜的評分細則（Rubic），然后讓模型根據Rubic去進行獎勵。而另一個，是相信模型自己的直覺（內求法），利用模型自己的確信度去影響無明確獎勵的領域訓練。

比如Kimi K2的joint RL stage策略，就是把RLVR 和 self-critique rubric reward 結合起來做 RL。

參數更新算法的革新

DeepSeek R1帶來的第二個RL震蕩就是GPRO算法的流行。在過去，RL的主流方法是PPO，在這個框架里，有兩個角色，一個是Actor Model，負責寫答案。還有一個是Critic Model，來給演員的每一步打分。這個方法特別適合PRM，給每步都評分，但它非常貴，因為它得一直在線訓練，讓模型嘗試完了再在線打分。

但GPRO不一樣，它直接把Critic模型切掉了，讓模型生成一組答案，算平均分來代替 Critic，來看誰做的好，誰做的壞。一下子省下來50%的顯存，搭配ORM，更是極簡中的極簡。非常省成本，而且效果也不差。

因此，基本上國內各家都是在GPRO的框架上延展，在2025年這一年發展出了各種變體。比如Qwen的GSPO的優化引入了分值加權，不只看你是否高于平均分，還看你的絕對得分是多少，讓GPRO能夠從對的里選出更好的，把全錯的都排除出梯度，讓訓練更穩。Minimax的CISPO，則是發現傳統GPRO / PPO訓練的時候，會暴力截斷過長的COT上下文，導致核心思考沒辦法用起來，所以做了個重要性采樣，保留下更重的部分去更新。

除了這些特別具體的更新外，業界同時試圖找到強化學習的Chichila規律。

比如Meta的ScaleRL，就在多種消融實驗中發現RL的增長曲線其實有天花板。他們證明了RL性能與計算量之間不符合冪律（就是Scaling Laws那種算力越大，能力越大的模式），而是符合 Sigmoid 曲線的（起步難，中間猛，最后死活漲不動）。

這不是什么好消息，說明RL是有天花板的。我們不能指望靠 RL 無限提升模型的智力上限。它只能把模型已有的（預訓練賦予的）潛能“逼”出來，一旦逼到了 100%，RL 就失效了。想再突破，還得回去革新底座模型或者算法架構。

但好消息是，我們離天花板還遠著呢，還差著一堆工程創新。另外，基礎模型的能力提升也不是完全停滯的。

ScaleRL還提出了一套最佳工程實踐，包括使用長思維鏈（Long CoT）作為關鍵驅動力，以及使用大Batch Size（如2048 prompts）來觸達更高的性能天花板。這一研究將RL從“煉金術”轉變為一門精確的工程科學，使得研究者可以通過小規模實驗精準預測大規模訓練的效果。

所有這些對RL工程的探索，使得今年的模型，能夠在不增加參數的情況下，依然在整體能力上穩步上升。一次次打破ARC和Humans Last Exam的標尺，同時帶動了數學和代碼能力的大幅上升。

記憶與學習, 治愈模型的健忘癥

如果說Test Time Compute是前半年最重要的模型變革，那后半年最重要的模型變革，就是記憶能力的提升。畢竟，這是唯一一個在GPT-5時代，在AGI得分里還是0的分支能力，屬于短板中短板，漏水的大戶。

模型沒有記憶有啥問題？第一，沒有記憶能力的模型不可能在現實中自我學習，必須得在算力工廠里通過再訓練學習。這種再訓練昂貴，且訓練源可能與日常使用完全脫節，因此持續學習成了一個無比困難的事項。第二，想有個能記住你是誰，你的偏好的AI，就變得很費勁。比如我的Gemini 3，現在只依靠系統級的Prompt積累一點點關于我的記憶，但大半還是錯的。

在24年大火的RAG（檢索增強生成）雖然作為一種外掛式的“海馬體”緩解了這一問題，但它當時的形態只是資料庫和搜索機制，還很不好用。在25年，記憶問題的研究其實得到了很多發展，只是大多數出現在后半年，尚未真正被融合進工程。

記憶可以分為三種方式，上下文作為記憶、RAG處理過的上下文作為記憶以及將上下文融合到參數里，內化的進行記憶。難度層層遞進。

今年RAG和參數調整的記憶方式都發生了很大的科研進步，但其中最耀眼的是Google Research發布的 Titans 架構以及Nested Learning，是2025年記憶領域的最大突破，屬于架構級提升。從根本上挑戰了Transformer的無狀態假設。

我們現在一個個看。

模型，獲得活著的記憶

Titans 是一個深度的神經長期記憶模塊，能夠在測試時（即推理過程中）實時更新自身的參數。這和傳統的Transformer層，訓練完就凍結完全不一樣。Titans在一開始就是個空容器，就一個初始權重，將歷史信息學習進神經記憶中。和傳統的壓縮模式（Mamba）比，這種學習是無損的。

那怎么決定什么東西記憶，什么不記？靠驚奇度（Surprise Metric），模型會根據輸入信息的意外程度（梯度大小）來決定是否將其存入長期記憶。這和人差不多，越新鮮有沖擊的東西越記得住。

Titans是隨時更新權重的，這意味著還要做反向傳播和梯度更新，豈不是很貴嗎？確實，單看是很費GPU算力，但它一般是和普通Transformer層混用，只占一小部分，所以雖然但并不很重，而且可以省去巨量的上下文開支。

而且，它還可以將記憶作為額外的上下文輸入給注意力機制，如同一個高級助手，提供背景信息。通過門控機制融合短期注意力與長期記憶，處理更靈活，并行處理短時與長時依賴。這也可以提升模型本身的效率。

同時，Titans還引入了遺忘機制（Weight Decay），自動清理不再重要的信息。

如果說這是在不會記新東西的Transformer上加了一些記憶模塊補丁，那Nested Learning就是一個更宏大的架構改變。

在Nested Learning中，谷歌做了一個分層，把模型的架構分成了低、中、高三個更新頻率的神經網絡層。把整個模型的參數凍結都解放了，這個模型都是活的，可以隨時調整參數。低頻參數的調整很慢，大概需要16M token的前向更新才會調整一次。它保證了知識的延續性，避免了災難性遺忘。而快速的反饋則交給高頻的神經網絡層處理，這樣可以快速反應，做短期記憶。

于是我們就有了一個持續更新的，非凍結的神經網絡，它可以抱有長期記憶，并持續學習。而且因為更新頻率不高，且更新比較局部，其成本比一般的SFT、RL達成同等效果的成本還要低。

谷歌甚至還提出了一個更大的體系MIRAS，它把序列模型看成一個會邊讀邊寫的聯想記憶模塊。每來一個 token，你把它投影成 key 和 value；模型用當前記憶去“檢索/回憶”一個 value；然后用一個內部目標函數（attentional bias）和一個保留/遺忘約束（retention gate），通過某種在線優化/更新算法（memory learning algorithm）去更新記憶。Titans和Nested Learning，都屬于在不同層面上對MIRAS的嘗試。

這一調整，使得模型具備了持續學習和更新長期記憶的基礎。不過考慮到它對模型架構的改變，在工業大規模應用上可能還需要一定時間。

RAG模型化

之前，RAG曾被譏諷為圖書管理員，只增不減，照單全收。但2025年，它發生了質的飛躍，演變為具備反思與進化能力的系統，甚至可以在一定程度上產生如同參數般的效果。

這一波RAG改造浪潮中，比較有代表性的還是DeepMind 提出的 ReMem 和 Evo-Memory。

ReMem讓RAG不再是簡單的資料庫式的“檢索-生成”，而是通過一個Agent 引入了 Action-Think-Memory Refine 的全鏈路處理方法。在新上下文被存入記憶前，會有個Agent對其進行“內省”（Think），標記出哪些是無效步驟，哪些是關鍵策略。記憶過程中，模型還會對進來的上下文進行修剪（Pruning）和重組（Reorganizing），讓它更容易被檢索，保留最重要的信息。同時，模型會定期清理無用的記憶，甚至將失敗的嘗試作為“負面教材”存入，其效果等同于RLHF（人類反饋強化學習）的負向懲罰。

這一機制使得記憶不再是靜止的錄像，而是經過壓縮和提純的智慧。它存儲的更多是策略，使得模型在處理類似任務時能夠調用過往的成功經驗，實現了真正的經驗復用。

微調與蒸餾讓遺忘性災難不再存在

在2025年之前，災難性遺忘是參數記憶更新的最大敵人。模型用微調的方式做更新，很容易學了新的忘了舊的，通用能力受損；用強化學習做更新，不容易遺忘，但成本又太高。但在2025年，學術界提出了多種解決方案，讓模型在學習新知的同時不丟失舊能力。

比如 Meta 提出的Sparse Memory Finetuning (稀疏記憶微調)。它在Tansformer里加了一個百萬個獨立槽位的空白內存層。當新知識進入時，系統篩選出更不重要的、和核心舊知識相關性不高的槽位進行更新。這種稀疏更新策略，確保了在注入新知識的同時，絕大部分舊參數保持不變，從而完美保留了原有能力。實驗表明，在TriviaQA事實注入任務中，該方法僅導致11%的舊知識遺忘，遠優于全量微調的89%。

再如Thinking Machines 提出的在策略蒸餾（On-Policy Distillation, OPD），結合了 RL 的采樣方式和 SFT 的監督信號。訓練數據不再是老師的錄像，而是學生模型自己實時生成的軌跡。學生要在自己真實的“犯錯分布”中學習，這是RL的采樣方法。但它評估用的是SFT的密集反饋，老師模型會全程陪跑，在學生生成的每一個 Token 上都計算 KL 散度（即直接告訴學生你和我的差距在哪里），提供密集的即時反饋，而不是像 RL 那樣最后才給一個標量分數。這種方法創造了一種既不會導致災難性遺忘，同時也極大壓縮成本的參數更新方式。

兩條路徑，最終都導向了通過微調更新模型參數更穩定的路徑，這樣的話模型就可以更快捷、便宜的進行線下更新。夢想中的白天模型陪你說話，晚上你睡覺更新你的神經元連接，它微調更新它的參數，也許會變成可能。

走出“柏拉圖洞穴”，迎來空間智能 (Gv) 與世界模型

另一個在Bengio AGI定義2024年得分還是0的一項，就是視覺處理。在今年，這一能力在Sora 2、 Veo 3等生成視頻的爆發之下，得到了有效的提升。在Veo 3等模型能夠有效保持物體位置一致性的情況下，模型似乎開始有了對物理規律更深的掌握，進入到了空間智能和世界模型（World Models）的范疇。

雖然今年主要是李飛飛在大力宣揚空間智能的概念。但實際在這條路上，一共有三個主流派系和玩家，在今年也都各有研究進展。

自監督生成模型的Scaling Law

第一派就是Sora 2、Veo 3這些采用了DiT架構的自監督模型，也就是我們常見的視頻生成模型。

不過要論空間智能，2025年8月，Google DeepMind發布的Genie 3更明顯。Genie 3，是個生成的、可交互的、持續演變的3D環境。

與其前代相對破碎的呈現不同，Genie 3具有了實時性和一致性。它能以24fps的幀率和720p的分辨率實時渲染環境，且能維持數分鐘的場景一致性。

如果你在虛擬世界中打破了一個花瓶，當你轉身離開再回來時，花瓶碎片依然在地上，而不是像早期生成視頻那樣莫名消失或復原。

除此之外，Genie 3非常好的展現了自監督模型的物理學習能力。它完全沒有參考物理引擎，只是通過觀看海量視頻數據，自發學會了流體流動、光影反射甚至風吹樹葉的物理規律。

之所以視頻生成模型能夠獲得如此大的進步，主要是因為學術界發現了視覺自回歸（Visual Autoregressive, VAR）和擴散Transformer（DiT）的Scaling Law。

2024年，字節的Visual Autoregressive (VAR) 模型的提出，排除了Diffusion部分，通過改變token的建模，從行變成圖，讓自回歸獨挑大梁。因為是純自回歸，它的性能嚴格遵循Scaling Law。

但這個路子畢竟還是有點野。在25年的論文《Towards Precise Scaling Laws for Video Diffusion Transformers》，更主流的DiT也被發現符合Scaling Law，不過這個Law與LLM不太一樣。與LLM相對穩定的特性不一樣，視頻擴散模型對批量大小（Batch Size）和學習率（Learning Rate）表現出極高的敏感性。直接套用LLM的縮放定律會導致預測失效。

但用上特制的Scaling Law，DiT模型就可以大力出奇跡了。在對Veo 3成員的采訪中，Deepmind的員工就表示，訓練這么好，主要是打通了視頻生成的Scaling Law。

除此之外，今年視頻生成的另一個新變化就是加上聲音了。這主要歸功于谷歌一直堅持的原生多模態能力。

而且2025年4月，Apple Machine Learning Research發布了《Scaling Laws for Native Multimodal Models》發現，晚期融合架構（后臺多模態）相對于早期融合架構（原生多模態）可能存在一定上限上的劣勢。過去晚期融合模型通常表現出較高的樣本效率，就是我后面加一個圖像編碼器，就可以直接讓語言模型變成視頻模型，變化賊快。這意味著費力去訓原生多模態，得不償失。

但晚期融合模型在參數利用率上存在瓶頸，為了達到特定的性能水平，晚期融合架構得需要更大的模型尺寸來補償那個新加視覺編碼器帶來的表征限制，因此同等規模，上限更低。

另一個特別值得注意的動向，是VAE的消失。VAE你可以理解成視頻的壓縮器。一個視頻包含的信息過多，直接給模型，它就會崩潰，所以需要一個壓縮器去壓縮成模型可接受的信息密度。

但這么一壓縮，重構必然會導致高頻細節丟失，而且VAE是個獨立的模型，其生成的 Latent Space 與大語言模型（LLM）或多模態模型（VLM）的語義空間不對齊，訓練上非常麻煩。

2025 年 10 月快手的《Latent Diffusion Model without Variational Autoencoder》論文提出了 SVG 模型，通過直接用圖像理解模型代替VAE，統一語義空間，這個模式極大地提升了訓練效率（號稱提升 6200%）和生成速度。而且它的效果不僅沒有因為“快”而縮水，反而在多項核心指標上擊敗了現在的霸主 DiT（Diffusion Transformer）和 SDXL。

因為這個模式，有大一統的美，又有benchmark的美，應該很快就會成為主流。

符號主義的World Labs ：基于3D CV生成的世界

第二派就是斯坦福教授李飛飛領導的World Labs 派。這一派的特色就是，生成好，但要在一個固定的物理框架下生成。純粹自監督，太不可靠了。

他們在2025年11月推出了其首個商業產品Marble平臺。這是一個“大型世界模型”（LWM），旨在從多模態輸入中生成可探索的 3D 環境。與 Sora 輸出像素流（視頻）不同，Marble 輸出的是空間表示。

根據媒體分析，Marble 大概率是依賴 3D 高斯潑濺（3DGS）作為其渲染基元，并可能結合了神經輻射場（NeRF）的結構估計原則。當用戶輸入單張圖像或文本提示時，Marble 會估計場景的深度、光照和被遮擋的幾何結構。然后，它將這些 2D 信息“提升”為由數百萬個高斯“潑濺”（具有顏色、不透明度和縮放屬性的橢球體）組成的 3D 體積。

始終是放不下CV多年來世界構建的努力。

這種對傳統CV的應用，也體現在World Labs 提供的創作工具Chisel 上。它引入了神經符號（Neuro-symbolic）工作流。用戶可以使用粗略的幾何基元（盒子、平面）定義世界的“骨架”，以建立布局約束（例如，“我需要這里有一扇門，那里有一堵墻”）。生成模型隨后根據文本提示對這一結構進行“繪制”和細節填充。

比起Sora 生成的黑盒，Marble雖然不是很性感，但確實更穩定，更可控。也許World Labs這條路能是最早走通工業落地的方向。

預測即理解：V-JEPA 2與物理直覺

另外一派代表是Yann Lecun，他的特色就是極端的深度學習表征派。對于他，大家可能都或多或少聽說過，Lecun的觀點一直是：自回歸的生成式模型根本不可能掌握物理規則，只是鸚鵡而已。

那怎么掌握規則呢？靠預測。只有預測，能學習到物理規則的表征，而不是那些像素的關系表征。Meta推出的V-JEPA 2，訓練機制就是隨機遮住圖像的一部分（Masking），然后要求模型根據之前看到的畫面，預測被遮擋部分的內容，只練預測。然后，一個教師編碼器看到完整的視頻，根據這個幫學生，生成目標特征向量。

這種設計使得V-JEPA 2具備了極高的語義抽象能力。模型被迫學習場景中那些“可預測”的規律（如重力下落、剛體碰撞），而自動忽略那些“不可預測”的隨機噪聲（如光斑的閃爍、背景的紋理噪點）。在Yann Lecun的考慮中，這提取了因果本質。

這套理念其實并不新，和他2024年初發布的V-JEPA 1完全一致。但當時，V-JEPA 1 只用了100M左右的數據集做訓練，其效果只能是理解視頻，并不能展現出反事實預測的能力。但在V-JEPA 2里，Lecun優化了訓練過程，用了100萬+ 小時的視頻訓練集，結果模型確實涌現出了“推演”的能力。在V-JEPA 2-AC（動作條件化）變體中，JEPA模型確實做到了可以預測“如果我執行這個動作，世界會變成什么樣”。

這毫無疑問，是對這個路徑的一劑強心針。說明預測，掌握物理規則這個訓練模式是有效的。不過到了JEPA 2，它能夠處理的時間跨度也不過64幀（根據采樣規律，約10秒），分辨率只有384x384。和人家生成路線高清2k、20s生成比起來，還是差太多。想要真正實用，還得在工程上做不少事。

重要的是學習

從深度學習肇始，核心問題就只有一個，即什么是學習。到2024年為止，大模型早已經具有了很多學習能力，能夠從海量數據中尋找到數據的鏈接方式，進而達成一種與人不同的學習模式。然而，在2025年，強化學習之父 Richard Sutton 依然批評當前的大語言模型（LLM）只是“被凍結的過去知識”，缺乏在與環境交互中實時學習的能力。這是說模型缺乏持續學習的能力，這個問題在上面記憶部分有可能會得到解決。

Sutton的另一個批評就是模型并不會元學習，即學習怎么去學習，學什么東西。他所謂的元方法（Meta-methods），指的就是“在這個時刻不要把知識寫死，而是把‘獲取知識的能力’寫進代碼里”的方法。只有這樣，模型才能利用無限的算力和數據，去適應無限變化的世界。

只有有元學習的能力的模型，才能在遇到新問題時，通過很少幾個樣本，調動腦子里的“通用解題邏輯”（元知識），立刻做出解答，做到真正的低成本、快速適應。并通過“如何觀察特征、如何歸納特征”的能力，迅速歸納出規則達成完整的動態泛化。

沒有元學習，模型就不可能應對未知。因為你無法預知未來會遇到什么任務，所以你不能預先訓練它，只能賦予它現場學習的能力。

元學習與中訓練

在2024年之前，學術界一直有關于當時模型是否具有隱式元學習能力的討論。很多人都認為是有的，因為存在著上下文學習（In-Context Learning）的現象。因為我們不改動參數，只是給 GPT 看了幾個例子（Prompt），它就像學過了一樣能夠舉一反三。

對此，包括Anthropic在內的研究機構，都提出Transformer中的注意力機制在數學形式上，與模型學習時梯度下降（Gradient Descent）的更新步驟非常類似。Deepmind的論文，更是證明對于線性注意力模型，Transformer 的前向傳播過程可以被嚴格推導為「在大規模預訓練學到的權重上執行梯度下降」的過程。

但同樣，也有很多研究，證明上下文學習其實沒在新學習例子中給出的映射關系，只是在自身的概念空間里，利用格式（Format）激活了預訓練期間早就記住的知識。就是說激活了相關性而已，不是真在學，而是在套模版。

這和我們所提到的元學習的理念大相徑庭。

不過，在2025年12月份，蘇黎世理工還發表了一篇Meta RL的論文，設計了更好的上下文框架，更有效的利用ICL來作為一種元學習的方式。讓模型通過上下文自我反思和歷史回溯，來形成新策略。在下一次嘗試中，Agent 實際上是在執行一個新的 Policy ，因為上下文變了。它看起來和上面提到的谷歌的ReMeM很像，但更關注策略更新，而非上下文管理。也許他們結合起來，才是最好的上下文作為權重的方法。

但最大的改變，是TTC的到來，為隱式元學習提供了其他的可能。在推理革命初期，大家都發現可能模型思考了很長時間，輸出了很長的思維鏈，但要么沒用，要么都是錯的。所以不是思維鏈越長模型就越強。我們得引導它的思維過程，讓它在最短的思維中，達成最優解。這其實本質上就是一種訓練模型如何思維的元學習。

卡耐基梅隆的研究《Optimizing Test-Time Compute via Meta Reinforcement Fine-Tuning》就是在這個方向上的嘗試。

它先證明了，模型在推理時生成的長 CoT，本質上是一個 Agent 在思維空間里探索最優路徑。那如果這種探索可以做到更有效，其實就是一種元學習的能力。這種元學習，就是引導模型在推理過程中，能夠有效尋找最佳路徑，合理分配算力。他們使用的策略是累積遺憾最小化（Cumulative Regret）。如果模型多思考了很多步，但答案的置信度沒有提升，這就是個遺憾，需要在后續規避。我們在做強化學習的時候，應該引導模型去盡可能減小遺憾發生的可能，讓模型知道遇到這種難度的題，我應該調用多少算力、嘗試幾條路徑。這就是學習的方法。

但這些方法，雖然比單純的上下文學習走的遠，但仍然局限在優化已有的探索路徑這個層面，向外探索的能力仍然不足。我們可能仍然需要在單純的梯度之外，搭建一套顯式的系統，去引導模型學會學習。

比如DeepMind 今年發表DiscoRL，它包含兩個核心閉環：內部循環由Agent在Atari等游戲環境中試錯，外部循環則由“老師”通過反向傳播觀察學生的表現，不斷修正教學策略（即更新學習算法的參數）。這一過程讓AI自主發現了想要得到最好的結果，得從“獎勵最大化”轉向“未來預測”，而且這些預測往往集中在重大事件（如Ahamoment和改變方向）發生之前。在這一過程中，教師獨立“重新發現”了RL中的自舉法，證明了AI可以通過這種遞歸的抽象從純粹經驗中真的學習到應該如何去探索。

實驗結果顯示，由該系統自主發現的算法（Disco57）不僅在雅達利基準上擊敗了包括MuZero在內的人類設計頂級算法，更展現了驚人的泛化能力。即便是在未見過的ProcGen和NetHack等復雜環境中，它依然表現出色，證明其學到的不是單一游戲的技巧，而是普適通用的學習法則。

Meta在《Agent Learning via Early Experience》的中訓練嘗試，其實也殊途同歸的走向了一樣的路徑。預訓練是讓AI死記硬背專家的正確操作，RL是直接扔到現實世界里依靠稀缺的獎勵摸爬滾打。而中訓練，就是在這之間讓Agent自己瞎折騰產生后果，并且反思。

具體到操作層面，在專家演示的每一步，會強制AI嘗試幾種不同的“備選動作”，然后記錄下這些動作會讓環境變成什么樣。同時，還要對為什么專家做得好，我做的不好進行反思。這其實就是訓練AI不僅僅知道“怎么做是對的”，而是建立起“如果我這樣做，世界會那樣變”的因果模型。

在一種探索和嘗試，以及對嘗試經驗的遞歸中，模型也許確實學會了如何去學習這個世界的規律。它能顯著提升其在WebShop、ALFWorld等復雜環境中的成功率（平均提升9.6%），并大幅增強了泛化能力。

這幾種方法有一個共性，即他們都掌握了“想有效探索，必須建立起一個對世界的預測”的想法。這和谷歌《General Agents Need World Models》一文的結論不謀而合。

神經科學的投影

2025年的神經科學研究，讓我們可能能更理解人類是如何進行學習的。過去我們認為神經網絡是一個混雜的“黑盒”，但在《Building compositional tasks with shared neural subspaces》這篇論文證明了大腦內部存在著結構化、正交化的神經子空間。這些子空間就像是物理層面的“符號”，它們將“顏色”、“形狀”、“動作”等概念從混沌的電信號中剝離出來，形成了獨立的、可復用的模塊。

研究發現，大腦執行新任務不是靠修改神經元的連接（長出新腦細胞），而是靠一種“動態路由”機制。前額葉皮層根據當前的“任務信念”，像接線員一樣將不同的神經子空間重新連線。其實人類在學習過程中，是將簡單模塊拼裝成新任務來去行動的。

今年哈佛的論文《WHAT DOES IT MEAN TO UNDERSTAND LANGUAGE?》則認為大腦的“語言區域”其實并不負責真正深刻的理解，它只是做了一些表層的處理，然后必須把信息“外派”給大腦的其他專門區域（比如負責視覺、社交、物理推理的區域），才能實現真正的“深度理解”。

在這種理解之上，2025年涌現出了很多對模型進行分區的嘗試，包括上面提到的記憶分區，或者把模型的參數分成專門處理快、慢反應的兩個組別的嘗試。

讀寫速度、注意力和Scaling Law的基礎

以上四個部分，可以說是2025年最引人注目的四個進步。因為它們在AGI的量表中，都是一步步覆蓋到原來完全為0的新領域上。從零奠基，范式革新。

然而在這之外，2025年也有其他一些重要改變，有效的補齊了過去模型并不擅長的領域（比如上下文和處理速度），并且可能隱含著一些訓練范式上的大規模修正可能。以下我們就通過一章，快速覆蓋一下這些領域。

對抗“Scaling Law的消失”

就像文章開頭所寫，在2024年末時，GPT 4.5已經遇到了互聯網數據枯竭的問題。而且在訓練超大型稠密模型的工程難度也幾何增加，問題不斷。

Scaling Law眼看難以為繼之時，OpenAI 在 GPT-5.2 中并未繼續盲目擴大參數，而是靠稀疏性（Sparsity），即MoE、合成數據（Synthetic Data）與 RL加強三方結合，突破瓶頸。

MoE，是DeepSeek 一直采用的方法，在V3成功之前，業內很少有人使用。但它確實具有訓練資源消耗少的特征（一次訓整個模型 vs 一次只訓部分專家），因此，大規模稠密模型帶來的工程問題在一定程度上被解決。

而強化學習和測試時時間，讓模型可以繞開參數的Scaling Law，用上面說到的RL的Scaling Law繼續提升能力。

但數據怎么辦？

在2025年，隨著推理能力的進步，模型現在已經可以自主生成長思維鏈（COT）文本了。DeepSeek R1的論文表明，利用DeepSeek-R1生成的長思維鏈對小模型進行微調，其效果遠超使用人類專家編寫的CoT數據。因此，到此時合成數據的問題已經被解決了一半。

另外，2025年也有很多證據證明，數據在精，不在多。而且質量最好的就是長COT數據。

芝加哥大學團隊的實驗數據表明，當數據量達到一定規模后，信息大多是重復冗余的，訓練效果反而不好。與其盲目追求P數據量，不如通過去重和多樣性篩選來降低數據密度，加強單位數據的“驚奇度”（Surprisal）。

而且最有驚奇度的在現階段正是長COT。在他們的實驗Select2Reason中，僅僅篩選出前 10% 推理路徑最長、最復雜的樣本進行訓練，其效果就匹配甚至超越了全量數據集。

因此，長COT文本合成數據，已經成了翻越數據墻的一種最有希望的方式。

但2025年10月的一篇熱點研究發現，模型在大規模使用合成數據，包括互聯網上流行的AI生成數據后，會發生“腦損傷”，也就是遞歸（持續用自己推導自己）導致的模型崩潰（Model Collapse）。一方面模型的長尾泛化能力下降，另一方面，模型會持續放大過去生成的錯誤，盲目自信。

不過該研究并沒有單獨拎出來長COT文本數據做范例。

好在這并非必然。南洋科技大在NeurIPS 2025的論文中，就建立了一種利用自我驗證機制過濾數據的方法。在生成合成數據后，模型會計算其內部置信度分數。如果分數低于某個閾值，說明模型對該生成內容存疑，那這些數據就要被丟棄。

他們的數據證明，只要模型的校準誤差在一定界限內，僅憑自我驗證就可以在完全合成（Fully Synthetic）的數據體制下，讓模型一直訓練下去，而不會崩潰。

在2025年，科研界也發明出了更復雜的方法做清洗。比如利用另一個模型作為裁判（LLM-as-a-Judge）去搭建一個數據清洗流，保證其可驗證性和效果。甚至有意識的讓Agent去生產模型知識空間中的空白（Missing Nodes），以解決遞歸帶來的多樣性喪失。

感謝蒸餾，我們也許不必再承擔推理慢的代價了

Gemini 3 Flash在年底的橫空出世，讓人對小模型的能力提升有了非常直觀的感受。

在Gemini 3 Flash之前，雖然Nvidia一直鼓吹小模型時代，微軟的Phi 4、谷歌的Gemma 3等小模型也表現不俗，但沒有任何一家的小模型能夠真正替代自家主流模型成為日常主力模型。

所以2025年這一年到底發生了什么，讓小模型突飛猛進？主要是蒸餾方法的兩大主要的進步：MoE的蒸餾，以及對COT的蒸餾上。

先說MoE蒸餾。在DeepSeek的帶領下，現在主流的模型都是用MoE的架構了。但之前的傳統的蒸餾方法往往忽略了那些未被路由選中的專家（Non-activated Experts）所蘊含的“暗知識”。

2025年2月的論文《Every Expert Matters》就提出了針對 MoE 的特化蒸餾方案。該方法在蒸餾過程中，通過多次采樣或強制激活策略，讓學生模型接觸到教師模型中不同專家的組合輸出。這樣學生模型（通常是更小的稠密模型）不僅學習到了“最優解”，還學習到了不同專家對同一問題的不同視角。這類研究，給出了MoE蒸餾的工程方向。

另一個難題就是將長思維鏈能力高效遷移到小模型。傳統的單教師蒸餾處理長序列推理中的誤差累積問題非常不力，并不適合長COT的蒸餾。而簡單的將多個教師的數據混合（Data Union）往往會因為推理路徑的沖突而導致模型困惑，反而降低了性能。

為了能應對這個情況，思維融合蒸餾（Merge-of-Thought, MoT）應運而生。這是一種輕量級的、迭代式的蒸餾框架，通過共識去噪（Consensus Denoising）原理，讓多個教師可以有效的引導學生模型，還可以避免長序列推理的誤差積累。

比如在解決同一個復雜數學或邏輯問題時，不同教師的表達各異，但其核心的推理邏輯往往是相似的。就那干脆在高維參數空間中，讓學生模型能夠提取出所有教師的“公約數”，即最穩健的推理邏輯。

通過這兩種方式，加上長COT本身對蒸餾的增強作用，讓小模型的能力越來越強。也許有一天，我們甚至不用犧牲推理帶來的速度減緩，就能享受到完整的智能體驗了。

注意力機制的變化，解放上下文

每一年，注意力機制都會有些新突破。畢竟這是自回歸框架下最重要的機制之一，它深度影響了大模型的上下文能力和指令遵從能力。2025年的變化相對比較多樣。

如果說2024年之前是MHA（多頭注意力）的時代，那么2025年則是MLA（Multi-Head Latent Attention，多頭潛在注意力）及其變體全面普及的時代。

從DeepSeek從V3開始采用MLA架構后，它就開始大受歡迎。畢竟既能壓縮大量降低顯存占用，又能保持了原有注意力機制的水平，多好。而且在推理COT越來越長的背景下，的KV Cache顯存爆炸問題更嚴重，MLA 就更加流行。

不過在發展過程中，MLA現在很少是作為一個獨立的注意力層被應用，而是更多地作為一種“高性能組件”被嵌入到混合架構中，給其他更高效的注意力新方法做精度保底。

2025年的另一個變化是線性注意力的復歸。長期以來，線性注意被視為全注意力的一種“有損壓縮”妥協方案，它用精度的下降換取推理速度。但在2025年，隨著Kimi Linear的發布，這一刻板印象被徹底打破。

Kimi Linear采用3:1混合架構（3層線性穿插1層MLA），利用線性注意力層承擔主要的計算負載（節省75% KV緩存），再利用MLA兜底全局信息，實現了在1M超長上下文任務（RULER測試）中達到94.8的高分，性能上首次全面超越全注意力。這標志著線性注意力現在又了從備胎轉為主力的實力。

除此之外，Kimi還證明了線性注意力可以內在地學習各個token的位置信息，從而不再需要傳統的RoPE（旋轉位置編碼），在1M上下文解碼時，少了ROPE和N方的計算量，它的吞吐量可以達到全注意力的6.3倍。

除了在傳統的Token層面優化注意力，2025年的另一個重要趨勢是打破離散Token的限制，向連續空間（Continuous Space）演進。這以“大型概念模型”（Large Concept Models, LCM）和騰訊的CALM（Continuous Autoregressive Language Models）為代表。

傳統的LLM只預測下一個token，因此非常慢，且對于長文本概念的關聯性理解也不行。Meta的Large Comcept Moedel 則試圖將多個Token壓縮為一個連續向量，從“預測下一個詞”轉變為“預測下一個概念向量”。這增加了每個生成步驟的“語義帶寬”，在一次推理步驟中生成相當于原來4倍的信息量，理論上能讓模型訓練和推理的更快。

這個邏輯很好，但在LCM提出時，因為壓縮token向量的工程化問題，其訓練效率并沒有比傳統方法提升太多。但今年10月，騰訊的CALM才第一次在工程上找到了平衡點，用更極簡的方式證明了這條路徑的工業可行性。

2026，模型研究可能向哪里走？

了解完2025年模型的進步路徑后，我們大可以暢想一下明年可能出現的一些研究方向。首先，我們上面提及的這些方向，毫無疑問會朝著更精細化和工程化的方向演進，進而給我們帶來模型體驗上的持續提升。從2025年的技術總結中，我們已經可以看到，幾乎所有重要的Scaling Law繼續發威的絆腳石都被搬的七七八八了。也正是因此，我們才在年末迎來了Gemini 3和GPT 5兩個確實提升明顯的新模型。

雖然像Test Time Compute這類范式革新性的創新是難以預測的，但有些已有苗頭的新方向很可能會在2026年結果，產生很重要的落地應用。我下面會羅列一些我認為可能會發生的技術推進方向。

記憶的工程化實踐

2026年，一定是一個記憶大年。

因為記憶事關持續學習，事關Agent落地（個性化和新技能學習），如果理論上的方向已經明確，那除了工程上的難題外，基本沒有什么可以阻止它落地。

在AI領域，我們以TTC革命為例子，可以看到一個復雜的系統性新想法從產生、實驗、工程落地，大概需要的時間是2年左右。2024年末的GPT o1，實際上在22年左右，已經在Illya腦海中逐步成型，到方法確定和工程優化，大概用了整整兩年。

在2025年，我們看到了從RAG、微調到架構上三種路徑上的思考都逐步邁向成熟，并且已經進行了小規模的實驗。這說明很可能再有一年時間，這些研究成果就可能在工程上成熟，被采用。在一個成功架構（比如像DeepSeek R1）的推動下，成為標配，完成范式轉換。

即使做不到架構層的變化，RAG層的精修和SFT技術的優化，也可以讓之前那些實驗性的記憶系統，比如Mem0、Second Me有了更好的落地體驗。

在2025年中，基本上主流模型都已經配置了基于上下文的記憶系統。但在2026年，更細節，更具有學習性的記憶將會逐步被產品化。

標準架構的變革

不論是Nested Learning、還是元學習，以及Universe of Thought，似乎都在證明著，我們當下的語言模型架構必須進行一些升級，才可能補全其缺失的能力。

這種升級的趨勢主要以分區、分層、增加更多功能層為特質。不管是直接在層級間加入Titans 的記憶層，還是像Herachical Reasoning 那樣，把模型分為不同的分區，都可能更符合人腦運作的模式。

在2026年，這種潛在的混合架構，可能會隨著神經學和符號主義的回潮，變得有更多更豐富的嘗試。

進化的螺旋開啟

2025年除了推理這個詞之外，最熱門的應該就是自進化了。這是機器學習的圣杯。一個可以無限自我對弈、自我進化的通用型AI，基本就等于是AGI、ASI。

不過在2025年，探索才剛剛起步。在這一年里，有借鑒了生成式對抗網絡，讓模型能夠在無數據的情況下，自問自答進行強化學習的。這條路確實走的通，也確實是自進化，但它的上限依然受制于模型本身的預訓練能力，暫時沒有呈現出超過人工設計的后訓練的水平。

自進化AI的另一個驗證方法是是否能發明出讓自己進化的算法。這就是Alpha Evolve努力的一個方向。

它是由系統使用Gemini Flash（追求速度）和Gemini Pro（追求深度）組成的模型集成，形成一個個獨立的探索Agent。系統將當前表現最好的算法代碼作為上下文輸入LLM，并告訴這些Agent，去優化這段代碼的某些具體方向。LLM由此生成多個變異版本的代碼。在Agent規則的限制下，這些變異一般是邏輯層面的重構，例如改變循環結構、引入新的數學技巧或調整數據結構。生成的代碼會被放入沙箱環境中執行。系統通過預定義的測試用例驗證其正確性（Provable Correctness），并通過性能分析器測量其效率（如延遲、吞吐量或指令數）。那些既正確又更高效的算法將被保留，成為下一代的父本。由此，持續的多次優化，最終帶來算法的最優優化。

在實踐上，Alpha Evolve確實找到了優于人類答案的優化算法。

不過，我們其實可以把Alpha Evolve看成Deep research的變體版本，只是把搜索部分替換成優化而已。在缺乏反思和內化，只是作為流程Agent存在的大模型，雖然確實可以找到進化算法，但很難稱之為自進化。

以上兩種比較有代表性的嘗試，其實都屬于自進化早期的嘗試。

在記憶、合成數據、元學習的模式完善之后，自進化的AI在2026年必然會產生更多的可能性。

以下為各章設計的論文索引，如有興趣可深入取用：

Part I TTC革命

● The Art of Scaling Reinforcement Learning Compute for LLMs（文中 “ScaleRL / Sigmoid 曲線”）

https://arxiv.org/abs/2510.13786 ([2510.13786] The Art of Scaling Reinforcement Learning Compute for LLMs)

● Group Sequence Policy Optimization (GSPO)（文中 Qwen 的 GSPO / GSPO 類）

https://arxiv.org/abs/2507.18071 ([2507.18071] Group Sequence Policy Optimization)

● MiniMax-M1: Scaling Test-Time Compute Efficiently with Lightning Attention（文中 MiniMax、以及 CISPO 出處）

https://arxiv.org/abs/2506.13585 ([2506.13585] MiniMax-M1: Scaling Test-Time Compute Efficiently with Lightning Attention)

你文中提到的 CISPO，在這篇 MiniMax-M1 論文里作為其 RL 算法之一出現。 ([2506.13585] MiniMax-M1: Scaling Test-Time Compute Efficiently with Lightning Attention)

Part II. 記憶力

● Titans: Learning to Memorize at Test Time

https://arxiv.org/abs/2501.00663 (research.google)

● MIRAS 框架（Miras 作為統一記憶/序列模型設計框架）

論文：It’s All Connected: A Journey Through Test-Time Memorization, Attentional Bias, Retention, and Online Optimization

https://arxiv.org/abs/2504.13173 ([2504.13173] It's All Connected: A Journey Through Test-Time Memorization, Attentional Bias, Retention, and Online Optimization)

● Nested Learning（ Nested Learning / Hope / “多更新頻率層級”相關）

https://arxiv.org/abs/2512.24695 ([2512.24695] Nested Learning: The Illusion of Deep Learning Architectures)

● Evo-Memory（含 ExpRAG 與 ReMem：Action–Think–Memory–Refine）

https://arxiv.org/abs/2511.20857 ([2511.20857] Evo-Memory: Benchmarking LLM Agent Test-time Learning with Self-Evolving Memory)

● 稀疏記憶微調（Sparse Memory Finetuning）

論文：Continual Learning via Sparse Memory Finetuning

https://arxiv.org/abs/2510.15103 ([2510.15103] Continual Learning via Sparse Memory Finetuning)

Part III. 空間智能

● Towards Precise Scaling Laws for Video Diffusion Transformers（DiT scaling law、對 batch/lr 更敏感”）

https://arxiv.org/abs/2411.17470 ([2411.17470] Towards Precise Scaling Laws for Video Diffusion Transformers)

● Visual Autoregressive Modeling (VAR): Scalable Image Generation via Next-Scale Prediction（ VAR）

https://arxiv.org/abs/2404.02905 ([2404.02905] Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction)

● V-JEPA 2: Self-Supervised Video Models Enable Understanding, Prediction and Planning（ V-JEPA 2 / 預測式世界表征）

https://arxiv.org/abs/2506.09985 ([2506.09985] V-JEPA 2: Self-Supervised Video Models Enable Understanding, Prediction and Planning)

● Scaling Laws for Native Multimodal Models

https://arxiv.org/abs/2504.07951 ([2504.07951] Scaling Laws for Native Multimodal Models)

● Latent Diffusion Model without Variational Autoencoder（無 VAE / SVG”）

https://arxiv.org/abs/2510.15301 ([2510.15301] Latent Diffusion Model without Variational Autoencoder)（可選：后續擴展版）

● SVG-T2I: Scaling Up Text-to-Image Latent Diffusion Model Without Variational Autoencoder

https://arxiv.org/abs/2512.11749 ([2512.11749] SVG-T2I: Scaling Up Text-to-Image Latent Diffusion Model Without Variational Autoencoder)

Part IV.重要的是學習

●Why Can GPT Learn In-Context? Language Models Implicitly Perform Gradient Descent as Meta-Optimizers

https://arxiv.org/abs/2212.10559 （[2212.10559] Why Can GPT Learn In-Context? Language Models Implicitly Perform Gradient Descent as Meta-Optimizers)

●Transformers Learn In-Context by Gradient Descent

https://arxiv.org/abs/2212.07677 ([2212.07677] Transformers learn in-context by gradient descent )

●In-context Learning and Induction Heads

https://arxiv.org/abs/2209.11895 ([2209.11895] In-context Learning and Induction Heads)

●Meta-RL Induces Exploration in Language Agents

https://arxiv.org/abs/2512.16848 (https://arxiv.org/abs/2512.16848)

●Optimizing Test-Time Compute via Meta Reinforcement Fine-Tuning

https://arxiv.org/abs/2503.07572 (https://arxiv.org/abs/2503.07572)

●Discovering state-of-the-art reinforcement learning algorithms

https://www.nature.com/articles/s41586-025-09761-x (https://www.nature.com/articles/s41586-025-09761-x?utm_source=openai)

●Agent Learning via Early Experience

https://arxiv.org/abs/2510.08558 ([2510.08558] Agent Learning via Early Experience)

●What does it mean to understand language?

https://arxiv.org/abs/2511.19757 ([2511.19757] What does it mean to understand language?)

●Building compositional tasks with shared neural subspaces

https://www.nature.com/articles/s41586-025-09805-2 (https://www.nature.com/articles/s41586-025-09805-2?utm_source=openai)

●DynamicMind: A Tri-Mode Thinking System for Large Language Models

https://arxiv.org/abs/2506.05936 ([2506.05936] DynamicMind: A Tri-Mode Thinking System for Large Language Models)

Part V . 其他進展 合成數據部分

● Scaling Laws Revisited: Modeling the Role of Data Quality in Language Model Pretraining

https://arxiv.org/abs/2510.03313 (research.google)

● LLMs Can Get “Brain Rot”!（“腦損傷/brain rot”論文）

https://arxiv.org/abs/2510.13928 (research.google)

● Self-Verification Provably Prevents Model Collapse in Recursive Synthetic Training（ NeurIPS 2025 / OpenReview 那篇）

https://openreview.net/forum?id=X5Hk8aMs6w (research.google)

PDF：https://openreview.net/pdf?id=X5Hk8aMs6w (research.google)

蒸餾部分

● Every Expert Matters: Towards Effective Knowledge Distillation for Mixture-of-Experts Language Models（你文中《Every Expert Matters》）

https://arxiv.org/abs/2502.12947 ([2502.12947] Every Expert Matters: Towards Effective Knowledge Distillation for Mixture-of-Experts Language Models)

● Merge-of-Thought Distillation (MoT)（你文中“思維融合蒸餾 MoT”）

https://arxiv.org/abs/2509.08814 (research.google)

● On-Policy Distillation / GKD（你文中 OPD 類“學生自采樣 + 教師逐 token KL”最接近的公開論文錨）

論文：On-Policy Distillation of Language Models: Learning from Self-Generated Mistakes

https://arxiv.org/abs/2306.13649 ([2306.13649] On-Policy Distillation of Language Models: Learning from Self-Generated Mistakes )

說明：你文里提到的“逐 token KL、密集反饋、比 RL 便宜”的敘述，學術上最接近這條 On-Policy Distillation / GKD 線。([2306.13649] On-Policy Distillation of Language Models: Learning from Self-Generated Mistakes)

注意力部分

● Kimi Linear: An Expressive, Efficient Attention Architecture（ Kimi Linear、3:1 混合、1M 上下文、吞吐提升等）

https://arxiv.org/abs/2510.26692 ([2510.26692] Kimi Linear: An Expressive, Efficient Attention Architecture)

● CALM：Continuous Autoregressive Language Models（騰訊 CALM）

https://arxiv.org/abs/2510.27688 ([2510.27688] Continuous Autoregressive Language Models)

● Large Concept Models: Language Modeling in a Sentence Representation Space（ LCM）

https://arxiv.org/abs/2412.08821 ([2412.08821] Large Concept Models: Language Modeling in a Sentence Representation Space)

（可選補充：概念/連續概念混合方向）

● LLM Pretraining with Continuous Concepts (CoCoMix)

https://arxiv.org/abs/2502.08524 ([2502.08524] LLM Pretraining with Continuous Concepts )

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.