網易首頁 > 網易號 > 正文申請入駐

大模型的第一性原理：（一）統計物理篇

2025-12-11 18:12:41　來源: 機器之心Pro

北京舉報

分享至

機器之心發布

作者：白鉑博士

白鉑博士，華為 2012 實驗室理論研究部主任信息論首席科學家

2022 年底，ChatGPT 橫空出世，其能力震驚了整個世界。2024 年底，DeepSeek 以極低的訓練成本和極高的性能再次震驚了世界。短短幾年間，大模型瘋狂迭代，能力不斷提升，僅在美國，AI 領域的投資規模便超過了許多國家全年的 GDP！2025 年底，Google 強勢推出 Gemini 3，模型能力突飛猛進，TPU 訓練范式也對英偉達的生態發起了顛覆式挑戰。

業界普遍認為 Gemini 3 是邁向通用人工智能（Artificial General Intelligence，AGI）和超級人工智能（ASI，Artificial Super Intelligence，ASI）的關鍵突破，是人類和機器合作的驚人之作。然而，正如 Ilya Sutskever 于 11 月 26 日的訪談中指出：大模型 Scaling Law 和摩爾定律一樣，遲早會因為物理限制而失效。因此，如何打開大模型訓練的煉丹爐，看清黑盒子背后的基本原理，回答大模型是否已逼近其能力極限就成為迫在眉睫的問題了。但是，前人對大模型的理論研究一直停留在單一維度，使得人們只能看到大模型背后原理的冰山一角，對黑盒子的理解也失之片面。

11 月 3 日，我們在 arXiv 上掛出了一篇論文 Forget BIT, It is All about TOKEN: Towards Semantic Information Theory for LLMs [1]。該研究將統計物理、信號處理和信息論三者有機結合，系統地總結了對大模型背后數學原理的思考和理解，期望給全面揭示大模型的第一性原理帶來曙光。過去一段時間，我們在以下的學術會議上分別報告了這方面的工作：

11 月 2 日：中國電子學會第 32 屆信息論學術年會
11 月 15 日：中國工業與應用數學學會第 3 屆信息通信數學及應用大會
11 月 17 日：The 2nd Conference-School on Tensor Methods in Mathematics and Artificial Intelligence Computing
11 月 29 日：福州大學圖論與組合研討會

會上和專家、學者們有很多互動，也收到了不少有價值的反饋。同時也將論文發給了一些海內外的專家、學者們，也收到了不少意見和建議。但是，原論文涉及的領域很多、概念體系復雜，加之寫法上很學術，因而比較晦澀難懂。

為了便于理解，這里嘗試用通俗易懂的語言寫一個文章系列來解讀這篇論文，其中一些內容也是原論文沒有包含的。預計至少包括以下三篇文章，每一篇圍繞一個專題展開：

大模型的第一性原理：（一）統計物理篇，主要內容和結論包括：

Attention 模塊和 Transformer 架構都可以用統計物理中的能量模型來描述，因而推理是輸出能量函數最小的下一個 Token；而訓練則是逼近平均能量函數最小的參數組態；
大模型的記憶容量隨著模型參數的線性增加而指數增長，因而小模型也可以具備很強的能力，但由于記憶容量的限制，小模型增訓很容易導致模型崩塌；
大模型泛化誤差上界的核心參數是 Logits 的絕對值的和，因而模型縮減，如剪枝、蒸餾和量化等，必須謹慎的控制對 Logits 的影響；
大模型的能力極限是時間序列維度的 Granger 因果推斷，因而 Scaling Law 還會延續，但不會產生真正的符號化、概念抽象和邏輯推理能力。

大模型的第一性原理：（二）信號處理篇，主要內容和結論包括：

大模型的輸入是向量化的 Token 序列，因而可將基于概率統計的自然語言處理問題轉化為易于數值計算的信號處理問題；
向量內積描述了 Token 之間的語義相關性，因而 Gromov-Wasserstein 距離是天然的語義向量空間距離，Johnson-Lindenstrauss 引理和壓縮感知等技術可用于語義壓縮 / 降維；
大模型的目標是預測下一個 Token，因而可以用倒向定向信息為優化目標來實現信息論意義下最優的 Token 向量化；
Transformer 是時變向量自回歸時間序列，它建模的是作為時間序列的自然語言，因而預測下一個 Token 是時間序列維度的 Granger 因果推斷。

大模型的第一性原理：（三）信息論篇，主要內容和結論包括：

大模型的信息論抽象是有狀態、帶反饋的信道，因而符合該抽象的任何結構（不一定是神經網絡）都能達到相同的效果；
大模型的端到端性能指標以定向信息為基礎，包括預訓練階段的定向速率 - 失真函數、后訓練階段的定向報酬 - 失真函數和推理階段的定向信息密度，因而只要將核心概念從 Bit 轉換為 Token 就可以在 Shannon 信息論的框架下研究大模型；
大模型在推理階段可以定義語義信息容量，因而上下文工程（或提示詞工程）的信息論本質就是通過優化上下文的概率分布來逼近語義信息容量，這與信道編碼逼近 Shannon 容量的思想一致；
定向信息是 Granger 因果強度的測度，因而統計物理、信號處理和信息論三個維度共同印證了大模型的能力極限是時間序列維度的 Granger 因果推斷。

需要指出，我們的研究并不是要否定大模型的重要價值，它是一個非常強大的工具，當前形態就能極大提升人們整合和處理信息的效率，這是誰也無法否認的。我們想要探討的是當前大模型的第一性原理，從而界定其能力極限，并探討面向未來的技術路徑。

神經網絡與統計物理

2024 年諾貝爾物理學獎授予了 John Hopfield 和 Geoffrey Hinton，頒獎詞為：For foundational discoveries and inventions that enable machine learning with artificial neural networks。許多人不太理解，甚至一些 AI 領域的人也認為諾貝爾獎開始蹭熱點了。但實際上從早期的 Hopfield 網絡開始，神經網絡和統計物理就有非常深刻的聯系。

Hopfield 本身就是一位物理學家，他于 1982 年提出了 Hopfield 網絡，其聯想記憶能力震驚了當時的世界 [2]。這一突破重新激發了人們對神經網絡和 AI 的大范圍研究。可以說，他對 AI 研究走出寒冬做出了不可磨滅的貢獻。被稱為 “AI 教父” 的 Hinton 則是第一位認識到統計物理方法在神經網絡中有巨大價值的計算機科學家。1985 年，他與另外兩位合作者提出了 Boltzmann 機，其關鍵就是引入了統計物理中的能量模型（Energy-based Model，EBM）[3][4]。除了兩位諾獎得主外，還有一位女物理學家 Elizabeth Gardner 非常關鍵。1988 年，Gardner 三度出手，系統地研究了 Hopfield 網絡的記憶容量問題，即到底能記住多少個隨機模式 [5][6][7]。后來人們將這個容量稱為 Gardner 容量。Gardner 用的方法就是統計物理中的 Spin Glass 模型和 Replica 方法。Replica 方法的提出者則是 2021 年諾貝爾物理學獎得主 Giorgio Parisi [8][9]。我們今年和他有一場訪談（視頻鏈接：https://weixin.qq.com/sph/AlRVrYjAi），深入探討了 AI 與統計物理的關系。

Attention 模塊的 EBM 形式

人們逐步認識到大模型的目標只有一個：預測下一個 Token。Transformer 是當前實現這一目標的有效架構。考慮一個 Decoder-only 的 Transformer 架構，按照從輸入到輸出的順序，可以分解為 Attention 和 FFN 兩個主要模塊 [10]。本節將重點討論 Attention 模塊。

Transformer 的 EBM 形式

Transformer 的記憶容量

近年來，人們經常會用能力涌現來描述大模型為什么大就是好。從 Gardner 容量的角度看，其本質可以理解為隨著參數量的增加，大模型記住的知識量超過了某個閾值，就出現了統計物理中的相變現象。實際上，Parisi 教授也是從相變的角度來研究 Shannon 容量的，并且提出：即使通信速率小于信道容量，也存在計算上困難的區域。因此，通過統計物理方法，有望從理論上解釋模型規模和模型能力的尺度定律（Scaling Law），并最終解釋能力涌現的相變現象。我們在這個方向也取得了一些初步成果 [22]。

Transformer 的泛化誤差界

泛化誤差是刻畫大模型實際效果的關鍵指標。基于 Transformer 的 EBM 形式，可以從理論上推導泛化誤差界。詳細的數學證明可以參見論文的對應章節。主要用到的數學工具是 Rademacher 復雜度和 Talagrand 不等式 [23]：

Rademacher 復雜度的核心思想是考察一個模型對于純隨機序列的擬合能力。這個序列以 0.5 的概率取值于 {?1,1}，通常稱之為 Rademacher 序列。后面將看到，Rademacher 復雜度項在泛化誤差界中起到了核心作用。
前面提到的數學家 Talagrand，發展出了泛型鏈 (Generic Chaining) 理論，它能對一類非常廣泛的隨機過程的上確界給出極其精確的估計。這深刻地改變了人們對隨機性和高維空間的理解。

大模型推理能力與 Granger 因果

續篇簡介

其中 L 為相互影響的長度。后續的相關研究則進一步印證：對于向量高斯自回歸過程，傳遞熵和 Granger 因果是等價的 [27]。另一方面，傳遞熵也是有限長度版本的定向信息。這一概念由 1988 年香農獎得主 James Massey 在 1990 年提出 [28]。他在論文中也討論了帶反饋的通信系統的因果性問題。由此，我們引出了后續兩篇的主要內容：

本系列的第二篇，即信號處理篇，將深入探討向量自回歸時間序列與大模型之間的深刻聯系。
本系列的第三篇，即信息論篇，將以定向信息為核心，探討與結構無關的、更抽象、更本質的大模型第一性原理。

參考文獻

1. B. Bai, "Forget BIT, it is all about TOKEN: Towards semantic information theory for LLMs," arXiv:2511.01202, Nov. 2025.

2. J. Hopfield, “Neural networks and physical systems with emergent collective computational abilities,” Proceedings of the National Academy of Sciences, vol. 79, no. 8, pp. 2554-2558, Apr. 1982.

3. D. Ackley, G. Hinton, and T. Sejnowski, "A learning algorithm for Boltzmann machines," Cognitive Science, vol. 9, no. 1, pp. 147-169, Jan. 1985.

4. G. Hinton, "A practical guide to training restricted Boltzmann machines," in Neural Networks: Tricks of the Trade, 2nd ed., Berlin, Germany: Springer, 2012, pp. 599-619.

5. E. Gardner, "The space of interactions in neural network models," Journal of Physics A: Mathematical and General, vol. 21, no. 1, pp. 257-270, Jan. 1988.

6. E. Gardner and B. Derrida, "Optimal storage properties of neural network models," Journal of Physics A: Mathematical and General, vol. 21, no. 1, pp. 271-284, Jan. 1988.

7. E. Gardner and B. Derrida, "Three unfinished works on the optimal storage capacity of networks," Journal of Physics A: Mathematical and General, vol. 22, no. 12, pp. 1983-1994, Jun. 1989.

8. M. Mezard, G. Parisi, and M. Virasoro, Spin Glass Theory and Beyond: An Introduction to the Replica Method and Its Applications. Singapore: World Scientific Publishing, 1987.

9. G. Parisi, In a Flight of Starlings: The Wonders of Complex Systems. Milan, Italy: Penguin Press, 2023.

10. A. Vaswani et al., "Attention is all you need," in Proc. 31st Annual Conference on Neural Information Processing Systems ’17, Long Beach, CA, USA, Dec. 2017.

11. E. Jaynes, Probability Theory: The Logic of Science. New York, NY, USA: Cambridge University Press, 2003.

12. A. Gu and T. Dao, "Mamba: Linear-time sequence modeling with selective state spaces," arXiv: 2312.00752, May 2024.

13. T. Dao and A. Gu, "Transformers are SSMs: Generalized models and efficient algorithms through structured state space duality," arXiv: 2405.21060, May 2024.

14. DeepSeek-AI, “DeepSeek-V3.2: Pushing the frontier of open large language models,” DeepSeek, Hangzhou, China, Dec. 2025.

15. T. Cover, "Geometrical and statistical properties of systems of linear inequalities with applications in pattern recognition," IEEE Transactions on Electronic Computers, vol. EC-14, no. 3, pp. 326–334, Jun. 1965.

16. M. Talagrand, Mean Field Models for Spin Glasses - Vol. 1: Basic Examples. Berlin, Germany: Springer, 2011.

17.M. Talagrand, Mean Field Models for Spin Glasses - Vol. 2: Advanced Replica-Symmetry and Low Temperature. Berlin, Germany: Springer, 2011.

18. H. Ramsauer et al., "Hopfield networks is all you need," arXiv: 2008.02217, 28 Apr. 2021.

19. M. Geva, R. Schuster, J. Berant, and O. Levy, "Transformer feed-forward layers are key-value memories," in Proc. ACL Conference on Empirical Methods in Natural Language Processing ‘21, Punta Cana, Dominican Republic, Nov. 2021, pp. 5484–5495.

20. J. Fang et al., "AlphaEdit: Null-space constrained knowledge editing for language models," arXiv: 2410.02355, 22 Apr. 2025.

21. W. Fei et al., "NeuralDB: Scaling knowledge editing in LLMs to 100,000 facts with neural KV database," arXiv: 2507.18028, 24 July 2025.

22. X. Niu, B. Bai, L. Deng, and W. Han, "Beyond scaling laws: Understanding transformer performance with associative memory," arXiv: 2405.08707, 14 May 2024.

23. M. Mohri, A. Rostamizadeh, and A. Talwalkar, Foundations of Machine Learning, 2nd ed. Cambridge, MA, USA: The MIT Press, 2018.

24. C. Granger, "Testing for causality: A personal viewpoint," Journal of Economic Dynamics and Control, vol. 2, no. 1, pp. 329-352, Jan. 1980.

25. J. Pearl, Causality: Models, Reasoning, and Inference, 2nd ed. New York, NY, USA: Cambridge University Press, 2009.

26. T. Schreiber, "Measuring information transfer," Physical Review Letters, vol. 85, no. 2, pp. 461-464, Jul. 2000.

27. L. Barnett, A. B. Barrett, and A. K. Seth, "Granger causality and transfer entropy are equivalent for Gaussian variables," Physical Review Letters, vol. 103, no. 23, p. 238701, Dec. 2009.

28. J. Massey, “Causality, feedback and directed information,” in Proc. IEEE International Symposium on Information Theory ‘90, Waikiki, HI, USA, Nov. 1990.

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.