![]()
作者 | 白鉑 博士
白鉑 博士,華為 2012 實驗室理論研究部主任 信息論首席科學家
引言
本篇是《大模型的第一性原理》系列解讀文章的第二篇(點擊回顧第一篇),我們將從信號處理的角度解讀原論文[1]。重點探討語義向量化背后的信號處理和信息論原理,并從時間序列的角度分析 Transformer 及其與 Granger 因果的關系。
我們首先提出一個觀點:大模型的輸入是 Token 的語義嵌入(也稱為語義向量),其本質是把自然語言處理問題轉換為信號處理問題。因此對于大模型而言,向量化非常關鍵,它和信號處理、信息論有非常深刻的聯系。
盡管從語言學的角度看,語法和邏輯是人類語言現象的關鍵,然而本系列的《統計物理篇》已經指出:大模型并不考慮這些因素,而是從純概率的角度出發建模自然語言。
從 Token 的維度看,這種純粹的概率模型在計算上是非常困難的,因此人們發展出了概率圖模型、消息傳遞算法等工具[2]。對于當前海量數據而言,這些方法的復雜度仍然過高,很難用于大規模訓練,也難以建模語義非對稱性和長程依賴性。但是,當 Token 被向量化之后,情況就發生了本質的變化,因為我們可以定義內積,并用內積來表示語義相關性,從而大幅度降低計算量。
基于內積,我們可以進一步定義距離、微分、低維流形等一系列相對容易數值計算的量。這樣就可以通過反向傳播算法來訓練神經網絡,將 Token 的向量化變成神經網絡的輸入、輸出和參數化記憶[3][4]。實際上,許多研究也表明神經網絡之所以能完成分類,正是因為同一類事物(如照片中的貓、狗等)在高維參數空間中會內聚成低維流形[5][6]。
順便提及,我們在向量檢索方面的研究取得了一定進展,所提出的近似最近鄰向量檢索算法,過去兩年一直蟬聯 ANNBenchemarks 榜單的第一名 。
語義嵌入 / 向量化
人們用向量來建模語義的想法最早出現于 Luhn 在 1953 年發表的論文中[8]。但直到 2013 年,Mikolov 等人才真正取得突破[9][10]。基于大量語料,他們成功地訓練出了將 Token 轉化成語義向量的神經網絡模型。下面這個例子經常被用來表達最理想的語義向量化:
其中 s (?) 為一個詞的向量化表示。然而遺憾的是,上述理想的語義向量化當前并未完全實現,但是語義向量之間的內積(或者歸一化為余弦相似性)卻可以表示 Token 層面的語義相關性。
![]()
對于大模型而言,語義向量空間就可以建模為一個概率-內積空間。許多研究認為語義向量空間應該是結構更復雜的低維流形,但余弦相似性和歐式距離的實際效果就已經足夠好了。因此,我們認為用單位球面 S^(M-1) 來定義語義向量空間是在效果和復雜度之間的良好平衡。需要特別強調的是,語義向量空間中的每一個向量本身并沒有語義,而這個向量與其它所有向量的內積(即相對關系)才代表了語義。這一點和信息論中的信源編碼有本質的區別。經典的信源編碼是對每一個信源符號的壓縮,而語義向量的壓縮則是在相對關系近似不變的前提下,對整個語義向量空間的降維
那么,如何衡量兩個語義空間的距離,以控制語義向量空間降維帶來的精度損失或者衡量兩個不同自然語言的語義差異性就變得至關重要。當代著名的幾何學家,2009 年阿貝爾獎獲得者,Mikhael Gromov 為我們提供了數學工具,即Gromov-Wasserstein 距離[12]。它衡量了兩個度量 - 概率空間之間的任意兩點間度量的平均差異。該定義極大地拓展了最優傳輸理論中的 Wasserstein 距離的應用范圍[13]。據此,我們定義語義向量空間距離如下:
![]()
![]()
![]()
![]()
![]()
Transformer 是非線性時變向量自回歸時間序列
在本系列的第一篇《統計物理篇》中,我們詳細探討了 Transformer 的能量模型(Energy-based Model,EBM)形式。本篇我們從信號處理角度進一步討論 Transformer 的本質。業界已經達成共識,Transformer 是一個自回歸大語言模型。這是因為它基于輸入 Token 序列和已經生成的 Token 序列來預測下一個 Token。事實上,從經典隨機過程和時間序列分析的角度看,自回歸模型有嚴格的數學定義,即用過去的隨機變量的值的線性加權和來預測未來的隨機變量[23]。
![]()
從數學形式上看,Attention 是一個非線性時變向量自回歸時間序列
![]()
來預測下一個 Token 的向量表示。在《統計物理》篇中,我們已經指出 FFN 層對于預測下一個 Token 是很重要的,它被認為是大模型儲存知識的位置。基于記憶容量的思路,Attention 模塊輸出的向量應該會激活 FFN 層中與之最匹配的記憶模式,從而作為下一個 Token 的向量表示。后續的操作需要在離散的詞表中選擇最有可能的那個 Token。在實際中可以設計多種采樣策略來滿足輸出的要求,但背后的原理與通信接收機中的最大似然譯碼很類似。
![]()
![]()
因此,從時間序列的角度看,大模型輸入的 Token 序列和輸出的 Token 序列符合 Granger 因果推斷的定義。這進一步印證了第一篇的結論:大模型推理的本質,是通過預測下一個 Token 這一看似簡單的訓練目標,進而實現逼近人類水平的 Granger 因果推斷
信號處理與信息論
在引言中我們已經指出:大模型處理的是向量化后的 Token 序列,其本質是把傳統基于概率的自然語言處理問題轉換成了基于數值計算的信號處理問題。從本文的討論中可以看到,這種從 Token 到其向量表示的轉化,與信息論和信號處理之間的關系非常類似。
具體來說,Shannon 信息論是一個基于概率論的理論框架,旨在理解信息壓縮、傳輸和存儲的基本原理及其性能極限,但它并不關注工程中的具體實現方法和復雜度。信號處理將信息論中的抽象符號表示為 n 維實 / 復空間中的向量。這種表示使得數值計算方法能有效應用于感知、通信和存儲系統的高效算法設計中。可以說,信號處理是信息論原理在特定計算架構下的具體實現。
更廣泛地看,我們經常用下圖來表達計算理論和信息論之間的關系。圖的左邊是 Turing 和他的計算理論,他關心用多少個步驟能完成特定的計算,因此時延(通常用時間復雜度來度量)是最關鍵的指標。圖的右邊是 Shannon 和他的信息論,他關心的是通信速率的上限或者數據壓縮的下限,即存在性和可達性。此時,通常假設碼長趨于無窮大,因而時延是被忽略的。那么在實踐中就會發現,開發通信算法的瓶頸永遠是算力不夠,算法復雜度太高;而研究計算算法的瓶頸永遠都是(訪存 / 卡間 / 服務器間)通信帶寬不夠,或者緩存 / 內存空間太小。
我們注意到,盡管計算理論和信息論有本質的不同,但他們最基本的操作單位都是 BIT,因此我們可以肯定地說:BIT 是連接計算和通信這兩大領域的橋梁
![]()
圖:BIT 是連接計算理論和信息論的橋梁,是信息時代最偉大的發明。
正如 5G Polar 碼發明人,2019 年香農獎得主,Erdal Arikan 教授參加我們的圓桌論壇中所指出的:BIT 是信息時代最偉大的發明。Shannon 在與 Weaver 合著的論文中也明確指出:信息論只解決了信息的可靠傳輸問題,即技術問題,而不考慮語義和語效[26]。但是人類已經進入了 AI 時代,信息論是否還能繼續發揮其基礎性作用?
我們將在本系列的第三篇《信息論篇》中看到,只要將核心概念從信息時代的 BIT 轉換成 AI 時代的 TOKEN,Shannon 信息論就可以用來解釋大模型背后的數學原理。
參考文獻
1. B. Bai, "Forget BIT, it is all about TOKEN: Towards semantic information theory for LLMs," arXiv:2511.01202, Nov. 2025.
2. D. Koller and N. Friedman, Probabilistic Graphical Models: Principles and Techniques. Cambridge, MA, USA: The MIT Press, 2009.
3. G. Hinton, "Learning distributed representations of concepts," in Proc. 8th Annual Conference on Cognitive Science Society ’86, Amherst, MA, USA, Aug. 1986.
4. Y. Bengio, R. Ducharme, P. Vincent, and C. Jauvin, "A neural probabilistic language model," Journal of Machine Learning Research, vol. 3, no. 2, pp. 1137-1155, Feb. 2003.
5. S. Chung, D. Lee, and H. Sompolinsky, "Classification and geometry of general perceptual manifolds," Physical Review X, vol. 8, no. 3, p. 031003, Jul. 2018.
6. Y. Bahri, J. Kadmon, J. Pennington, S. Schoenholz, J. Sohl-Dickstein, and S. Ganguli, "Statistical mechanics of deep learning," Annual Review of Condensed Matter Physics, vol. 11, no. 3, pp. 501-528, Mar. 2020.
7. https://ann-benchmarks.com
8. H. Luhn, "A new method of recording and searching information," American Documentation, vol. 4, no. 1, pp. 14–16, Jan. 1953.
9. T. Mikolov, K. Chen, G. Corrado, and J. Dean, "Efficient estimation of word representations in vector space," arXiv: 1301.3781, 7 Sep. 2013.
10. T. Mikolov, I. Sutskever, K. Chen, G. Corrado, and J. Dean, "Distributed representations of words and phrases and their compositionality," Proc. 27th Annual Conference on Neural Information Processing Systems '13, Lake Tahoe, NV, USA, Dec. 2013.
11. D. Jurafsky and J. Martin, Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition with Language Models, 3rd ed. Draft, 2025.
12. M. Gromov, Metric Structures for Riemannian and Non-Riemannian Spaces. Boston, MA, USA: Birkh?user, 2007.
13. C. Villani, Optimal Transport: Old and New. New York, NY, USA: Springer, 2009.
14. D. Alvarez-Melis and T. Jaakkola, "Gromov-Wasserstein alignment of word embedding spaces," in Proc. ACL Conference on Empirical Methods in Natural Language Processing ’18, Brussels, Belgium, Oct. 2018, pp. 1881–1890.
15. T. Landauer, P. Foltz, and D. Laham, "An introduction to latent semantic analysis," Discourse Processes, vol. 25, no. 2-3, pp. 259-284, Jan. 1998.
16. W. Johnson, J. Lindenstrauss, and G. Schechtman, "Extensions of Lipschitz maps into Banach spaces," Israel Journal of Mathematics, vol. 54, no. 2, pp. 129-138, Jun. 1986.
17. A. Oord, Y. Li, and O. Vinyals, "Representation learning with contrastive predictive coding," arXiv: 1807.03748, Jan. 2019.
18. P. Elias, "Predictive coding - Part 1," IRE Transactions on Information Theory, vol. 1, no. 1, pp. 16-24, Mar. 1955.
19. P. Elias, "Predictive coding - Part 2," IRE Transactions on Information Theory, vol. 1, no. 1, pp. 24-33, Mar. 1955.
20. B. Poole, S. Ozair, A. Oord, A. Alemi, and G. Tucker, "On variational bounds of mutual information," in Proc. 36th International Conference on Machine Learning ’19, Long Beach, CA, USA, Jun. 2019, pp. 5171-5180.
21. J. Massey, "Causality, feedback and directed information," in Proc. IEEE International Symposium on Information Theory ’90, Waikiki, HI, USA, Nov. 1990.
22. S. Peng, Nonlinear Expectations and Stochastic Calculus under Uncertainty: with Robust CLT and G-Brownian Motion. Berlin, Germany: Springer, 2019.
23. H. Lütkepohl, New Introduction to Multiple Time Series Analysis. Berlin, Germany: Springer, 2007.
24. H. Ramsauer et al., "Hopfield networks is all you need," arXiv: 2008.02217, Apr. 2021.
25. Y. Xia et al., "ER-RAG: Enhance RAG with ER-based unified modeling of heterogeneous data sources," arXiv: 2504.06271, Mar. 2025.
26. W. Weaver and C. Shannon, "Recent contributions to the mathematical theory of communications," The Rockefeller Foundation, Sep. 1949.
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.