<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      大模型的第一性原理:(二)信號處理篇

      0
      分享至



      作者 | 白鉑 博士

      白鉑 博士,華為 2012 實驗室理論研究部主任 信息論首席科學家

      引言

      本篇是《大模型的第一性原理》系列解讀文章的第二篇(點擊回顧第一篇),我們將從信號處理的角度解讀原論文[1]。重點探討語義向量化背后的信號處理和信息論原理,并從時間序列的角度分析 Transformer 及其與 Granger 因果的關系。

      我們首先提出一個觀點:大模型的輸入是 Token 的語義嵌入(也稱為語義向量),其本質是把自然語言處理問題轉換為信號處理問題。因此對于大模型而言,向量化非常關鍵,它和信號處理、信息論有非常深刻的聯系。

      盡管從語言學的角度看,語法和邏輯是人類語言現象的關鍵,然而本系列的《統計物理篇》已經指出:大模型并不考慮這些因素,而是從純概率的角度出發建模自然語言。

      從 Token 的維度看,這種純粹的概率模型在計算上是非常困難的,因此人們發展出了概率圖模型、消息傳遞算法等工具[2]。對于當前海量數據而言,這些方法的復雜度仍然過高,很難用于大規模訓練,也難以建模語義非對稱性和長程依賴性。但是,當 Token 被向量化之后,情況就發生了本質的變化,因為我們可以定義內積,并用內積來表示語義相關性,從而大幅度降低計算量。

      基于內積,我們可以進一步定義距離、微分、低維流形等一系列相對容易數值計算的量。這樣就可以通過反向傳播算法來訓練神經網絡,將 Token 的向量化變成神經網絡的輸入、輸出和參數化記憶[3][4]。實際上,許多研究也表明神經網絡之所以能完成分類,正是因為同一類事物(如照片中的貓、狗等)在高維參數空間中會內聚成低維流形[5][6]。

      順便提及,我們在向量檢索方面的研究取得了一定進展,所提出的近似最近鄰向量檢索算法,過去兩年一直蟬聯 ANNBenchemarks 榜單的第一名 。

      語義嵌入 / 向量化

      人們用向量來建模語義的想法最早出現于 Luhn 在 1953 年發表的論文中[8]。但直到 2013 年,Mikolov 等人才真正取得突破[9][10]。基于大量語料,他們成功地訓練出了將 Token 轉化成語義向量的神經網絡模型。下面這個例子經常被用來表達最理想的語義向量化:

      其中 s (?) 為一個詞的向量化表示。然而遺憾的是,上述理想的語義向量化當前并未完全實現,但是語義向量之間的內積(或者歸一化為余弦相似性)卻可以表示 Token 層面的語義相關性。



      對于大模型而言,語義向量空間就可以建模為一個概率-內積空間。許多研究認為語義向量空間應該是結構更復雜的低維流形,但余弦相似性和歐式距離的實際效果就已經足夠好了。因此,我們認為用單位球面 S^(M-1) 來定義語義向量空間是在效果和復雜度之間的良好平衡。需要特別強調的是,語義向量空間中的每一個向量本身并沒有語義,而這個向量與其它所有向量的內積(即相對關系)才代表了語義。這一點和信息論中的信源編碼有本質的區別。經典的信源編碼是對每一個信源符號的壓縮,而語義向量的壓縮則是在相對關系近似不變的前提下,對整個語義向量空間的降維

      那么,如何衡量兩個語義空間的距離,以控制語義向量空間降維帶來的精度損失或者衡量兩個不同自然語言的語義差異性就變得至關重要。當代著名的幾何學家,2009 年阿貝爾獎獲得者,Mikhael Gromov 為我們提供了數學工具,即Gromov-Wasserstein 距離[12]。它衡量了兩個度量 - 概率空間之間的任意兩點間度量的平均差異。該定義極大地拓展了最優傳輸理論中的 Wasserstein 距離的應用范圍[13]。據此,我們定義語義向量空間距離如下:











      Transformer 是非線性時變向量自回歸時間序列

      在本系列的第一篇《統計物理篇》中,我們詳細探討了 Transformer 的能量模型(Energy-based Model,EBM)形式。本篇我們從信號處理角度進一步討論 Transformer 的本質。業界已經達成共識,Transformer 是一個自回歸大語言模型。這是因為它基于輸入 Token 序列和已經生成的 Token 序列來預測下一個 Token。事實上,從經典隨機過程和時間序列分析的角度看,自回歸模型有嚴格的數學定義,即用過去的隨機變量的值的線性加權和來預測未來的隨機變量[23]。



      從數學形式上看,Attention 是一個非線性時變向量自回歸時間序列



      來預測下一個 Token 的向量表示。在《統計物理》篇中,我們已經指出 FFN 層對于預測下一個 Token 是很重要的,它被認為是大模型儲存知識的位置。基于記憶容量的思路,Attention 模塊輸出的向量應該會激活 FFN 層中與之最匹配的記憶模式,從而作為下一個 Token 的向量表示。后續的操作需要在離散的詞表中選擇最有可能的那個 Token。在實際中可以設計多種采樣策略來滿足輸出的要求,但背后的原理與通信接收機中的最大似然譯碼很類似。





      因此,從時間序列的角度看,大模型輸入的 Token 序列和輸出的 Token 序列符合 Granger 因果推斷的定義。這進一步印證了第一篇的結論:大模型推理的本質,是通過預測下一個 Token 這一看似簡單的訓練目標,進而實現逼近人類水平的 Granger 因果推斷

      信號處理與信息論

      在引言中我們已經指出:大模型處理的是向量化后的 Token 序列,其本質是把傳統基于概率的自然語言處理問題轉換成了基于數值計算的信號處理問題。從本文的討論中可以看到,這種從 Token 到其向量表示的轉化,與信息論和信號處理之間的關系非常類似。

      具體來說,Shannon 信息論是一個基于概率論的理論框架,旨在理解信息壓縮、傳輸和存儲的基本原理及其性能極限,但它并不關注工程中的具體實現方法和復雜度。信號處理將信息論中的抽象符號表示為 n 維實 / 復空間中的向量。這種表示使得數值計算方法能有效應用于感知、通信和存儲系統的高效算法設計中。可以說,信號處理是信息論原理在特定計算架構下的具體實現。

      更廣泛地看,我們經常用下圖來表達計算理論和信息論之間的關系。圖的左邊是 Turing 和他的計算理論,他關心用多少個步驟能完成特定的計算,因此時延(通常用時間復雜度來度量)是最關鍵的指標。圖的右邊是 Shannon 和他的信息論,他關心的是通信速率的上限或者數據壓縮的下限,即存在性和可達性。此時,通常假設碼長趨于無窮大,因而時延是被忽略的。那么在實踐中就會發現,開發通信算法的瓶頸永遠是算力不夠,算法復雜度太高;而研究計算算法的瓶頸永遠都是(訪存 / 卡間 / 服務器間)通信帶寬不夠,或者緩存 / 內存空間太小。

      我們注意到,盡管計算理論和信息論有本質的不同,但他們最基本的操作單位都是 BIT,因此我們可以肯定地說:BIT 是連接計算和通信這兩大領域的橋梁



      圖:BIT 是連接計算理論和信息論的橋梁,是信息時代最偉大的發明。

      正如 5G Polar 碼發明人,2019 年香農獎得主,Erdal Arikan 教授參加我們的圓桌論壇中所指出的:BIT 是信息時代最偉大的發明。Shannon 在與 Weaver 合著的論文中也明確指出:信息論只解決了信息的可靠傳輸問題,即技術問題,而不考慮語義和語效[26]。但是人類已經進入了 AI 時代,信息論是否還能繼續發揮其基礎性作用?

      我們將在本系列的第三篇《信息論篇》中看到,只要將核心概念從信息時代的 BIT 轉換成 AI 時代的 TOKEN,Shannon 信息論就可以用來解釋大模型背后的數學原理。

      參考文獻

      1. B. Bai, "Forget BIT, it is all about TOKEN: Towards semantic information theory for LLMs," arXiv:2511.01202, Nov. 2025.

      2. D. Koller and N. Friedman, Probabilistic Graphical Models: Principles and Techniques. Cambridge, MA, USA: The MIT Press, 2009.

      3. G. Hinton, "Learning distributed representations of concepts," in Proc. 8th Annual Conference on Cognitive Science Society ’86, Amherst, MA, USA, Aug. 1986.

      4. Y. Bengio, R. Ducharme, P. Vincent, and C. Jauvin, "A neural probabilistic language model," Journal of Machine Learning Research, vol. 3, no. 2, pp. 1137-1155, Feb. 2003.

      5. S. Chung, D. Lee, and H. Sompolinsky, "Classification and geometry of general perceptual manifolds," Physical Review X, vol. 8, no. 3, p. 031003, Jul. 2018.

      6. Y. Bahri, J. Kadmon, J. Pennington, S. Schoenholz, J. Sohl-Dickstein, and S. Ganguli, "Statistical mechanics of deep learning," Annual Review of Condensed Matter Physics, vol. 11, no. 3, pp. 501-528, Mar. 2020.

      7. https://ann-benchmarks.com

      8. H. Luhn, "A new method of recording and searching information," American Documentation, vol. 4, no. 1, pp. 14–16, Jan. 1953.

      9. T. Mikolov, K. Chen, G. Corrado, and J. Dean, "Efficient estimation of word representations in vector space," arXiv: 1301.3781, 7 Sep. 2013.

      10. T. Mikolov, I. Sutskever, K. Chen, G. Corrado, and J. Dean, "Distributed representations of words and phrases and their compositionality," Proc. 27th Annual Conference on Neural Information Processing Systems '13, Lake Tahoe, NV, USA, Dec. 2013.

      11. D. Jurafsky and J. Martin, Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition with Language Models, 3rd ed. Draft, 2025.

      12. M. Gromov, Metric Structures for Riemannian and Non-Riemannian Spaces. Boston, MA, USA: Birkh?user, 2007.

      13. C. Villani, Optimal Transport: Old and New. New York, NY, USA: Springer, 2009.

      14. D. Alvarez-Melis and T. Jaakkola, "Gromov-Wasserstein alignment of word embedding spaces," in Proc. ACL Conference on Empirical Methods in Natural Language Processing ’18, Brussels, Belgium, Oct. 2018, pp. 1881–1890.

      15. T. Landauer, P. Foltz, and D. Laham, "An introduction to latent semantic analysis," Discourse Processes, vol. 25, no. 2-3, pp. 259-284, Jan. 1998.

      16. W. Johnson, J. Lindenstrauss, and G. Schechtman, "Extensions of Lipschitz maps into Banach spaces," Israel Journal of Mathematics, vol. 54, no. 2, pp. 129-138, Jun. 1986.

      17. A. Oord, Y. Li, and O. Vinyals, "Representation learning with contrastive predictive coding," arXiv: 1807.03748, Jan. 2019.

      18. P. Elias, "Predictive coding - Part 1," IRE Transactions on Information Theory, vol. 1, no. 1, pp. 16-24, Mar. 1955.

      19. P. Elias, "Predictive coding - Part 2," IRE Transactions on Information Theory, vol. 1, no. 1, pp. 24-33, Mar. 1955.

      20. B. Poole, S. Ozair, A. Oord, A. Alemi, and G. Tucker, "On variational bounds of mutual information," in Proc. 36th International Conference on Machine Learning ’19, Long Beach, CA, USA, Jun. 2019, pp. 5171-5180.

      21. J. Massey, "Causality, feedback and directed information," in Proc. IEEE International Symposium on Information Theory ’90, Waikiki, HI, USA, Nov. 1990.

      22. S. Peng, Nonlinear Expectations and Stochastic Calculus under Uncertainty: with Robust CLT and G-Brownian Motion. Berlin, Germany: Springer, 2019.

      23. H. Lütkepohl, New Introduction to Multiple Time Series Analysis. Berlin, Germany: Springer, 2007.

      24. H. Ramsauer et al., "Hopfield networks is all you need," arXiv: 2008.02217, Apr. 2021.

      25. Y. Xia et al., "ER-RAG: Enhance RAG with ER-based unified modeling of heterogeneous data sources," arXiv: 2504.06271, Mar. 2025.

      26. W. Weaver and C. Shannon, "Recent contributions to the mathematical theory of communications," The Rockefeller Foundation, Sep. 1949.

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      博主:目前海港的管理層確實與之前涉事的時間點全部都錯開了

      博主:目前海港的管理層確實與之前涉事的時間點全部都錯開了

      懂球帝
      2026-01-30 12:45:13
      英國首相斯塔默:與中國接觸符合國家利益

      英國首相斯塔默:與中國接觸符合國家利益

      參考消息
      2026-01-29 11:28:59
      國民黨率團赴京,鄭麗文對大陸稱呼變了,蔡英文不排除再度出馬

      國民黨率團赴京,鄭麗文對大陸稱呼變了,蔡英文不排除再度出馬

      冒泡泡的魚兒
      2026-01-30 16:41:09
      明確規定來了!機關事業單位職工下班后打牌打麻將,算違紀嗎?

      明確規定來了!機關事業單位職工下班后打牌打麻將,算違紀嗎?

      阿纂看事
      2026-01-24 09:56:48
      錢再多也沒用,林子祥葉倩文如今現狀,給“老少戀”夫妻提了個醒

      錢再多也沒用,林子祥葉倩文如今現狀,給“老少戀”夫妻提了個醒

      查爾菲的筆記
      2026-01-24 20:06:02
      15年前,徐帆砸了沈星的豪宅。 15年后沈星還住在4500萬房子里。

      15年前,徐帆砸了沈星的豪宅。 15年后沈星還住在4500萬房子里。

      歲月有情1314
      2026-01-29 13:47:16
      趙麗穎和趙德胤分手了?男方與前女友復合拍新片,沒和趙麗穎二搭

      趙麗穎和趙德胤分手了?男方與前女友復合拍新片,沒和趙麗穎二搭

      萌神木木
      2026-01-30 16:44:57
      金晨被曝逃逸原因是撞傷鼻子,緊急回醫院修復,前后對比照曝光

      金晨被曝逃逸原因是撞傷鼻子,緊急回醫院修復,前后對比照曝光

      萌神木木
      2026-01-30 12:58:50
      黑店靠譜!約克雷斯在阿森納效率一般,“接班人”卻打出火爆狀態

      黑店靠譜!約克雷斯在阿森納效率一般,“接班人”卻打出火爆狀態

      里芃芃體育
      2026-01-30 07:46:03
      大S雕像揭幕官宣!出席名單曝光,汪小菲帶娃登金寶山成最大看點

      大S雕像揭幕官宣!出席名單曝光,汪小菲帶娃登金寶山成最大看點

      八卦王者
      2026-01-30 11:12:18
      關機的手機正在監聽?國安部緊急警告:你的舊手機可能正在泄露機密!!!

      關機的手機正在監聽?國安部緊急警告:你的舊手機可能正在泄露機密!!!

      大白聊IT
      2026-01-30 07:03:56
      緬北蛇蝎美人明珍珍,用老虎籠折磨受害人,她殘忍到無法想象

      緬北蛇蝎美人明珍珍,用老虎籠折磨受害人,她殘忍到無法想象

      富強巨靠譜
      2025-02-26 09:21:46
      阿富汗禁止女性接受教育?孫玉良:這樣的塔利班政權必須被唾棄

      阿富汗禁止女性接受教育?孫玉良:這樣的塔利班政權必須被唾棄

      孫玉良
      2026-01-29 09:55:03
      日本是如何評價對越自衛反擊戰的?平日里鮮少提及,卻在教科書中給出了相關評價

      日本是如何評價對越自衛反擊戰的?平日里鮮少提及,卻在教科書中給出了相關評價

      老杉說歷史
      2026-01-25 23:22:13
      澳網:德約科維奇大戰辛納 混雙決出首冠

      澳網:德約科維奇大戰辛納 混雙決出首冠

      大眼瞄世界
      2026-01-30 10:33:23
      穆帥歐冠神跡,讓沒出息的曼聯竊喜,曼聯想省下幾百萬,太好笑!

      穆帥歐冠神跡,讓沒出息的曼聯竊喜,曼聯想省下幾百萬,太好笑!

      福醬的小時光
      2026-01-30 18:12:21
      國家再發“預警”,春節期間別去日本,如果爆發戰爭,會一起挨炸

      國家再發“預警”,春節期間別去日本,如果爆發戰爭,會一起挨炸

      我心縱橫天地間
      2026-01-29 14:45:20
      若無意外的話,中國未來超一半人口將流入到這幾個城市,房價會反彈嗎?

      若無意外的話,中國未來超一半人口將流入到這幾個城市,房價會反彈嗎?

      墜入二次元的海洋
      2026-01-28 03:11:33
      就在剛剛。臺“民進黨”當局正式宣布

      就在剛剛。臺“民進黨”當局正式宣布

      安安說
      2026-01-30 09:14:03
      一旦擊沉美國航母,將承受什么可怕后果?張召忠:代價誰也扛不住

      一旦擊沉美國航母,將承受什么可怕后果?張召忠:代價誰也扛不住

      紀中百大事
      2026-01-26 14:22:36
      2026-01-30 20:23:02
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      12225文章數 142555關注度
      往期回顧 全部

      科技要聞

      意念控制機器人不是科幻 1-2年就落地

      頭條要聞

      特朗普警告稱中英、中加合作是"危險的" 外交部回應

      頭條要聞

      特朗普警告稱中英、中加合作是"危險的" 外交部回應

      體育要聞

      “假賭黑”的子彈,還要再飛一會兒嗎?

      娛樂要聞

      金晨出事前 曾靈魂發問未收到春晚邀請

      財經要聞

      金銀閃崩,是調整還是趨勢反轉的開始?

      汽車要聞

      合資品牌首搭800V/5C快充 東風日產NX8將于3、4月上市

      態度原創

      健康
      手機
      家居
      藝術
      公開課

      耳石癥分類型,癥狀大不同

      手機要聞

      REDMI Turbo 5系列在美團閃購發售:最快30分鐘到手

      家居要聞

      藍調空舍 自由與個性

      藝術要聞

      風景畫選刊 | 中國油畫學會三十年藝術展

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版