<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      大模型的第一性原理:(一)統計物理篇

      0
      分享至



      機器之心發布

      作者:白鉑 博士

      白鉑 博士,華為 2012 實驗室理論研究部主任 信息論首席科學家

      2022 年底,ChatGPT 橫空出世,其能力震驚了整個世界。2024 年底,DeepSeek 以極低的訓練成本和極高的性能再次震驚了世界。短短幾年間,大模型瘋狂迭代,能力不斷提升,僅在美國,AI 領域的投資規模便超過了許多國家全年的 GDP!2025 年底,Google 強勢推出 Gemini 3,模型能力突飛猛進,TPU 訓練范式也對英偉達的生態發起了顛覆式挑戰。

      業界普遍認為 Gemini 3 是邁向通用人工智能(Artificial General Intelligence,AGI) 和超級人工智能(ASI,Artificial Super Intelligence,ASI)的關鍵突破,是人類和機器合作的驚人之作。然而,正如 Ilya Sutskever 于 11 月 26 日的訪談中指出:大模型 Scaling Law 和摩爾定律一樣,遲早會因為物理限制而失效。因此,如何打開大模型訓練的煉丹爐,看清黑盒子背后的基本原理,回答大模型是否已逼近其能力極限就成為迫在眉睫的問題了。但是,前人對大模型的理論研究一直停留在單一維度,使得人們只能看到大模型背后原理的冰山一角,對黑盒子的理解也失之片面。

      11 月 3 日,我們在 arXiv 上掛出了一篇論文 Forget BIT, It is All about TOKEN: Towards Semantic Information Theory for LLMs [1]。該研究將統計物理、信號處理和信息論三者有機結合,系統地總結了對大模型背后數學原理的思考和理解,期望給全面揭示大模型的第一性原理帶來曙光。過去一段時間,我們在以下的學術會議上分別報告了這方面的工作:

      • 11 月 2 日:中國電子學會第 32 屆信息論學術年會
      • 11 月 15 日:中國工業與應用數學學會第 3 屆信息通信數學及應用大會
      • 11 月 17 日:The 2nd Conference-School on Tensor Methods in Mathematics and Artificial Intelligence Computing
      • 11 月 29 日:福州大學圖論與組合研討會

      會上和專家、學者們有很多互動,也收到了不少有價值的反饋。同時也將論文發給了一些海內外的專家、學者們,也收到了不少意見和建議。但是,原論文涉及的領域很多、概念體系復雜,加之寫法上很學術,因而比較晦澀難懂。

      為了便于理解,這里嘗試用通俗易懂的語言寫一個文章系列來解讀這篇論文,其中一些內容也是原論文沒有包含的。預計至少包括以下三篇文章,每一篇圍繞一個專題展開:

      大模型的第一性原理:(一)統計物理篇,主要內容和結論包括:

      • Attention 模塊和 Transformer 架構都可以用統計物理中的能量模型來描述,因而推理是輸出能量函數最小的下一個 Token;而訓練則是逼近平均能量函數最小的參數組態;
      • 大模型的記憶容量隨著模型參數的線性增加而指數增長,因而小模型也可以具備很強的能力,但由于記憶容量的限制,小模型增訓很容易導致模型崩塌;
      • 大模型泛化誤差上界的核心參數是 Logits 的絕對值的和,因而模型縮減,如剪枝、蒸餾和量化等,必須謹慎的控制對 Logits 的影響;
      • 大模型的能力極限是時間序列維度的 Granger 因果推斷,因而 Scaling Law 還會延續,但不會產生真正的符號化、概念抽象和邏輯推理能力。

      大模型的第一性原理:(二)信號處理篇,主要內容和結論包括:

      • 大模型的輸入是向量化的 Token 序列,因而可將基于概率統計的自然語言處理問題轉化為易于數值計算的信號處理問題;
      • 向量內積描述了 Token 之間的語義相關性,因而 Gromov-Wasserstein 距離是天然的語義向量空間距離,Johnson-Lindenstrauss 引理和壓縮感知等技術可用于語義壓縮 / 降維;
      • 大模型的目標是預測下一個 Token,因而可以用倒向定向信息為優化目標來實現信息論意義下最優的 Token 向量化;
      • Transformer 是時變向量自回歸時間序列,它建模的是作為時間序列的自然語言,因而預測下一個 Token 是時間序列維度的 Granger 因果推斷。

      大模型的第一性原理:(三)信息論篇,主要內容和結論包括:

      • 大模型的信息論抽象是有狀態、帶反饋的信道,因而符合該抽象的任何結構(不一定是神經網絡)都能達到相同的效果;
      • 大模型的端到端性能指標以定向信息為基礎,包括預訓練階段的定向速率 - 失真函數、后訓練階段的定向報酬 - 失真函數和推理階段的定向信息密度,因而只要將核心概念從 Bit 轉換為 Token 就可以在 Shannon 信息論的框架下研究大模型;
      • 大模型在推理階段可以定義語義信息容量,因而上下文工程(或提示詞工程)的信息論本質就是通過優化上下文的概率分布來逼近語義信息容量,這與信道編碼逼近 Shannon 容量的思想一致;
      • 定向信息是 Granger 因果強度的測度,因而統計物理、信號處理和信息論三個維度共同印證了大模型的能力極限是時間序列維度的 Granger 因果推斷。

      需要指出,我們的研究并不是要否定大模型的重要價值,它是一個非常強大的工具,當前形態就能極大提升人們整合和處理信息的效率,這是誰也無法否認的。我們想要探討的是當前大模型的第一性原理,從而界定其能力極限,并探討面向未來的技術路徑。

      神經網絡與統計物理

      2024 年諾貝爾物理學獎授予了 John Hopfield 和 Geoffrey Hinton,頒獎詞為:For foundational discoveries and inventions that enable machine learning with artificial neural networks。許多人不太理解,甚至一些 AI 領域的人也認為諾貝爾獎開始蹭熱點了。但實際上從早期的 Hopfield 網絡開始,神經網絡和統計物理就有非常深刻的聯系。

      Hopfield 本身就是一位物理學家,他于 1982 年提出了 Hopfield 網絡,其聯想記憶能力震驚了當時的世界 [2]。這一突破重新激發了人們對神經網絡和 AI 的大范圍研究。可以說,他對 AI 研究走出寒冬做出了不可磨滅的貢獻。被稱為 “AI 教父” 的 Hinton 則是第一位認識到統計物理方法在神經網絡中有巨大價值的計算機科學家。1985 年,他與另外兩位合作者提出了 Boltzmann 機,其關鍵就是引入了統計物理中的能量模型(Energy-based Model,EBM)[3][4]。除了兩位諾獎得主外,還有一位女物理學家 Elizabeth Gardner 非常關鍵。1988 年,Gardner 三度出手,系統地研究了 Hopfield 網絡的記憶容量問題,即到底能記住多少個隨機模式 [5][6][7]。后來人們將這個容量稱為 Gardner 容量。Gardner 用的方法就是統計物理中的 Spin Glass 模型和 Replica 方法。Replica 方法的提出者則是 2021 年諾貝爾物理學獎得主 Giorgio Parisi [8][9]。我們今年和他有一場訪談(視頻鏈接:https://weixin.qq.com/sph/AlRVrYjAi),深入探討了 AI 與統計物理的關系。

      Attention 模塊的 EBM 形式

      人們逐步認識到大模型的目標只有一個:預測下一個 Token。Transformer 是當前實現這一目標的有效架構。考慮一個 Decoder-only 的 Transformer 架構,按照從輸入到輸出的順序,可以分解為 Attention 和 FFN 兩個主要模塊 [10]。本節將重點討論 Attention 模塊。





      Transformer 的 EBM 形式



      Transformer 的記憶容量



      近年來,人們經常會用能力涌現來描述大模型為什么大就是好。從 Gardner 容量的角度看,其本質可以理解為隨著參數量的增加,大模型記住的知識量超過了某個閾值,就出現了統計物理中的相變現象。實際上,Parisi 教授也是從相變的角度來研究 Shannon 容量的,并且提出:即使通信速率小于信道容量,也存在計算上困難的區域。因此,通過統計物理方法,有望從理論上解釋模型規模和模型能力的尺度定律(Scaling Law),并最終解釋能力涌現的相變現象。我們在這個方向也取得了一些初步成果 [22]。

      Transformer 的泛化誤差界

      泛化誤差是刻畫大模型實際效果的關鍵指標。基于 Transformer 的 EBM 形式,可以從理論上推導泛化誤差界。詳細的數學證明可以參見論文的對應章節。主要用到的數學工具是 Rademacher 復雜度和 Talagrand 不等式 [23]:

      • Rademacher 復雜度的核心思想是考察一個模型對于純隨機序列的擬合能力。這個序列以 0.5 的概率取值于 {?1,1},通常稱之為 Rademacher 序列。后面將看到,Rademacher 復雜度項在泛化誤差界中起到了核心作用。
      • 前面提到的數學家 Talagrand,發展出了泛型鏈 (Generic Chaining) 理論,它能對一類非常廣泛的隨機過程的上確界給出極其精確的估計。這深刻地改變了人們對隨機性和高維空間的理解。



      大模型推理能力與 Granger 因果



      續篇簡介



      其中 L 為相互影響的長度。后續的相關研究則進一步印證:對于向量高斯自回歸過程,傳遞熵和 Granger 因果是等價的 [27]。另一方面,傳遞熵也是有限長度版本的定向信息。這一概念由 1988 年香農獎得主 James Massey 在 1990 年提出 [28]。他在論文中也討論了帶反饋的通信系統的因果性問題。由此,我們引出了后續兩篇的主要內容:

      • 本系列的第二篇,即信號處理篇,將深入探討向量自回歸時間序列與大模型之間的深刻聯系。
      • 本系列的第三篇,即信息論篇,將以定向信息為核心,探討與結構無關的、更抽象、更本質的大模型第一性原理。

      參考文獻

      1. B. Bai, "Forget BIT, it is all about TOKEN: Towards semantic information theory for LLMs," arXiv:2511.01202, Nov. 2025.

      2. J. Hopfield, “Neural networks and physical systems with emergent collective computational abilities,” Proceedings of the National Academy of Sciences, vol. 79, no. 8, pp. 2554-2558, Apr. 1982.

      3. D. Ackley, G. Hinton, and T. Sejnowski, "A learning algorithm for Boltzmann machines," Cognitive Science, vol. 9, no. 1, pp. 147-169, Jan. 1985.

      4. G. Hinton, "A practical guide to training restricted Boltzmann machines," in Neural Networks: Tricks of the Trade, 2nd ed., Berlin, Germany: Springer, 2012, pp. 599-619.

      5. E. Gardner, "The space of interactions in neural network models," Journal of Physics A: Mathematical and General, vol. 21, no. 1, pp. 257-270, Jan. 1988.

      6. E. Gardner and B. Derrida, "Optimal storage properties of neural network models," Journal of Physics A: Mathematical and General, vol. 21, no. 1, pp. 271-284, Jan. 1988.

      7. E. Gardner and B. Derrida, "Three unfinished works on the optimal storage capacity of networks," Journal of Physics A: Mathematical and General, vol. 22, no. 12, pp. 1983-1994, Jun. 1989.

      8. M. Mezard, G. Parisi, and M. Virasoro, Spin Glass Theory and Beyond: An Introduction to the Replica Method and Its Applications. Singapore: World Scientific Publishing, 1987.

      9. G. Parisi, In a Flight of Starlings: The Wonders of Complex Systems. Milan, Italy: Penguin Press, 2023.

      10. A. Vaswani et al., "Attention is all you need," in Proc. 31st Annual Conference on Neural Information Processing Systems ’17, Long Beach, CA, USA, Dec. 2017.

      11. E. Jaynes, Probability Theory: The Logic of Science. New York, NY, USA: Cambridge University Press, 2003.

      12. A. Gu and T. Dao, "Mamba: Linear-time sequence modeling with selective state spaces," arXiv: 2312.00752, May 2024.

      13. T. Dao and A. Gu, "Transformers are SSMs: Generalized models and efficient algorithms through structured state space duality," arXiv: 2405.21060, May 2024.

      14. DeepSeek-AI, “DeepSeek-V3.2: Pushing the frontier of open large language models,” DeepSeek, Hangzhou, China, Dec. 2025.

      15. T. Cover, "Geometrical and statistical properties of systems of linear inequalities with applications in pattern recognition," IEEE Transactions on Electronic Computers, vol. EC-14, no. 3, pp. 326–334, Jun. 1965.

      16. M. Talagrand, Mean Field Models for Spin Glasses - Vol. 1: Basic Examples. Berlin, Germany: Springer, 2011.

      17.M. Talagrand, Mean Field Models for Spin Glasses - Vol. 2: Advanced Replica-Symmetry and Low Temperature. Berlin, Germany: Springer, 2011.

      18. H. Ramsauer et al., "Hopfield networks is all you need," arXiv: 2008.02217, 28 Apr. 2021.

      19. M. Geva, R. Schuster, J. Berant, and O. Levy, "Transformer feed-forward layers are key-value memories," in Proc. ACL Conference on Empirical Methods in Natural Language Processing ‘21, Punta Cana, Dominican Republic, Nov. 2021, pp. 5484–5495.

      20. J. Fang et al., "AlphaEdit: Null-space constrained knowledge editing for language models," arXiv: 2410.02355, 22 Apr. 2025.

      21. W. Fei et al., "NeuralDB: Scaling knowledge editing in LLMs to 100,000 facts with neural KV database," arXiv: 2507.18028, 24 July 2025.

      22. X. Niu, B. Bai, L. Deng, and W. Han, "Beyond scaling laws: Understanding transformer performance with associative memory," arXiv: 2405.08707, 14 May 2024.

      23. M. Mohri, A. Rostamizadeh, and A. Talwalkar, Foundations of Machine Learning, 2nd ed. Cambridge, MA, USA: The MIT Press, 2018.

      24. C. Granger, "Testing for causality: A personal viewpoint," Journal of Economic Dynamics and Control, vol. 2, no. 1, pp. 329-352, Jan. 1980.

      25. J. Pearl, Causality: Models, Reasoning, and Inference, 2nd ed. New York, NY, USA: Cambridge University Press, 2009.

      26. T. Schreiber, "Measuring information transfer," Physical Review Letters, vol. 85, no. 2, pp. 461-464, Jul. 2000.

      27. L. Barnett, A. B. Barrett, and A. K. Seth, "Granger causality and transfer entropy are equivalent for Gaussian variables," Physical Review Letters, vol. 103, no. 23, p. 238701, Dec. 2009.

      28. J. Massey, “Causality, feedback and directed information,” in Proc. IEEE International Symposium on Information Theory ‘90, Waikiki, HI, USA, Nov. 1990.

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      奚夢瑤懷三胎實錘?陪四太逛商場腹部凸起,拎 40 萬包穩坐闊太位

      奚夢瑤懷三胎實錘?陪四太逛商場腹部凸起,拎 40 萬包穩坐闊太位

      一盅情懷
      2025-12-10 16:01:52
      俄國防部:已控制哈爾科夫州利曼村

      俄國防部:已控制哈爾科夫州利曼村

      上觀新聞
      2025-12-11 18:33:06
      78年,我把下鄉女知青肚子鬧大,她卻考上大學走了,再沒音訊

      78年,我把下鄉女知青肚子鬧大,她卻考上大學走了,再沒音訊

      青青會講故事
      2025-12-10 13:06:32
      重磅信號!俄羅斯,開始拉清單了!

      重磅信號!俄羅斯,開始拉清單了!

      大嘴說天下
      2025-12-10 22:26:05
      雷軍成為了差評本身:2025,小米汽車到底出了幾次軌?

      雷軍成為了差評本身:2025,小米汽車到底出了幾次軌?

      道哥說車
      2025-12-09 09:39:08
      一旦開戰中國必敗?我國著名院士批主戰派,要懂得甲午戰爭的慘敗

      一旦開戰中國必敗?我國著名院士批主戰派,要懂得甲午戰爭的慘敗

      文史旺旺旺
      2025-11-14 20:30:09
      中央5臺今晚19:30直播表:CCTV5CCTV5+節目單附今晚乒乓球總決賽程

      中央5臺今晚19:30直播表:CCTV5CCTV5+節目單附今晚乒乓球總決賽程

      皮皮觀天下
      2025-12-11 14:42:57
      女演員張馨予上課開小差,偷畫老師被抓包!事后稱“有認真在聽課”

      女演員張馨予上課開小差,偷畫老師被抓包!事后稱“有認真在聽課”

      極目新聞
      2025-12-11 09:18:44
      德國外長最新涉華表態

      德國外長最新涉華表態

      極目新聞
      2025-12-11 13:32:07
      新國標實施后,電動自行車處于進退兩難的境地,廠家:我們太難了

      新國標實施后,電動自行車處于進退兩難的境地,廠家:我們太難了

      電動車的那些事兒
      2025-12-11 08:10:23
      小姐姐身材好氣質佳,一身粉色瑜伽套裝溫柔恬靜,美的精致又高級

      小姐姐身材好氣質佳,一身粉色瑜伽套裝溫柔恬靜,美的精致又高級

      小喬古裝漢服
      2025-12-10 17:04:41
      中國共產黨中央軍事委員會副主席張升民簡歷

      中國共產黨中央軍事委員會副主席張升民簡歷

      上觀新聞
      2025-10-23 18:17:07
      警惕外企裁員,給出高額賠償,這是變相資本陷阱,上班不能僅為錢

      警惕外企裁員,給出高額賠償,這是變相資本陷阱,上班不能僅為錢

      眼光很亮
      2024-09-30 09:32:13
      黃楊鈿甜就耳環事件起訴B站,網友:沒有一絲悔恨,只有不服

      黃楊鈿甜就耳環事件起訴B站,網友:沒有一絲悔恨,只有不服

      映射生活的身影
      2025-12-10 13:29:12
      三亞不香了?東北人撤離成潮,壓垮他們的不是物價,而是生活現實

      三亞不香了?東北人撤離成潮,壓垮他們的不是物價,而是生活現實

      歷史有些冷
      2025-12-04 20:20:06
      最狠車臣將軍帶200特種兵血洗夜總會:拒5千萬賠償,只提一個要求

      最狠車臣將軍帶200特種兵血洗夜總會:拒5千萬賠償,只提一個要求

      小哥很OK
      2025-11-29 09:04:10
      向中國借道?哈薩克斯坦賣礦給美國,求到我們頭上,中方態度堅決

      向中國借道?哈薩克斯坦賣礦給美國,求到我們頭上,中方態度堅決

      策前論
      2025-12-10 19:17:16
      降溫11℃+9級大風,江蘇氣象發布寒潮藍色預警

      降溫11℃+9級大風,江蘇氣象發布寒潮藍色預警

      現代快報
      2025-12-11 16:57:13
      日本教授曝猛料:中國多個領域可能已被日本滲透,專家:拔釘子!

      日本教授曝猛料:中國多個領域可能已被日本滲透,專家:拔釘子!

      小lu侃侃而談
      2025-12-10 19:30:59
      事情鬧大,美國第一次批評中國雷達照射日本戰機,北約也開始介入

      事情鬧大,美國第一次批評中國雷達照射日本戰機,北約也開始介入

      郭蛹包工頭
      2025-12-11 18:39:08
      2025-12-11 19:27:00
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      11898文章數 142509關注度
      往期回顧 全部

      科技要聞

      豆包剛被微信淘寶們"群毆" ,又有人來搶位

      頭條要聞

      日方稱中國以強震為由呼吁公民暫勿前往日本 中方回應

      頭條要聞

      日方稱中國以強震為由呼吁公民暫勿前往日本 中方回應

      體育要聞

      你最看不上的人,關鍵時刻卻最想救你...

      娛樂要聞

      黃慧頤曝保劍鋒出軌細節!

      財經要聞

      重磅!中央經濟工作會議在北京舉行

      汽車要聞

      長途穿越更輕松 二代哈弗H9穿越版限時售23.29萬

      態度原創

      教育
      健康
      數碼
      手機
      公開課

      教育要聞

      三分鐘搞懂波爾氫原子理論三大假設!

      甲狀腺結節到這個程度,該穿刺了!

      數碼要聞

      2025年電腦外設年度盤點:性價比與產品力的雙重競技

      手機要聞

      國產手機傳感器思特威SC512HS發布:5000萬像素、超低功耗

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 午夜性无码专区| 老鸭窝| 日韩av一区二区三区不卡| 国产成人免费一区二区三区| 欧美福利在线| 91视频?-?sebo99| 广饶县| 伊人久久精品无码二区麻豆| 新婚少妇无套内谢国语播放| 成人国产片女人爽到高潮| 日本亚洲一区二区精品久久| 3p无码| 人妻系列中文| 伊人久久大香线蕉综合影院首页| 日本极品少妇xxxx| 性做久久久久久久| 狠狠干奇米| 99国产精品99久久久久久| 国产日韩av在线播放| 欧美成人精品一级在线观看| 十八禁黄网站| 敦化市| 亚洲AV色图| 午夜人成免费视频| 成人欧美一区二区三区在线观看| 91无码| 国产精品免费无遮挡无码永久视频 | 中日韩在线| 欧美成人片在线观看| 老色69久久九九精品高潮| 国产自在自线午夜精品| 午夜社区| 中国极品少妇xxxxx| 自拍 另类 综合 欧美小说| 野花香视频在线观看免费高清版 | 玛曲县| 国产精品久久国产精品99 gif | 夜夜国自一区+1080P| 宜丰县| 国产真人性做爰久久网站| 亚洲人成电影在线天堂色|