★置頂zzllrr小樂公眾號(主頁右上角)數(shù)學科普不迷路!
本月初的一篇討論AI的紐約客文章似乎引起了數(shù)學讀者們的眾“怒”,又有一位教授“炮轟”它,捍衛(wèi)矩陣乘法的美感。另請參閱:
作者:James Propp(馬薩諸塞大學教授,數(shù)學家)2025-11-21
譯者:zzllrr小樂(數(shù)學科普公眾號)2025-11-24
幾周前,我正悠閑地閱讀一篇關(guān)于AI人工智能的文章,文章寫得很好,內(nèi)容也很翔實 https://www.newyorker.com/magazine/2025/11/03/inside-the-data-centers-that-train-ai-and-drain-the-electrical-grid 。突然,文章中的一段話讓我感到惱火。這就是對記者討論的話題了解太多的弊端之一:記者常常會犯一些大多數(shù)讀者不會注意到的錯誤,但這些錯誤卻會讓那些了解內(nèi)情的人感到憤怒,或者至少會讓他們血壓飆升。
這篇文章發(fā)表在 《紐約客》雜志上。作者斯蒂芬·維特(Stephen Witt)在文中描述了典型的“大語言模型”(LLM)如何從一張白紙(或者更確切地說,是一張布滿隨機涂鴉的白紙)開始,學習關(guān)于世界(或者更確切地說,是關(guān)于被稱為互聯(lián)網(wǎng)的虛擬世界)的知識。在整個訓練過程中,數(shù)十億個被稱為權(quán)重的數(shù)值會被反復更新,從而穩(wěn)步提升模型的性能。
想象一下,一個微型芯片上蝕刻著電子在通道中高速運動,然后慢慢放大畫面:每個服務器節(jié)點中都有許多這樣的芯片,每個機架中也有許多這樣的節(jié)點,機架排列成行,每個大廳有好幾行,每棟樓有好幾個大廳,每個園區(qū)又有好幾棟樓。這就像是計算機時代的博爾赫斯《巴別圖書館》。而所有這些無數(shù)電路執(zhí)行的權(quán)重更新過程,都高度依賴于一種被稱為矩陣乘法(matrix multiplication)的運算。
維特對此解釋得清晰準確,直到他的文章出現(xiàn)了一個非常奇怪的轉(zhuǎn)折。
釘釘子
以下是維特接下來對矩陣乘法的論述:
“美是首要的檢驗標準:丑陋的數(shù)學在這個世界上沒有一席之地,”數(shù)學家G. H. 哈代在1940年寫道。然而,我們文明如今投入如此多資源的矩陣乘法,卻如同釘釘子般笨拙不堪。它既不美觀,也不對稱:事實上,在矩陣乘法中, a乘以b并不等于b乘以a 。”
最后一句話讓我覺得很奇怪,完全不合邏輯,有點像在說“數(shù)字加法既不美觀也不對稱,因為當你把兩個數(shù)字倒過來寫時,它們的新和并不是它們原來的和倒過來寫;例如,17 加 34 等于 51,但 71 加 43 不等于 15。”
第二天,我給雜志社寄了以下這封信:
“我贊賞斯蒂芬·維特(Stephen Witt)聚焦于矩陣,矩陣如今比以往任何時候都更值得關(guān)注:它們在生態(tài)學、經(jīng)濟學、物理學以及現(xiàn)在的人工智能領(lǐng)域都扮演著重要角色(《信息過載》
Information Overload,11月3日)。但維特錯誤地將哈代的名言(“丑陋的數(shù)學在世界上沒有一席之地”)引入了他的論述。
矩陣代數(shù)是對稱和變換的語言, a 后接 b 與 b 后接 a 的區(qū)別并不令人驚訝;期望這兩種變換完全一致,就好比在錯誤的地方尋找對稱——就像以狗的尾巴是否像它的頭來評判它的美丑一樣。矩陣代數(shù)起源于中國,擁有兩千年的歷史,它在數(shù)學中占據(jù)了永久的地位,并且完美地通過了‘美’的考驗。事實上,矩陣在數(shù)論中非常常見,而數(shù)論正是哈代最鐘愛的純數(shù)學分支。”
將我的回復限制在150字以內(nèi)需要一些技巧。例如,請注意開頭一句就起到了雙重作用:它用幾句贊揚之詞緩和了我大量的負面批評,并強調(diào)了主題的重要性,從而預先反駁了那些可能認為我的修改過于晦澀難懂而不值得發(fā)表的編輯。(注意,“預先pre?mptively”中類似《紐約客》的分音符diaresis:既然我要批評,那我干脆就批評一下分音符吧。)
我還沒收到編輯的回復,估計也不會有。不過,維特的誤解值得更詳盡的解釋,150字遠遠不夠。咱們看看用1500字和幾張圖片能寫出什么來。
變換的幾何學
作為靜態(tài)對象,矩陣“僅僅”是數(shù)字的矩形陣列,但這并不能概括它們的本質(zhì)。如果必須用一個詞來表達矩陣的精髓,那就是“變換”。
變換的一個例子是操作 f ,它將平面上的圖像從左到右翻轉(zhuǎn),就像在垂直鏡子中一樣。
![]()
另一個例子是運算 g ,它將平面上的圖像沿從左下角到右上角的對角線進行反射。
![]()
這里需要注意的關(guān)鍵是,先用 f 再用 g 的效果與先用 g 再用 f 的效果不同。為了理解這一點,在一張正方形紙的一側(cè)寫一個大寫字母 R——最好使用深色馬克筆和/或半透明紙,這樣即使紙翻過來也能看到 R——然后先用 f 再用 g ;你會得到原先的 R 順時針旋轉(zhuǎn) 90 度。但是,如果從原先的 R 開始,先用 g 再用 f ,你會得到原先的 R 逆時針旋轉(zhuǎn) 90 度。
![]()
同樣的兩個操作,不同的結(jié)果!用符號表示為 g ? f ≠ f ? g ,其中 g ? f 表示“先執(zhí)行 f ,再執(zhí)行 g ”,而 f ? g 表示“先執(zhí)行 g ,再執(zhí)行 f ”。符號 ? 表示稱為合成(composition)的元操作(對操作符的操作,對運算符的運算)。我知道這種約定乍一看可能有點反常,但這就是 ? 的定義。
這要歸咎于那些最初使用“l(fā)og x ”和“cos x ”這類符號的人,他們把 x 放在運算名稱之后。這導致了f(x)的記法,用來表示將函數(shù) f 應用于數(shù)字 x 的結(jié)果。然后,將 g 應用于 f 應用于 x 的結(jié)果,其符號為 g(f(x));即使 f 先于 g 執(zhí)行,“f” 也出現(xiàn)在“g”的右側(cè)。由此,將x傳遞給g(f(x)) 的函數(shù)自然而然地寫成了“g ? f”。
變換的順序會影響結(jié)果,這并不奇怪。畢竟,做沙拉時,如果你在撒上碎奶酪后才淋上沙拉醬,客人的用餐體驗就會與你先淋沙拉醬的情況截然不同。同樣,創(chuàng)作旋律時,先用升 C 后用 D 與先用 D 后用升 C 是不同的。只要數(shù)學家們還在使用“組合”(composition)而非“乘法”(multiplication)這個詞,就不會有人覺得順序在很多情況下至關(guān)重要有什么矛盾之處。
矩陣代數(shù)
我們?nèi)绾斡脭?shù)值方式表示前面描述的幾何變換 f 和 g 呢?我們不妨使用一個正方形,并選擇中心坐標,使得 (0,0) 位于正方形的中心。為了方便起見,我們將其設為 2×2 的正方形,四個角的坐標分別為 (±1,±1)。不難看出,如果在點 (x,y) 和點 (?x,y) 處分別標記一個點,那么在應用變換 f 后,這兩個點的位置會互換;例如,正方形的右上角和左上角會互換位置 (x = y = 1)。
我們可以將幾何變換 f 與代數(shù)替換聯(lián)系起來,該代數(shù)替換對于所有介于 ?1 和 1 之間的 x 和 y 都改變 x 的符號,或者用數(shù)學家的話來說,就是“將 (x,y) 映射到 (?x,y) 的函數(shù)”。這個函數(shù)可以用下面 2×2 數(shù)組表示。
![]()
更一般地說,數(shù)組
![]()
表示將 (x,y) 映射到 (ax+by, cx+dy) 的函數(shù),其中 a、b、c、d 為任意實數(shù)。(選擇 a = -1、 b = 0、 c = 0 和 d = 1 即可得到特定的數(shù)組 A。 )
類似地,當應用運算 g 時,即沿連接左下角和右上角的對角線翻轉(zhuǎn)正方形,(x,y) 處的點最終會與 (y,x) 處的點交換位置。我們將 g 與交換 x 和 y 的代數(shù)替換聯(lián)系起來,或者說是“將 (x,y) 映射到 (y,x) 的函數(shù)”,用下面 2×2 數(shù)組表示。
![]()
這類數(shù)組稱為矩陣(matrices)。當我們想將兩個運算(例如 f 和 g) 組合在一起時,只需根據(jù)以下規(guī)則組合相關(guān)的矩陣:矩陣
![]()
![]()
合成,等于矩陣
![]()
關(guān)于這個公式的由來,請參閱我的博客(數(shù)學魔法
Mathematical Enchantments文章“ 矩陣是什么?” ) 。 即使不知道這個公式的由來,你也可以將它應用于我們的兩個矩陣,并驗證 A 與 B 的合成矩陣與 B 與 A 的合成矩陣不同。
有一點我可以理解 Stephen Witt 的觀點:如果兩個矩陣的乘積僅僅是將第一個矩陣中的每個元素乘以第二個矩陣中對應的元素,那么矩陣乘法就會更簡潔:
這種乘積被稱為哈達瑪乘積(Hadamard product,即點乘、點積),它在數(shù)學中確實扮演著一定的角色,但遠不如常見的矩陣乘積那么普遍。哈達瑪乘積過于對稱,實用性不高,而常見的矩陣乘積則在簡潔性和通用性之間取得了完美的平衡。
存在一類矩陣,其哈達瑪乘積與標準乘積相等,即對角矩陣。以下是對角矩陣的乘法運算:
在神經(jīng)網(wǎng)絡領(lǐng)域,這類矩陣對應于一種簡單的數(shù)據(jù)處理方式,其中每個輸出變量都只是特定輸入變量乘以一個常數(shù)。變量之間不存在串擾或交互作用。一般矩陣比對角矩陣更有用之處在于,對于一般矩陣,每個輸出都可能受到每個輸入的影響。
用一種略顯夸張但并非完全不準確的方式來描述,當無法預先知道哪些輸出取決于哪些輸入時,矩陣是建模的首選工具。當然,我們不應指望矩陣是萬能的;畢竟,線性代數(shù)要求每個輸出都是輸入的線性函數(shù)(這也是它名稱的由來)。線性(linearity)是一個很大的限制。然而,奇妙的是,盡管存在這樣的限制,線性代數(shù)仍然是所有科學領(lǐng)域中如此有用的工具。
2×2 矩陣并沒有什么特別之處;你可以用兩個 3×3 矩陣,甚至兩個 1000×1000 矩陣來合成。反過來(從小到大),如果你觀察 1×1 矩陣,它們的合成方式是:(a)和(b)合成,就是(ab)。
因此,普通的乘法運算可以看作是矩陣合成的一種特殊情況;反過來,我們可以把矩陣合成看作是一種廣義的乘法運算。所以,19世紀中期的數(shù)學家們開始使用“乘法”和“乘積”這樣的詞來代替“合成”這樣的詞,也就不足為奇了。大約在同一時期,他們停止使用“替換”和“表格”這樣的術(shù)語,轉(zhuǎn)而開始使用“矩陣”這個詞。
19世紀的代數(shù)學家們將沿用數(shù)百年的數(shù)字乘法符號引入新興的線性代數(shù)學科時,他們實際上是在說“矩陣的行為有點像數(shù)字”,但也有例外,“除非它們并非如此”。維特說當 A 和 B 是矩陣時, A 乘以 B 并不總是等于 B 乘以 A ,這沒錯。但他錯在斷言這是線性代數(shù)的缺陷。
許多數(shù)學家認為線性代數(shù)是數(shù)學史上最優(yōu)雅的分支學科之一,它常常被視為新興數(shù)學學科應努力達到的簡潔典范。如果你因為 AB 并不總是等于 BA 而討厭矩陣乘法,那是因為你還沒有真正理解矩陣乘法在數(shù)學、物理以及許多其他學科中的用途。
具有諷刺意味的是,維特援引對稱的概念來貶低矩陣乘法,因為矩陣理論和一門稱為群論的相關(guān)學科是數(shù)學家用來充實我們在藝術(shù)和科學中產(chǎn)生的關(guān)于對稱性的直覺想法的工具。
那么,像維特這樣聰明的人怎么會誤入歧途呢?
證明 vs 計算
我猜想維特的部分困惑源于這樣一個事實:將數(shù)字矩陣相乘得到更大的數(shù)字矩陣的過程非常繁瑣,而繁瑣在心理上往往與厭惡和丑陋感密切相關(guān)。但矩陣乘法的繁瑣與其對稱性(維特錯誤地否認了這種對稱性的存在)息息相關(guān)。
當你以直接的方式將兩個 n×n 矩陣 A 和 B 相乘時,你必須以相同的不變方式計算 n2 個數(shù) ,而這 n2 個數(shù)中的每一個都是 n項之和,而這 n項中的每一項又可以簡單地表示為 A 的一個元素與 B 的一個元素的乘積。
由于這個過程如此重復,人們很容易感到厭倦、注意力不集中,從而導致錯誤。我們往往將對稱和美視為同義詞,但有時過度的對稱會滋生厭倦;過度的重復也會令人反感。想象一下《巴別圖書館》,以及畫面感所喚起的那種存在主義式的恐懼。
維特引用的著名論斷出自 G. H. 哈代之口。哈代從事定理證明,他更傾向于概念性證明而非計算性證明。如果你給他看一個定理證明,其中論證的關(guān)鍵在于用五頁紙驗證某個矩陣乘積的特定值,他會說你根本沒理解自己的定理;他會斷言你應該尋找更具概念性的論證,然后把你的窮舉證明扔進垃圾桶。
但哈代對窮舉的厭惡僅限于數(shù)學證明領(lǐng)域,這與計算年金最優(yōu)定價、計算飛機機翼風切變或微調(diào)人工智能權(quán)重等數(shù)學應用相去甚遠。此外,哈代對你的證明的反對意見會集中在計算的冗長程度上,而不是計算是否涉及矩陣。即使你給他看一個用了 5頁冗長乏味的 19世紀以前的計算方法,而且一次也沒有提到矩陣的證明,他仍然會說:“你的證明只是一種臨時的數(shù)學;它讓讀者相信你的定理是正確的,卻沒有真正解釋為什么這個定理是正確的。”
如果你用槍指著我,逼我把兩個 5×5 的矩陣相乘,我會非常不高興,不僅僅是因為你威脅我的生命;這項任務本身就令人厭惡。但如果你讓我把一百個隨機的兩位數(shù)相加,情況也一樣。矩陣乘法或數(shù)字加法本身并不丑陋;而是這種重復性的任務與哈代所熱愛、我也同樣熱愛的概念性思維截然相反。
任何數(shù)學內(nèi)容,一旦被剝奪了意義,淪為機械的苦差事,都會變得枯燥乏味。但這并不影響其背后的概念。當我們把數(shù)字加法或矩陣乘法外包給計算機時,我們理所當然地把這令人窒息的勞動交給了沒有靈魂的電路。如果我們能夠窺視那些執(zhí)行矩陣乘法的電路內(nèi)部,我們確實會看到一幅噩夢般的、博爾赫斯式的景象:數(shù)十億根釘子一遍又一遍地釘入數(shù)十億塊木板。但請不要把這種勞作與數(shù)學混為一談。
歡迎前往Hacker News加入對本文的討論!https://news.ycombinator.com/item?id=46009660
本文與我正在撰寫的一本書的第十章(“走出子宮”Out of the Womb)相關(guān),這本書暫定名為《數(shù)字究竟是什么?:加法和乘法的更奇特冒險》What Can Numbers Be?: The Further, Stranger Adventures of Plus and Times。如果您對此感興趣,并希望幫助我改進這本書,請訪問http://jamespropp.org/readers.pdf。一如既往,歡迎您在“數(shù)學魔法”(Mathematical Enchantments)WordPress 網(wǎng)站上對本文發(fā)表評論!
參考資料
https://mathenchant.wordpress.com/2025/11/21/is-matrix-multiplication-ugly/
https://www.newyorker.com/magazine/2025/11/03/inside-the-data-centers-that-train-ai-and-drain-the-electrical-grid
https://news.ycombinator.com/item?id=46009660
http://jamespropp.org/readers.pdf
小樂數(shù)學科普近期文章
出版社和作家自薦通道
小樂數(shù)學科普薦書
·開放 · 友好 · 多元 · 普適 · 守拙·![]()
讓數(shù)學
更加
易學易練
易教易研
易賞易玩
易見易得
易傳易及
歡迎評論、點贊、在看、在聽
收藏、分享、轉(zhuǎn)載、投稿
查看原始文章出處
點擊zzllrr小樂
公眾號主頁
右上角
置頂加星★
數(shù)學科普不迷路!
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.