★加星zzllrr小樂公眾號數(shù)學(xué)科普不迷路!
本月主題:
1. 杰利蠑螈的數(shù)學(xué)
2. “蛋白質(zhì)宇宙的拓?fù)涮匦浴?/strong>
作者:Tony Phillips(石溪大學(xué)數(shù)學(xué)教授)2025-10-8
譯者:zzllrr小樂(數(shù)學(xué)科普公眾號)2025-10-9
1. 杰利蠑螈的數(shù)學(xué)原理
杰利蠑螈(Gerrymandering)是指繪制不成比例地有利于某一政黨的立法地圖的做法。最近,德克薩斯州新制定的親共和黨立法地圖 https://www.texastribune.org/2025/08/23/texas-congressional-map-lawsuit/ 引發(fā)了訴訟,民主黨州甚至威脅要采取類似行動 https://www.nytimes.com/2025/09/10/opinion/gerrymandering-california.html 。哈佛大學(xué)經(jīng)濟學(xué)家羅蘭·弗萊爾(Roland Fryer)在2025年8月12日刊登于《紐約時報》的一篇客座文章中 https://www.nytimes.com/2025/08/12/opinion/math-solution-gerrymandering.html ,分享了一個他認(rèn)為有助于識別杰利蠑螈地圖的指標(biāo)。
這一指標(biāo)被稱為“相對接近指數(shù)”(RPI,Relative Proximity Index),由弗萊爾和理查德·霍爾登(Richard Holden)于2007年提出 https://www.nber.org/system/files/working_papers/w13456/w13456.pdf 。它對緊湊性進(jìn)行了精確的數(shù)學(xué)解釋,而緊湊性正是美國國家州議會委員會 https://www.ncsl.org/elections-and-campaigns/redistricting-criteria 制定公平立法地圖的兩大“傳統(tǒng)標(biāo)準(zhǔn)”之一。(雖然不公正劃分選區(qū)的做法并不被認(rèn)為是好的做法,但法律并未明確禁止。各州只需盡可能劃分人口比例相等的選區(qū)即可。)不同州對緊湊性的衡量標(biāo)準(zhǔn)有所不同,婦女選民聯(lián)盟的這些例子 https://my.lwv.org/sites/default/files/leagues/wysiwyg/North%20Carolina/fs-compact.pdf 就證明了這一點。
目前的緊湊度衡量標(biāo)準(zhǔn)是基于選區(qū)的幾何形狀:狹長的選區(qū)或周長較長的選區(qū)會受到懲罰。然而,F(xiàn)ryer 和 Holden 的指數(shù)則基于選民的位置來衡量緊湊度——具體來說,是選區(qū)內(nèi)選民之間的平均物理距離。該指數(shù)隨后將這一平均物理距離與任何可能的選區(qū)劃分方案所能達(dá)到的最小物理距離進(jìn)行比較。RPI 實際上與目前的衡量標(biāo)準(zhǔn)呈負(fù)相關(guān),因此可能會推薦與目前使用的地圖截然不同的地圖。
這個平均距離是如何計算的?我們首先將州 S 想象成一個二維平面,居住著編號為 1,2,...,N 的個人。如果該州選出 M 名立法者,則人口均等要求規(guī)定 S 應(yīng)劃分為 M 個選區(qū) D?, D?, ..., D?,每個選區(qū)約有 N/M 名居民。要計算 Fryer 和 Holden 的平均距離測量值,請計算居住在同一選區(qū)的任意一對 i 和 j 之間的物理距離 d_{ij}。對于每個選區(qū) D_k,將所有這些距離的平方相加:
∑_{i,j ∈ D_k} d_{ij}2
然后,將所有 M 個選區(qū)的結(jié)果相加,得到
π(D?, ..., D?) = ∑_{k=1}^{M} ∑_{i,j ∈ D_k}d_{ij}2
Fryer 和 Holden 舉了一個例子來說明這一點。下圖改編自他們的文章,展示了一個假設(shè)的州,該州有兩張可能的立法地圖:一張是藍(lán)色的(B ),另一張是橙色的( O )。藍(lán)色地圖中,同一選區(qū)選民之間的平均距離為π(B) = 24 ;橙色地圖中,平均距離為 π(O) = 16。其他分區(qū)的π-得分均不低于 16 。
![]()
六個頂點排列成兩行。第一行包含頂點 1、2、3;第二行包含頂點 4、5、6。
在這個簡單的例子中,一個州有六名居民,位于一個 1 公里網(wǎng)格的頂點。他們將被分配到兩個選區(qū)。圖中展示了兩種劃分方案。在藍(lán)色方案中,選區(qū)的人口分別為 {1,2,3}和{4,5,6} 。在橙色方案中,選區(qū)的人口分別為 {1,4,5}和 {2,3,6}。
圖源:Tony Phillips
由于最小平均距離是橙色地圖所達(dá)到的,因此為了計算特定地圖的 RPI,我們?nèi)∑淦骄嚯x與 π(O) 的比值。因此,藍(lán)色分區(qū)的 RPI 等于 π(B) 與 π(O) 的比值,即 24/16 = 1.5。橙色分區(qū)的 RPI 當(dāng)然是 π(O)/π(O) = 1。
這種自然的緊湊性度量方法的缺點在于,目前已知的唯一找到最小平均距離的方法需要測試所有可能分區(qū)集合中的每個元素,而該集合的大小會隨著該州人口的增加而呈指數(shù)增長。作者以加利福尼亞州的簡化模型為例,將該集合的大小設(shè)為 78.4×10??3?1。
事實上,正如他們所說,最緊湊分區(qū)問題是計算復(fù)雜性理論歸類為“NP難”的一類計數(shù)問題之一。是否存在一種通用的方法來控制這些問題是數(shù)學(xué)中一個懸而未決的問題,其重要性足以成為價值百萬美元的千禧年大獎難題之一 https://www.claymath.org/millennium-problems/ 。
因此,就目前情況而言,從實際角度來看,無法獲得精確的解決方案。但作者找到了一種解決方法:利用人口普查數(shù)據(jù)(即該州每個立法選區(qū)的人口中心)中包含的額外信息,他們可以構(gòu)建出一個接近最緊湊分區(qū)的近似值。
為了了解轉(zhuǎn)向最緊湊選區(qū)的實際后果,作者回顧了2000年加利福尼亞州、紐約州、賓夕法尼亞州和德克薩斯州選舉的數(shù)據(jù),并研究了從現(xiàn)行制度轉(zhuǎn)變?yōu)樽罴阎贫葘⑷绾斡绊戇x舉結(jié)果。針對這兩種情況,他們分析了數(shù)百次選舉模擬,記錄了各政黨贏得的席位比例如何隨其得票率的變化。他們得出結(jié)論,最緊湊的選區(qū)將使選舉結(jié)果在統(tǒng)計上更顯著地反映實際投票情況。
2. “蛋白質(zhì)宇宙的拓?fù)涮匦浴?/strong>
這是2025年8月13日發(fā)表在《自然通訊》Nature Communications上的一篇文章 https://www.nature.com/articles/s41467-025-61108-2 的標(biāo)題。正如標(biāo)題所示,這項工作的范圍非常廣泛:AlphaFold2 數(shù)據(jù)庫 https://alphafold.ebi.ac.uk 中建模的2.14億個獨特蛋白質(zhì)。作者指出,蛋白質(zhì)科學(xué)的一個主要原則是“蛋白質(zhì)的形狀決定了它的功能”。這促使他們系統(tǒng)地清點數(shù)據(jù)庫中的所有蛋白質(zhì)形狀。為此,他們運用了21世紀(jì)拓?fù)鋵W(xué)的一項創(chuàng)新,即對形狀進(jìn)行數(shù)學(xué)研究,稱為持久同調(diào)(persistent homology, PH,也稱持續(xù)同調(diào)) https://www.ams.org/publicoutreach/feature-column/fc-2016-12 。(另見此綜述文章 https://arxiv.org/pdf/2004.00738 )
持久同調(diào)是一種為點云 X 賦予有意義形狀的方法。使用正實參數(shù) ε,我們在距離小于ε的任意兩點之間畫一條邊;當(dāng)三個點可以放入直徑為 ε 的球體中時,我們填充一個三角形;當(dāng)四個點可以放入直徑為 ε 的球體中時,我們填充一個四面體。這就得到了所謂的單純復(fù)形(simplicial complex),我們記為 X^ε。單純復(fù)形具體的意思是,每當(dāng)一個四面體屬于 X^ε 時,它的三角形面也必須屬于 X^ε,等等。(這根據(jù)我們定義 X^ε 的方式自動實現(xiàn))
通常將點、邊、三角形和四面體稱為單純形(單數(shù)simplex,復(fù)數(shù)simplices),并按如下方式標(biāo)記它們。 X 中的點 p 是 0-單純形 ?p?, p 和 q 之間的邊是 1-單純形 ?pq?,等等。 k維單純形(我們將使用 ? 中的系數(shù),即 0 和 1 ,以及 1+1=0)的線性組合稱為一個k-鏈(k-chain)。 X^ε的k-鏈形成一個 ?-向量空間。我們將這個向量空間標(biāo)記為 C_k^ε(X)。它的基是 k-單純形的集合。
同調(diào)是圍繞邊界(boundary)運算建立的。四面體 3-單純形 ?pqrs?的邊界是其四個面之和, ?pqr?+ ?pqs?+ ?prs?+ ?qrs?,等等:三角形的邊界是其三條邊之和,邊的邊界是其兩個端點之和,點的邊界是 0 。這在基礎(chǔ)元素上定義了邊界,并且該定義擴展到線性變換 ?_k:C_k^ε(X) → C_{k-1}^ε(X),在我們的例子中對應(yīng)于 k=1,2,3 。
同調(diào)的基本原理是邊界的邊界為零。這在單純形上很容易驗證,因此它對任何鏈都成立。例如,四面體邊界的每條邊恰好出現(xiàn)兩次,分別出現(xiàn)在兩個相鄰的三角形面上,得出系數(shù) 0 mod 2。
這尤其意味著,由某個 (k+1)-鏈的所有邊界組成的空間是所有邊界為零的 k-鏈的子空間。這讓我們將第k個同調(diào)向量空間 H_k^ε(X) 定義為商空間:在 C_k^ε(X) 中,取由所有邊界為 0 的 k-鏈組成的向量子空間,除以由某個 (k+1)-鏈的所有邊界組成的子空間。因此,在商中,如果兩個 k-環(huán)的和是 (k+1)-鏈的邊界,我們就稱它們等價;特別是,如果一個環(huán)本身就是邊界,則它就等價于0。粗略地說,H_k^ε(X) 跟蹤 X^ε 中的 k-環(huán),它們不是任何邊界。
從這個粗略的意義上講,H?^ε(X) 記錄的是沒有內(nèi)部的多邊形——作者稱之為“洞”(hole)。 H?^ε(X) 記錄的是空的多面體表面,或稱“空隙”(void)。同時, H?^ε(X) 記錄的是位于 X^ε中不同連通分量中的點對。
當(dāng)我們改變 ε 時,持久性就會出現(xiàn)。假設(shè)兩點 1 和 2 的距離 δ 大于我們選擇的參數(shù) ε。那么 C?^ε(X) 中的鏈 ?1?+ ?2? 是一個 0-環(huán),它不是邊界,因此表示 H?^ε(X) 中的 0 維同調(diào)類。但如果我們增加 ε 直到它大于距離 δ,鏈 ?1?+ ?2? 就成為 1-單純形 ?12?的邊界。也就是說,它的同調(diào)類現(xiàn)在為0。原始類沒有持久化。下面是一個更詳細(xì)的例子。
![]()
左圖:四個點,標(biāo)記為 1、2、3、4,參數(shù)為 ε。點 2 到 3、點 3 到 4 以及點 4 到 1 之間均存在線段。點 1 和 2 之間沒有線段。
中圖:參數(shù)已增加到 δ,點 1 和 2 之間現(xiàn)在存在一條線段。
右圖:參數(shù)已增加到 δ',由點構(gòu)成的四邊形現(xiàn)在已填充。
一維同調(diào)類的生與滅
圖a. 在 X^ε中,邊 ?14?、?34?和?23?不構(gòu)成環(huán)的一部分,因為邊 ?12?不在 X^ε 中。
圖b. 當(dāng) ε 增加到 δ 時,邊 ?12?連接了單純復(fù)形。這四條邊現(xiàn)在構(gòu)成一個無邊界環(huán),因此是 H?^ε(X) 中的非零類。
圖c. 此類不持久:當(dāng) δ 增加到 δ' 時,2-單純形 ?123?和 ?134?連接復(fù)形 X^{δ'}。鏈 ?12?+?23?+?34?+?14?是?123?+?134?和的邊界,因此這個環(huán)現(xiàn)在在 H?^{δ'}(X) 中為0。
圖源:Tony Phillips
Madsen及其合作者用點云對 2.14 億個 AlphaFold2 蛋白質(zhì)結(jié)構(gòu)進(jìn)行了近似,其中每個點都給出了該蛋白質(zhì)骨架原子之一在三維空間中的位置。對于人類血紅蛋白這種重要的蛋白質(zhì),點云中有 574 個點 https://pubmed.ncbi.nlm.nih.gov/8890557/ ;對于某些蛋白質(zhì),點云的數(shù)量則高達(dá)數(shù)千個。對于每個點云,他們記錄了持久同調(diào)性。
![]()
左圖:蛋白質(zhì)模型,其中一個環(huán)以紫色突出顯示。
右圖:同一種蛋白質(zhì),其一組鏈構(gòu)成一個多面體的邊,以紫色突出顯示。
在血紅蛋白亞基之一的持久同調(diào)分析階段中,一個“環(huán)”(loop,表示非零一維同調(diào)類的環(huán))和一個“空隙”(表示非零二維類的環(huán))。
圖片1H摘自《自然通訊》16, 7503,根據(jù) CC by-NC-ND 4.0 許可證使用。
作者詳細(xì)闡述了拓?fù)湄S富度(topological richness)的概念,并將其定義為“衡量每種蛋白質(zhì)有多少獨特、持久的拓?fù)涮卣鳎詺埢鶖?shù) [即該蛋白質(zhì)點云中的點數(shù),如上所述] 進(jìn)行歸一化”。它是在點云的持久同調(diào)分析中出現(xiàn)的孔洞和空隙的數(shù)量,參數(shù) ε從 0 變化到點云的大小。
在分析中,他們發(fā)現(xiàn)了一些非常驚人的現(xiàn)象:蛋白質(zhì)的拓?fù)湄S富度在生物學(xué)的三個基本領(lǐng)域——真核生物(eukaryota,細(xì)胞有細(xì)胞核的生物;包括所有動物、植物和真菌)、細(xì)菌(bacteria)和古菌(archaea)——之間存在很大差異。對于真核生物,32%的蛋白質(zhì)表現(xiàn)出拓?fù)湄S富度,而細(xì)菌和古菌僅為 10%,古菌僅為 8%。
參考資料
https://mathvoices.ams.org/mathmedia/tonys-take-august-2025/
https://www.texastribune.org/2025/08/23/texas-congressional-map-lawsuit/
https://www.nytimes.com/2025/09/10/opinion/gerrymandering-california.html
https://www.nytimes.com/2025/08/12/opinion/math-solution-gerrymandering.html
https://www.nber.org/system/files/working_papers/w13456/w13456.pdf
https://www.ncsl.org/elections-and-campaigns/redistricting-criteria
https://my.lwv.org/sites/default/files/leagues/wysiwyg/North%20Carolina/fs-compact.pdf
https://www.claymath.org/millennium-problems/
https://www.nature.com/articles/s41467-025-61108-2
https://alphafold.ebi.ac.uk
https://www.ams.org/publicoutreach/feature-column/fc-2016-12
https://arxiv.org/pdf/2004.00738
https://pubmed.ncbi.nlm.nih.gov/8890557/
小樂數(shù)學(xué)科普近期文章
出版社和作家自薦通道
小樂數(shù)學(xué)科普薦書
·開放 · 友好 · 多元 · 普適 · 守拙·![]()
讓數(shù)學(xué)
更加
易學(xué)易練
易教易研
易賞易玩
易見易得
易傳易及
歡迎評論、點贊、在看、在聽
收藏、分享、轉(zhuǎn)載、投稿
查看原始文章出處
點擊zzllrr小樂
公眾號主頁
加星★
數(shù)學(xué)科普不迷路!
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.