想象一下,我們隨機(jī)從人口統(tǒng)計(jì)表、房價(jià)走勢(shì)、或股票交易量中,隨機(jī)抓出成千上萬個(gè)數(shù)字。
如果我們提取這些數(shù)據(jù)的首位數(shù)字(即 1 到 9 之間那個(gè)數(shù)字),哪個(gè)數(shù)字出現(xiàn)的概率最高?
大多數(shù)人的直覺是:從 1 到 9,每個(gè)數(shù)字出現(xiàn)的概率應(yīng)該是均等的,大約都是 11.1%。但事實(shí)卻是:數(shù)字 1 出現(xiàn)的概率最高,甚至接近30%,而 9 出現(xiàn)的概率還不到5%。
![]()
這種 分布并非 巧合, 而是一個(gè)幾乎統(tǒng)治了所 有自然增長數(shù)據(jù) 集的數(shù)學(xué)定律:本福德定律(Benford's Law)。
為什么世界偏愛數(shù)字“1”?
看似混亂的自然界,其實(shí)暗藏著精準(zhǔn)的對(duì)數(shù)規(guī)律。1881年,天文學(xué)家西蒙·紐康在圖書館翻閱公用對(duì)數(shù)表時(shí),注意到一個(gè)細(xì)節(jié):以 1 開頭的頁面遠(yuǎn)比以 8、9 開頭的更臟更破。這反映了人類處理的數(shù)據(jù)中,低首位數(shù)字的處理頻次占據(jù)了壓倒性的比例。
![]()
這個(gè)發(fā)現(xiàn)并未被正式記錄,直到1938年通用電氣的物理學(xué)家弗蘭克·本福特收集了河流面積、各國人口、物理常數(shù)等20余組、逾兩萬個(gè)數(shù)字進(jìn)行驗(yàn)證。結(jié)論驚人地一致:首位數(shù)字為 1 的數(shù)據(jù)占比30.1%,為 2 的約占 17.6%,依次遞減,到 9 僅剩不足 4.6%,才正式確立并命名了這個(gè)規(guī)律。
為什么現(xiàn)實(shí)世界的數(shù)據(jù)總是不約而同地服從本福德定律?
1.物理本質(zhì):自然界的乘性增長規(guī)律
我們習(xí)慣用線性的眼光看世界。然而,現(xiàn)實(shí)世界的大多數(shù)動(dòng)態(tài)過程并非簡單的加法疊加,而是比例性的乘法增長。無論是細(xì)胞分裂、復(fù)利積累、社會(huì)財(cái)富演變,還是物理學(xué)中的放射性衰變,其變化率通常與當(dāng)前的規(guī)模成正比。這種“利滾利”的現(xiàn)象在數(shù)學(xué)上表現(xiàn)為微分方程:
![]()
這種增長方式?jīng)Q定了:首位數(shù)越小,跨越該區(qū)間所需的相對(duì)增量就越大。
比如,從 100 萬增長到 200 萬,資產(chǎn)需要翻倍(相對(duì)增量為 100%);而從 900 萬增長到 1000 萬,資產(chǎn)僅需微增 11.1%(首位重新回到 1)。
在線性直尺上,1 到 2 和 8 到 9 的物理距離是一樣的;但在乘性增長的世界里,同樣的絕對(duì)增量對(duì)應(yīng)著完全不同的相對(duì)變化。這解釋了為什么數(shù)值在以 1 開頭時(shí)最為“吃力”,這也是本福德定律最核心的物理來源。
2. 對(duì)數(shù)尺度下的線性化轉(zhuǎn)換
由于指數(shù)增長是不斷加速的,很難在統(tǒng)一標(biāo)準(zhǔn)下觀察。數(shù)學(xué)家引入了對(duì)數(shù)空間來解決這個(gè)問題。當(dāng)我們對(duì)增長等式兩邊取自然對(duì)數(shù)ln時(shí),復(fù)雜的指數(shù)增長被“拉直”成了標(biāo)準(zhǔn)的直線方程:
![]()
在這個(gè)轉(zhuǎn)換中,原本劇烈的倍數(shù)擴(kuò)張變成了隨時(shí)間 t 勻速增加的距離。對(duì)數(shù)尺子度量的不再是絕對(duì)數(shù)額,而是增長的進(jìn)度。只要增長率 r 恒定,數(shù)值在對(duì)數(shù)軸上的演化就是等速的。這意味著,系統(tǒng)在某個(gè)區(qū)間停留的時(shí)間,就嚴(yán)格等于該區(qū)間在對(duì)數(shù)軸上的物理長度。1881 年西蒙·紐康發(fā)現(xiàn)對(duì)數(shù)表前幾頁更臟,本質(zhì)上就是因?yàn)槿祟愑^測的數(shù)據(jù)大多處在對(duì)數(shù)軸上那個(gè)漫長的低首位區(qū)間。
3. 對(duì)數(shù)空間里的分配規(guī)律
既然系統(tǒng)在對(duì)數(shù)軸上是勻速推進(jìn)的,那么只要觀察時(shí)間足夠長,數(shù)值落在對(duì)數(shù)軸上任何位置的概率就是相等的。此時(shí),首位數(shù)字 d 出現(xiàn)的概率,完全取決于該數(shù)字在對(duì)數(shù)軸上占據(jù)的空間寬度。
數(shù)字 1 的領(lǐng)地:log??(2) ? log??(1) = 0.30
數(shù)字 2 的領(lǐng)地:log??(3) ? log??(2) = 0.17
數(shù)字 9 的區(qū)域:log??(10) ? log??(9) = 0.046
可以看出,在對(duì)數(shù)這把尺子上,數(shù)字 1 的領(lǐng)地最寬(占總長度30%),數(shù)值穿過它所需的時(shí)間最長。當(dāng)你隨機(jī)觀測一個(gè)跨越多個(gè)數(shù)量級(jí)的自然系統(tǒng)時(shí),落在 1 到 2 區(qū)間的概率,天然就是落在 8 到 9 區(qū)間的 6.5 倍。
通過計(jì)算從 d 到 d+1 的對(duì)數(shù)距離在整個(gè)單位長度中的占比,我們便得到了本福德定律的通用公式:
![]()
這種分配規(guī)律有一種穩(wěn)健的特性:尺度不變性(Scale Invariance)。也就是無論你用什么度量衡,只要數(shù)據(jù)跨度足夠大,位數(shù)字的分布比例都保持恒定,并精準(zhǔn)契合本福德定律。數(shù)學(xué)上,只有對(duì)數(shù)分布具備這種“不隨單位縮放而改變”的深層對(duì)稱性。
數(shù)字世界的“指紋”
人工構(gòu)造的隨機(jī)數(shù)往往會(huì)破壞自然數(shù)據(jù)中固有的對(duì)數(shù)秩序。
2001 年安然公司破產(chǎn)后,審計(jì)人員回溯時(shí)發(fā)現(xiàn),其披露的財(cái)報(bào)中首位數(shù)字的分布嚴(yán)重背離了定律。造假者通過偽造隨機(jī)數(shù)掩蓋關(guān)聯(lián)交易,卻抹去了自然數(shù)據(jù)中特有的分布節(jié)奏;
![]()
在希臘債務(wù)危機(jī)爆發(fā)前,研究人員也利用了本福德定律發(fā)現(xiàn)希臘申報(bào)的 GDP 數(shù)據(jù)偏離度顯著高于其他歐洲國家。后期事實(shí)證明,希臘確實(shí)通過會(huì)計(jì)手段掩蓋了赤字以符合歐元區(qū)準(zhǔn)入門檻。目前,本福德分析已成為稅務(wù)稽查、選舉審查和科研打假中鎖定可疑對(duì)象的標(biāo)準(zhǔn)工具。
這種統(tǒng)計(jì)規(guī)律也存在于圖像診斷中。自然景物的光影過渡通常是連續(xù)且平滑的,在 JPEG 壓縮標(biāo)準(zhǔn)中,圖像被劃分為 8x8 的像素塊,通過離散余弦變換(DCT)將空間位圖映射為頻域系數(shù),其幅值分布高度契合本福德定律。一旦使用圖像處理工具或生成式人工智能進(jìn)行篡改,即便改動(dòng)在視覺上難以察覺,算法也能夠精準(zhǔn)捕捉到系數(shù)分布相較于本福德分布的異動(dòng),從而判定圖像是否經(jīng)過了后期處理。
![]()
希爾定理:多源分布的收斂
既然單一體制(乘性增長)服從定律,那么如果把一整份報(bào)紙里互不相干的數(shù)據(jù)(氣溫、比分、股價(jià)、人口)混在一起呢?
1995 年,數(shù)學(xué)家泰德·希爾(Ted Hill)證明了一個(gè)關(guān)鍵的收斂機(jī)制:如果從多個(gè)不同的、互不相關(guān)的概率分布中隨機(jī)抽取樣本并進(jìn)行混合,最終生成的復(fù)合集合將趨向于符合本福德分布。
這可以被視作對(duì)數(shù)空間的中心極限定理。在普通的加法世界里,大量隨機(jī)變量疊加會(huì)產(chǎn)生正態(tài)分布(鐘形曲線);而在跨越多個(gè)量級(jí)的乘法世界里,多源數(shù)據(jù)的混合疊加則導(dǎo)向了對(duì)數(shù)均勻分布。這種收斂性解釋了為什么復(fù)雜的系統(tǒng)(無論是企業(yè)賬目還是社會(huì)統(tǒng)計(jì))即使包含了很多不具備指數(shù)增長特征的單一環(huán)節(jié),整體上卻能展現(xiàn)出極高的統(tǒng)計(jì)一致性。
本福德定律告訴我們:秩序往往隱藏在表面的不平衡中。造假者可以模仿孤立的數(shù)字,卻永遠(yuǎn)無法重構(gòu)這種自洽的統(tǒng)計(jì)生態(tài)。
end
參考資料:
[1]The Law of Anomalous Numbers. Benford, F.
[2]Benford's Law: Applications for Forensic Accounting, and Fraud Detection. Nigrini, M. J. (2012).
[3]The Distribution of Leading Digits and Uniform Distribution Modulo 1. Diaconis, P.
[4] A Statistical Derivation of the Significant-Digit Law. Hill, T. P.
來源:DataCafe
編輯:楊樂多
轉(zhuǎn)載內(nèi)容僅代表作者觀點(diǎn)
不代表中科院物理所立場
如需轉(zhuǎn)載請(qǐng)聯(lián)系原公眾號(hào)
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.