數(shù)據(jù)本身就只是數(shù)據(jù)而已。 它們所蘊(yùn)含的意義全是人類賦予的。 —納特 · 西爾弗,《信號與噪聲》
![]()
作者:戴維·施皮格爾霍爾特(David Spiegelhalter)
哈羅德·希普曼是整個(gè)英國犯罪史上殺人數(shù)量最多的兇殺犯,盡管從表面上看他根本不符合連環(huán)殺手的典型特征。事實(shí)上,他是一位待人和善的家庭醫(yī)生,在曼徹斯特的城郊工作。1975—1998 年,他至少為 215 名患者注射了過量的阿片類藥物,其中大部分是老年人。希普曼的惡行之所以會敗露,是因?yàn)樗噲D偽造某名患者的遺囑并從中受益:這名患者的女兒是一名律師,變更后的遺囑引起了她的懷疑。經(jīng)刑偵分析后發(fā)現(xiàn),哈羅德·希普曼的電腦里留下了大量篡改病例的痕跡,這使得那些患者的病情看起來比實(shí)際情況嚴(yán)重得多。不過,雖然他很早以前就開始學(xué)習(xí)電腦知識,他的技術(shù)卻不甚高明,以至于他完全不知道每次篡改病例都會在系統(tǒng)里留下記錄(這些帶有時(shí)間戳的記錄是一個(gè)很好的例子,它可以說明有些時(shí)候數(shù)據(jù)能夠揭示背后的真相)。
辦案人員挖出了 15 位土葬逝者的遺體,發(fā)現(xiàn)他們體內(nèi)均含有致命劑量的二乙酰嗎啡(海洛因的學(xué)名)。隨后在 1999 年,哈羅德·希普曼因 15 起謀殺案被司法機(jī)關(guān)起訴,但他選擇不為自己做任何辯護(hù),整個(gè)審判過程中他一言不發(fā)。最終法庭認(rèn)定他有罪,判處他終身監(jiān)禁,并成立了一個(gè)公開調(diào)查小組,以查明除了目前認(rèn)定的這些罪行,他還有哪些未被發(fā)覺的罪行,并調(diào)查警方是否本可更早將其抓捕。這個(gè)公開調(diào)查小組請來了多位統(tǒng)計(jì)學(xué)家,我也是其中之一。我們最終得出的結(jié)論是,有充分的證據(jù)表明他至少謀殺了 215 名患者,另外還有45 名受害者很可能也是被他殺害的。
本書的重點(diǎn)在于“以統(tǒng)計(jì)科學(xué)(statistical science)的視角,回答當(dāng)人們想更好地了解這個(gè)世界時(shí)所遇到的種種問題”—這些重要問題會以深灰色矩形框的形式在書中標(biāo)示出來。為了進(jìn)一步弄清哈羅德·希普曼事件的來龍去脈,我們會很自然地想到這樣一個(gè)問題:哈羅德·希普曼謀害的都是些什么樣的人?他們是在什么時(shí)候遇害的?
這次公開調(diào)查查明了每名受害者的年齡、性別、死亡日期等詳細(xì)信息,如圖 0-1 所示。該圖看上去有些復(fù)雜,它是一張基于受害者年齡與死亡年份的散點(diǎn)圖,黑色的數(shù)據(jù)點(diǎn)代表女性,灰色的數(shù)據(jù)點(diǎn)代表男性。疊加在上方和右側(cè)的條形圖表示各年齡段(以 5 年為間距)、各年份死亡人數(shù)的分布。
![]()
圖 0-1 哈羅德·希普曼的患者遇害時(shí)的年齡及遇害年份
該圖為哈羅德· 希普曼事件中,基于 215 名受害者年齡、死亡年份的散點(diǎn)圖。上方和右側(cè)的條形圖可以體現(xiàn)出各年齡段、各年份死亡人數(shù)的分布狀況,即哈羅德· 希普曼的作案規(guī)律。
通過觀察圖 0-1,我們可以得出一些初步結(jié)論。比如黑點(diǎn)數(shù)量多于灰點(diǎn),這說明受害者主要是女性。另外從右側(cè)的條形圖可以看出,受害者大多是七八十歲的人;再仔細(xì)看看數(shù)據(jù)點(diǎn)的分布,我們又會發(fā)現(xiàn),隨著時(shí)間的推移,受害者中逐漸多了一些年輕人。此外,上方的條形圖清楚地表明,1992 年前后的某段時(shí)間,哈羅德·希普曼停止了作案。調(diào)查后,我們發(fā)現(xiàn)了原因:在此之前,哈羅德·希普曼一直都是和其他醫(yī)生協(xié)同工作,或許是因?yàn)橥聦λa(chǎn)生了懷疑,他離開了團(tuán)隊(duì),獨(dú)自開了一家全科診所。之后他的犯罪活動(dòng)變得愈加頻繁,正如條形圖所示。
對調(diào)查發(fā)現(xiàn)的這些受害者進(jìn)行數(shù)據(jù)分析之后,我們對他的作案方式產(chǎn)生了更多疑問。根據(jù)死亡證明上的信息,我們整理了死在哈羅德·希普曼手中的患者的具體死亡時(shí)間,如圖 0-2 所示。這是一張折線圖,黑線是哈羅德·希普曼的患者的死亡時(shí)間,灰線是當(dāng)?shù)仄渌彝メt(yī)生的患者的死亡時(shí)間(來自抽樣數(shù)據(jù))。其中的規(guī)律實(shí)在太“顯眼”了,完全不需要任何細(xì)致分析就能看出來:哈羅德·希普曼的患者大多死于午后到傍晚這段時(shí)間。
雖然數(shù)據(jù)本身無法解釋背后的原因,但進(jìn)一步調(diào)查后我們發(fā)現(xiàn),他總是在午飯之后對患者進(jìn)行家訪,這段時(shí)間內(nèi)他經(jīng)常可以與患者獨(dú)處。他會以緩解病痛為借口給患者打上一針,但注射器中放置的實(shí)際上是致命劑量的二乙酰嗎啡:患者安然離世之后,他就會篡改他們的病歷,好讓大家覺得這些都是正常死亡。身為調(diào)查小組負(fù)責(zé)人的珍妮特·史密斯爵士后來發(fā)出了如此感慨:“直到現(xiàn)在我都感到一陣陣害怕,那種感覺簡直難以言表。他居然可以每天背著致命武器去見患者,然后裝成一副溫柔體貼的模樣……他怎么能如此淡然地殺人呢!”
雖然他的作案手法風(fēng)險(xiǎn)很高,只需要一次驗(yàn)尸就會暴露,但由于他的患者大多年事已高,且尸體很符合自然死亡的特征,案發(fā)前竟沒有任何一具尸體被檢驗(yàn)過。而且他從未解釋自己的作案動(dòng)機(jī):審判時(shí)他一言不發(fā),被抓之前也從來沒有向任何人透露過自己的惡行,哪怕是自己的家人。被關(guān)押后沒多久,他就在監(jiān)獄中自殺了,死亡時(shí)的年齡剛好可以讓他的妻子領(lǐng)取一筆撫恤金
![]()
圖 0-2 哈羅德·希普曼的患者的死亡時(shí)間與當(dāng)?shù)仄渌彝メt(yī)生的患者的死亡時(shí)間對比,其中的規(guī)律不需要任何細(xì)致分析便可以看出。
我們可以把這種迭代性的、探索性的工作看作刑偵領(lǐng)域特有的一種統(tǒng)計(jì)學(xué),這種統(tǒng)計(jì)學(xué)不涉及數(shù)學(xué)公式,也不涉及復(fù)雜理論,我們唯一的目的就是找出規(guī)律,然后利用這些規(guī)律發(fā)現(xiàn)更多的問題。雖然我們只能根據(jù)每起案件的確鑿證據(jù)去給哈羅德·希普曼定罪,但這種數(shù)據(jù)分析可以幫助我們理解他的犯罪模式。
在第 10 章中,我會向大家說明,正式的統(tǒng)計(jì)分析是否可以幫助我們更早地發(fā)現(xiàn)哈羅德·希普曼的罪行。另一方面,哈羅德·希普曼的故事可以充分地說明,數(shù)據(jù)分析是一種強(qiáng)有力的工具,它可以幫助我們理解這個(gè)世界,做出更準(zhǔn)確的判斷,而這正是統(tǒng)計(jì)學(xué)的意義所在。
將世界數(shù)據(jù)化
對哈羅德·希普曼的犯罪行為進(jìn)行數(shù)據(jù)統(tǒng)計(jì)時(shí),我們需要放下這一連串的悲劇所帶來的情感沖擊,所有人的生死、特征都必須簡化為一組可以計(jì)算、可以用圖表展現(xiàn)的數(shù)字或事實(shí)。雖然這看上去有些不近人情,但我們只要想用統(tǒng)計(jì)學(xué)來闡釋世界,就必須嚴(yán)肅起來,將日常的種種體驗(yàn)和感受轉(zhuǎn)化為數(shù)據(jù),這意味著我們需要對事件進(jìn)行分類和標(biāo)記、記錄觀測結(jié)果、分析結(jié)果、給出結(jié)論。
雖然分類和標(biāo)記聽上去很簡單,但在實(shí)際過程中我們可能會遇到很大的挑戰(zhàn)。下面這個(gè)問題就是一個(gè)很好的例子,每個(gè)關(guān)心環(huán)境的人應(yīng)該都會對這個(gè)問題產(chǎn)生興趣:地球上一共有多少棵樹?
在思索該如何回答這一問題之前,我們首先要解決一個(gè)更基本的問題:什么是“樹”?你可能會覺得,只要看到一棵樹就能認(rèn)出它是一棵樹,但你有沒有想過,你的判斷可能會和別人大相徑庭。你認(rèn)為是樹的東西,在他人看來有可能只是一個(gè)灌木叢。因此,為了將個(gè)人體驗(yàn)轉(zhuǎn)化為數(shù)據(jù),我們首先要給出嚴(yán)格的定義。
根據(jù)官方給出的定義,“樹”是一種胸徑足夠大、具有木質(zhì)莖干的植物。美國林務(wù)局認(rèn)為,一株胸徑大于 5 英寸的植物才能被稱為“樹”,但其他大多數(shù)權(quán)威機(jī)構(gòu)給出的標(biāo)準(zhǔn)卻只有 4 英寸。
還有一個(gè)問題是,我們不可能踏遍整個(gè)地球,逐一測量每一株具有木質(zhì)莖干的植物的胸徑,然后統(tǒng)計(jì)出符合標(biāo)準(zhǔn)的數(shù)量。因此,研究人員采用了一個(gè)更具可行性的辦法:他們按照地貌類型區(qū)分出了一系列地區(qū),即“生物群系”,然后統(tǒng)計(jì)了每平方千米的樹木均量。之后他們利用衛(wèi)星圖像估算出了每種生物群系的總面積,并建立了復(fù)雜的統(tǒng)計(jì)模型,最終算出地球上一共大約有 3.04 萬億棵樹。雖然這一數(shù)值聽上去非常大,但你要知道,他們之前的估算值幾乎是這一數(shù)值的兩倍。
就連“樹”的定義也存在分歧,那么更模糊的概念變得更難以定義,這也就不足為奇了。舉個(gè)極端的例子:英國對“失業(yè)”的官方定義,在 1979—1996 年至少變更過 31 次。另外 GDP(國內(nèi)生產(chǎn)總值)的定義也在不斷修訂,比如在 2014 年,英國將非法毒品交易和賣淫的產(chǎn)值也算到了 GDP 當(dāng)中,對這些領(lǐng)域的產(chǎn)值估算用到了一些不同尋常的數(shù)據(jù)源,比如 Punternet 網(wǎng)站,該網(wǎng)站主要提供賣淫服務(wù)價(jià)目表,以及嫖客點(diǎn)評功能。
就連個(gè)人感受這種東西也可以被數(shù)據(jù)化,然后進(jìn)行統(tǒng)計(jì)分析。2017 年 9 月,即財(cái)政年度末尾,15 萬英國民眾接受了一項(xiàng)調(diào)查:“以滿分 10 分來算,你認(rèn)為自己昨天過得有多幸福?”6 大家的平均分為 7.5 分,比 2012 年的 7.3 分有所提高,具體原因可能和 2008 年金融危機(jī)之后經(jīng)濟(jì)逐漸復(fù)蘇有關(guān)。另外,50~54 歲年齡段的人評分最低,70~74 歲年齡段的人評分最高,這一結(jié)果簡直“太英國了”。
幸福感很難衡量,不過判斷一個(gè)人是生是死應(yīng)該要簡單得多:正如本書中的一些例子所展示的,生和死是統(tǒng)計(jì)學(xué)中相當(dāng)常見的問題。然而在美國,每個(gè)州對死亡都有著單獨(dú)的法律定義,盡管 1981年曾出臺了《統(tǒng)一死亡認(rèn)定法案》,旨在建立一個(gè)統(tǒng)一的死亡認(rèn)定標(biāo)準(zhǔn),但各州之間仍存在著細(xì)微差異。原則上來講,一位在亞拉巴馬州被宣布死亡的逝者,穿過佛羅里達(dá)州的邊界之后就不再是法律意義上的逝者了,因?yàn)楦鶕?jù)佛羅里達(dá)州的規(guī)定,死亡登記必須由兩名經(jīng)過認(rèn)定的醫(yī)生執(zhí)行。
這些例子表明,統(tǒng)計(jì)數(shù)據(jù)總是建立在主觀判斷之上,想要把復(fù)雜的個(gè)人體驗(yàn)完完全全并十分準(zhǔn)確地轉(zhuǎn)換為數(shù)據(jù)編碼,放進(jìn)電子表格或統(tǒng)計(jì)軟件,根本就是一件不可能的事。雖然對個(gè)體特征和我們周圍世界的特征進(jìn)行定義、計(jì)算、測量是一件很困難的事,但我們得到的也只有信息而已,這只是我們認(rèn)知世界的第一步。
這種情況下,我們需要注意數(shù)據(jù)有兩大局限性。首先,數(shù)據(jù)幾乎總是無法完美衡量我們的喜好程度:詢問大家在滿分為 10 分的情況下,上周過得有多幸福,實(shí)際上很難概括出國民的幸福水平。其次,任何一個(gè)我們試圖將其數(shù)據(jù)化的事物,都會因地點(diǎn)、人物、時(shí)間產(chǎn)生差異,核心問題就在于,我們該如何從這些看上去有些隨機(jī)的變異性(variability)中提煉出有價(jià)值的結(jié)論。
幾個(gè)世紀(jì)以來,統(tǒng)計(jì)學(xué)一直都是我們認(rèn)知世界的最重要的工具之一,但統(tǒng)計(jì)學(xué)家們總是避不開這兩大難題。不過另一方面,統(tǒng)計(jì)學(xué)也為我們“該如何闡釋這些不完美的數(shù)據(jù)”提供了堅(jiān)實(shí)的理論基礎(chǔ),讓我們可以將有意義的相關(guān)性和因個(gè)體差異而產(chǎn)生的噪聲區(qū)分開來。不過世界總是在不斷變化,我們會不斷面臨新的問題,不斷發(fā)現(xiàn)新的數(shù)據(jù)來源,所以統(tǒng)計(jì)學(xué)也會隨著時(shí)代的發(fā)展而不斷更新。
雖然人類每時(shí)每刻都在計(jì)算、測量,但直到 17 世紀(jì) 50 年代左右,現(xiàn)代統(tǒng)計(jì)學(xué)才真正開始逐漸發(fā)展成一門獨(dú)立學(xué)科,正如我們將在第 8章中看到的,布萊瑟·帕斯卡和皮埃爾·費(fèi)馬在這一時(shí)期首次正確理解了概率論。由于有了處理變異性的堅(jiān)實(shí)數(shù)學(xué)基礎(chǔ),統(tǒng)計(jì)學(xué)也得以迅速發(fā)展。結(jié)合人死亡年齡的數(shù)據(jù),概率論為計(jì)算養(yǎng)老金和年金提供了堅(jiān)實(shí)的基礎(chǔ)。當(dāng)科學(xué)家們掌握了如何利用概率理論處理測量中的變異性時(shí),天文學(xué)也經(jīng)歷了革命性的變革。維多利亞時(shí)代,很多數(shù)學(xué)愛好者癡迷于收集人體數(shù)據(jù)(以及其他各種數(shù)據(jù)),這使得統(tǒng)計(jì)分析和遺傳學(xué)、生物學(xué)、醫(yī)學(xué)之間建立了緊密的聯(lián)系。到了 20 世紀(jì),統(tǒng)計(jì)學(xué)變得更加數(shù)學(xué)化,然而遺憾的是,對許多學(xué)生和從業(yè)者來說,統(tǒng)計(jì)學(xué)似乎僅僅是對一套統(tǒng)計(jì)工具機(jī)械應(yīng)用的代名詞,而其中很多工具都是以統(tǒng)計(jì)學(xué)家的名字命名的,關(guān)于這些統(tǒng)計(jì)學(xué)家,之后的章節(jié)會有詳細(xì)介紹。
這種將統(tǒng)計(jì)學(xué)視為一種“工具”并機(jī)械地應(yīng)用于各種情境,而沒有更深入理解或思考的觀點(diǎn),目前正面臨著重大挑戰(zhàn)。首先,我們正處于一個(gè)數(shù)據(jù)科學(xué)(data science)的時(shí)代,企業(yè)和機(jī)構(gòu)正在從交通監(jiān)控、社交媒體、網(wǎng)購貨物等日常信息中統(tǒng)計(jì)出龐大且復(fù)雜的數(shù)據(jù)集,并據(jù)此進(jìn)行旅行路線優(yōu)化、個(gè)性化廣告推薦、購物商品推薦等技術(shù)創(chuàng)新—第 6 章中,我們會介紹建立在大數(shù)據(jù)(big data)之上的各種算法(algorithm)。統(tǒng)計(jì)知識、數(shù)據(jù)管理、編程技巧、算法研發(fā)等知識或能力,逐漸成為數(shù)據(jù)科學(xué)家必備的技能。
隨著大規(guī)模數(shù)據(jù)集和方便快捷的分析軟件的普及,有不少人覺得統(tǒng)計(jì)方法的專業(yè)培訓(xùn)似乎變成了一件可有可無的事,這種觀點(diǎn)實(shí)在過于天真。事實(shí)上,數(shù)據(jù)處理量正在變得越來越大,科學(xué)研究的數(shù)量和復(fù)雜度也在不斷攀升,我們越來越難以歸納出合理的結(jié)論,這使得我們對統(tǒng)計(jì)知識的需求不降反增。面對愈加龐雜的數(shù)據(jù),我們必須更深入了解數(shù)據(jù)的價(jià)值所在。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.