![]()
科學研究的常規流程是先提出問題,做出假設,再進行驗證,這正是日間科學的范式。然而,在本文作者看來,這一模式有自己的不足——假說可能會成為一種負擔(或累贅)。他們通過自己設計的大猩猩實驗及自身科研經驗提出,過于專注特定假設會使研究者忽略數據中潛藏的內容,甚至可能導致過早放棄數據。夜間科學則克服了這一不足,更自由和開放地探索,能幫助研究者發現意料之外的線索。日間科學與夜間科學兩者相互彌補,堅持探索,方能發現新的可能。過往系列文章見《夜間科學》。
這篇文章發表后引發了學界討論。幾位杰出科學家撰文反駁了這篇文章的主要觀點,而本文的兩位作者又刊文辯駁,并再次迎來另一方的回擊。針對科學假說的概念和作用,兩方交鋒兩個回合。《返樸》將后續刊文介紹雙方主要論點。
撰文 | Itai Yanai、Martin Lercher
翻譯 | Kestrel
“悉達多說,‘當一個人在尋覓時,容易出現的情況是,他的眼里只看得見他所尋求的東西,所以他發現不了其他任何事物,結果一無所得。[…] 尋覓的意思是:有一個目標。而發現意味著:自由,開放,漫無目的。’”
——赫爾曼·黑塞(Hermann Hesse)
提出一個假說(或假設,hypothesis),有其隱藏成本。它源于夜間科學和日間科學之間的關系,這是對科學觀念產生和驗證所采取的兩種非常不同的模式。手握假說時,日間科學的強大力量得以釋放,引導我們設計驗證性實驗,估計參數,而當假說無法解釋實驗結果時,我們便將之丟棄。分析一個實驗的結果時,我們的精神聚焦于某個特定的假說,但這可能會妨礙我們去探索數據的其他特征,進而使我們錯失新的思想。對于任意的夜間科學探索,假說反而成為了一種負擔(或累贅)(譯者注:文章原文為liability,本文根據語境翻譯為麻煩、障礙和不利因素等)。在假設驅動的研究中,我們主動給創造力強加上了相應的限制,這在現代生物數據集的背景下尤為值得關切,因為這些數據集往往規模海量,很可能蘊藏著多個獨特且激動人心的新發現。然而,夜間科學也有其自身的麻煩,就是會產生許多站不住腳的關系和子虛烏有的假說。幸運的是,它們能夠在日間科學的光芒下顯露無遺,這也凸顯了兩種模式的互補性——它們彼此能夠克服對方的不足。
大猩猩實驗
許多人記得那個著名的關于選擇性注意力的實驗,其中被試要觀看一段學生們互相傳遞籃球的視頻。如果你沒看過,建議先看看再繼續讀這篇文章。【前往“返樸”公眾號觀看視頻】
在觀看兩隊行動的時候,你的任務是數白隊隊員傳球的次數。整個過程到一半時,一個扮成大猩猩樣子的人會進入視野中,并在隊員中間停下來,用拳頭捶打胸膛,然后從鏡頭畫面另一側離開。令人驚訝的是,有一半的被試完全沒有注意到大猩猩,因為他們專注于數傳球次數,而如果在沒有任務的情況下觀看視頻,不太會有人忽視這個大猩猩。
我們就琢磨,會不會在我們分析數據集的時候也有類似的情況。我們大腦專注于特定的假設,是否會阻礙我們發現新東西?為了驗證這一點,我們虛構了一個數據集,然后讓學生去分析。數據集包含1786個人的身體質量指數(Body mass index,BMI)與每個人在某一天中所走的步數,被分為兩份文件,男女各一份(圖1a)。學生則被分成兩組。我們讓第一組的學生考慮三個特定假設:(i)男性和女性的平均步數存在統計顯著性差異;(ii)女性的步數和BMI之間呈負相關;(iii)男性的步數和BMI之間呈正相關。此外,我們還問了他們是否有任何其他能夠從數據集中得到的結論。而在“沒有假設”的第二組中,我們只問了一個問題:你們能夠從數據集中得到什么結論?
數據集中最值得一提的“發現”就是,如果你只是簡單地用步數對BMI作圖,你會看到一只大猩猩向你招手的圖像(圖1b)。雖然我們會教授學生數據可視化的優點,但回答特定假設驅動的問題并不要求對數據作圖。結果我們發現,受特定假設驅動的學生往往跳過了這個簡單的步驟,直接向著數據更廣闊的方面探索。事實上,總體而言,在分析這個數據集時,“沒有假設”的學生發現大猩猩的概率幾乎比“有特定假設”的學生高五倍(OR=4.8,P=0.034,N=33,Fisher精確檢驗;圖1c)。至少在這個設定下,假設確實成為顯著的不利因素。
![]()
![]()
圖1a兩組學生需分析的人工的數據集,并給其中一組關于BMI與某一天走的步數的顯性假設,另一組沒有。b該數據集的作圖。c兩組學生中是否發現大猩猩的列聯表(“專注假設”,“沒有假設”)。
空游非皆無所依
我們獲取數據時,通常帶著檢驗特定假說的明確目的。但正如大猩猩實驗所揭示的,我們一旦處于一種假說檢驗的思想模式,我們就很可能錯失其他有趣的現象。針對這一點,我們必須有意識地采取另一種觀念模式——一種探索性的模式,從盡可能多的視角去觀察數據。在這種模式下,我們以近乎玩味的態度對待數據,將各種元素交叉比對。我們化身探險家,從一個方向啟程繪制數據地圖,在十字路口轉彎,然后跌跌撞撞走進未曾預料的區域。
本質上,夜間科學是一種鼓勵我們探索和猜想的態度。我們探問:什么東西可能藏在這里?要如何把它引誘出來?夜間科學可能發生在我們最放松的時候,譬如1862年的某個夜晚,弗里德里希·凱庫勒(Friedrich Kekulé)在書房凝視壁爐火光時陷入夢境,直到腦海中浮現出分子之蛇自噬其尾的畫面時,他瞬間將這個意象轉化為苯環結構的假說。然而,更多時候,夜間科學可能要求精神活動的最敏銳狀態:我們不但需要做出前所未有的關聯,還必須同時將其與已有的復雜圖景進行精心比對。要發現我們實驗中的大猩猩,只需要一些靈長類動物外觀的概念。但當你在科學認知的邊界上漫游時,你需要對一個領域有深刻見解,才能識別出某種模式(pattern),或者意識到其不同尋常之處。不同的科學家觀察同一個給定的數據集時,會按其略微不同的知識背景和預期來研究,這就可能凸顯不同的模式。畢竟,“看”(looking)與“看到”(seeing)是不一樣的,這或許就是為什么我們中有些人能夠在已被他人分析過的數據上偶然得到新發現的原因。
不要腦補
“相關性不等于因果性”——或許是所有科研工作者在其職業生涯中都會至少聽過一遍的箴言,它警示人們不要過分看重兩個變量間的單純共變關系(covariation)。誠然,兩個特征之間的相關性不足以推導出因果關系,但因果關系會蘊含某種形式的共變,因此,找到前所未見的相關性可能是對新發現的最初一瞥。我們可以將探索數據視為相關性和模式的“發生器”,此后可以驗證是否存在因果性。
人類智能的主要推動力之一,是我們的頭腦易于發現模式和關聯的能力——邁克爾·舍默【Michael Shermer;譯者注:科學作家,《懷疑論者雜志》(Skeptic magazine)創始發行人、主編】將這種傾向稱為模式感知(patternicity)。模式感知有助于我們產生新的夜間科學思想;它是許多發現的種子。但另一方面,模式感知讓我們容易被隨機性愚弄,即從完全獨立的事物間錯誤地推斷出關聯【這種現象也被稱為幻想性錯覺(apophenia);譯者注:現在很多人譯為“腦補”】。顯然,不受引導的探索會產生站不住腳的結果,而那些錯誤的開端的產生正是夜間科學自身的問題。
日間科學則能緩解這種負擔。從某種意義上說,相關性是夜間科學的領域,而因果性藉由日間科學鞏固。日間科學是挑大梁的人,他來嚴格地驗證假說。盡管日間科學十分強大,但它的模式并不適合于一開始產生新思想的階段。只有在夜間科學的國土,這里沒有遮蔽我們視線的日間科學的特定假說,因而我們能夠以探索性的方式自由思考。科學在白天與黑夜的反復交替中前行,兩者互相克服對方的不足;我們之所以能在夜間科學里自由探索,因為我們相信自己后面能在日間科學中檢驗所產生的假說。
捕魚式取證
在許多科研圈子中,對研究項目最嚴厲的批評莫過于將其貶為“捕魚式取證”(fishing expedition;譯者注:在法律術語中,“捕魚式取證”指一方試圖通過廣泛而模糊的質詢獲取信息的行為,通常缺乏具體證據或依據):指連一個像樣子的假說都沒有的數據探索。但正如我們上文所主張的,這樣專注于假說的批評忽視了一個關鍵點。科學發現不僅是意料之外的,沒有數據它們也不可能被發現。如果一個數據集被精心設計,富含某個特定領域相關的信息,那么最初沒有假說的夜間科學探索就是一種系統產生假說的方式,這種方式不但強大,而且在我們看來,也是美麗的。
我們讀到過的許多發現出自原先被設計成“捕魚式取證”形式的項目,或者一開始有一個假說,但是不得不拋棄而變成了一個這樣的項目。但我們很少聽到這類研究的歷史細節,因為講一個關于合乎邏輯的假說,之后被嚴格的日間科學驗證,構成了一個更好的故事,也是期刊編輯和審稿人更愛讀的故事。我們可以從許多杰出同行研究的傳聞中知曉一二,但最深刻的體會來自我們自己發表的文章。例如,Tin Pang組裝了一個大腸桿菌(E. coli)譜系進化支(clade)基因型和表現型關聯的數據集,為我們的假說尋找進一步支持,即細菌通過逐步的生態位擴張進行演化。但在分析數據過程中,我們發現了更有趣的事情:在大腸桿菌演化歷史中,有超過3000個可探測到的代謝創新(metabolic innovation,譯者注:指生物進化過程中,通過基因突變、水平基因轉移、基因重復或代謝通路重組等方式,產生出全新的代謝能力或優化現有代謝過程的進化事件),但沒有一個需要多于一次的水平基因轉移【horizontal gene transfer;譯者注:指基因在同一代或不同代之間的直接轉移,不依賴繁殖關系,可以跨物種(更多發生在微生物之間);繁殖傳代的基因轉移稱為垂直基因轉移】!
另一個項目,由當時仍是研究生的Michael Levin主導,涉及收集5個線蟲物種胚胎發生期間的基因表達數據集并組裝,最初的想法是它可能揭示基因調控網絡。然而分析這個數據集的過程中,我們發現了一個特別的發育階段,推測它是線蟲的門特征階段(phylotypic stage,譯者注:物種個體發育過程中反映其演化歷史中跨過“門”這一分類階元特征的階段)。
堅持探索,繼續堅持
在數十年的探索性數據分析中,我們學到的一點是:不要放棄數據集。如果它不支持你原先的假說,那么它可能包含對其他可能性的暗示,甚至可能是更有意思的現象。如果數據支持你原先的假說,也要繼續探索下去。如果數據集已被設計和組裝得很好,獲得額外的發現是很有可能的。它們不會在你看第一眼的時候就能夠被識別出來,而是需要花時間慢慢展現。一個未被充分意識到的事實是,一個人永遠無法真正“完成”對一個數據集的分析。你只是在某個時間節點決定停下來,轉向別處,留下了一些沒發現的內容。由于夜間科學要求一種高度創造性的狀態,這并不令人驚訝,恰好映照了詩人保羅·瓦勒里(Paul Valéry)在1933年所描述的藝術中的處境——“作品永無完成之日,唯有放棄之時(un ouvrage n’est jamais achevé . . . mais abandonné) ”。
基于本文的前提,我們當然需要超越原先的假說,即“假說可能阻止發現”,所以我們進一步探索了大猩猩實驗數據集。我們的確發現了其他可能性的暗示:假說也可能讓你過早地放棄數據。那些有假設要去驗證的學生們,不去嘗試(作圖)或者試了初始的幾個步驟就放棄了的可能性,是沒有假設要驗證的學生的兩倍以上。盡管這種差異未達到統計學顯著性(OR=2.15,P=0.21,N=44,Fisher精確檢驗),但這提示我們可以進行進一步的日間科學實驗。也許我們可以通過提供更多數據探索和發現的機會,來保持學生對科學的積極性。
總而言之,當處理數據的時候,要保持開放的心態。特別要思考數據集的維度特征,研究不同維度間的變化;研究這些維度上的變化可能反映了什么,然后嘗試將其關聯到該數據集以外的方面。通過不斷追問,還有哪些維度能被整合起來以解釋所觀察到變化,你便做好了迎接發現的姿態。讓你的幻想自由馳騁,想出各種各樣的假說,它們可能在數據集中留有蛛絲馬跡。有可能大猩猩就藏在那里。
作者簡介
![]()
Itai Yanai 是紐約大學應用生物信息學實驗室科學主任,生物化學與分子藥理學系教授,主要研究通過全局基因表達視角研究動態系統,包括腫瘤發生、宿主-病原體相互作用和胚胎發育。
![]()
Martin Lercher是德國杜塞爾多夫海因里希?海涅大學計算機科學與生物學系教授,計算細胞生物學研究組負責人。該團隊致力于探索細胞系統的分子組織與進化機制,重點研究代謝過程,核心目標是揭示通過自然選擇優化復雜系統所形成的設計原理。
Itai Yanai 與 Martin Lercher 合著科普書The Society of Genes,討論“自私的基因”如何協同作用構建生物體,基因內的競爭與合作關系。兩人在《基因組生物學》(Genome Biology)期刊發表“夜間科學”系列文章,即科研背后那些未被廣泛關注卻令人興奮的重要探索過程,展現了科學思維中富有創造性的一面,在科研實踐哲學的討論中具有很大影響。
本文基于知識共享許可協議(CC BY 4.0)譯自Yanai, I., Lercher, M. A hypothesis is a liability. Genome Biol 21, 231 (2020). https://doi.org/10.1186/s13059-020-02133-w
注:本文封面圖片來自版權圖庫,轉載使用可能引發版權糾紛。
![]()
特 別 提 示
1. 進入『返樸』微信公眾號底部菜單“精品專欄“,可查閱不同主題系列科普文章。
2. 『返樸』提供按月檢索文章功能。關注公眾號,回復四位數組成的年份+月份,如“1903”,可獲取2019年3月的文章索引,以此類推。
版權說明:歡迎個人轉發,任何形式的媒體或機構未經授權,不得轉載和摘編。轉載授權請在「返樸」微信公眾號內聯系后臺。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.