在20世紀中葉以前,藥物發現更像是一門“玄學”。科學家們依賴經驗和運氣,從天然產物中尋找能引起生理反應的物質。
但這種“只知其然,不知其所以然”的表型篩選效率極低。隨著受體理論的誕生和分子生物學的興起,我們才真正開啟了靶點導向的理性設計時代。
今天,站在 AI 與大數據的潮頭,回看這五次技術迭代的歷程,我們能清晰地看到人類是如何將偶然變成必然的。
一、藥物篩選技術的五次迭代
藥物篩選技術的發展并非線性遞增,而是經歷了數次范式轉移。根據相關文獻這一歷程可以清晰地劃分為五個階段,每一次迭代都是對前一代局限性的技術突破,也是人類對生命化學本質認知邊界的拓展。
![]()
1、第一次迭代:低通量隨機篩選
在20世紀中葉以前,藥物發現很大程度上是一門依賴經驗和運氣的“手工藝”。這一階段的特征是篩選通量極低,且往往缺乏明確的分子靶點。科學家們主要關注天然產物(植物提取物、微生物發酵液等),利用全動物模型(如感染小鼠)或離體組織(如平滑肌條)進行測試。
主要特征與局限:
?依賴表型:篩選依據是觀察到的生理效應(如血壓下降、細菌死亡),而非分子層面的結合。這種“表型篩選”雖然能保證化合物在生物體內的有效性,但往往難以闡明其具體作用機理(MoA),導致后續優化困難。
?通量限制:由于依賴手工操作和生物活體,每天只能篩選幾個到幾十個化合物。
?資源限制:化合物來源局限于天然產物和已有的少量合成染料或化學品。
盡管效率低下,這一時期卻誕生了抗生素(如青霉素、鏈霉素)和許多經典藥物(如阿司匹林、嗎啡),奠定了現代制藥工業的基礎。
2、第二次迭代:基于機理的低通量篩選
隨著20世紀60-70年代分子生物學和生物化學的興起,人類開始從分子水平理解疾病機制。受體理論的確立和酶學的發展,使得科學家能夠將特定的蛋白質(如酶、受體、離子通道)分離出來作為藥物靶點。
范式轉變:
?靶點導向:篩選不再是漫無目的的隨機嘗試,而是針對特定的生物大分子進行。例如,針對血管緊張素轉化酶(ACE)尋找高血壓藥物。
?理性設計萌芽:這一階段開始出現基于底物或已知配體結構的理性設計思想,雖然篩選通量依然受限于手工操作(如放射性配體結合實驗),但命中率較隨機篩選有了顯著提高。
受體理論的確立讓“靶點導向”成為了可能,篩選不再是漫無目的的隨機嘗試 。但在開啟大規模篩選之前,一個更為核心的問題擺在了科學家面前:在成千上萬個潛在靶點中,究竟哪一個才值得我們投入巨大的資源?
此時,基于大數據的理性設計思想開始超越單純的分子層面,延伸至戰略層面。現代藥物研發團隊在立項初期,往往會借助一些數據庫,如在摩熵醫藥數據庫的全球藥物研發數據庫里來進行一場“宏觀篩選”。
與實驗室里的微觀篩選不同,這種基于商業與臨床數據的宏觀篩選,旨在規避擁擠的賽道和高風險靶點。通過分析摩熵數據庫中關于特定靶點的全球管線分布、在研藥物的臨床階段流轉率以及競品的專利布局,科學家們能夠在源頭識別出最具潛力的“藍海”靶點。這意味著,在我們的移液槍吸取第一滴試劑之前,大數據的力量已經幫助我們排除了那些注定無法成藥的方向,讓后續的高通量篩選(HTS)擁有了更精準的戰略錨點。
3、第三次迭代:基于機理的高通量隨機篩選(HTS)
20世紀80年代末至90年代,藥物發現進入了工業化時代。自動化液體處理工作站、高密度微孔板(96孔、384孔甚至1536孔板)以及靈敏的檢測技術(如熒光、發光)的引入,使得HTS成為可能。
技術爆發:
?規模爆炸:化合物庫的規模從幾千種迅速膨脹到成千上萬種,大型制藥企業的實體庫通常包含100萬至500萬種化合物。
?工業化流程:篩選變成了一條流水線作業,機器人每天可以測試數萬甚至十萬個樣品。
?組合化學:為了喂飽HTS這頭“巨獸”,組合化學技術應運而生,能夠快速合成大量結構多樣的化合物庫。
面臨的挑戰:
盡管HTS極大地擴展了搜索范圍,但也帶來了巨大的成本壓力。篩選100萬個化合物需要消耗大量的試劑、靶點蛋白和時間。此外,HTS產生的數據雖然龐大,卻也混雜著大量的假陽性(False Positives),例如某些化合物可能通過非特異性聚集或干擾檢測信號而顯色,被稱為“頻繁擊中者”(Frequent Hitters)或“泛測定干擾化合物”(PAINS)。
4、第四次迭代:虛擬篩選(VS)與高通量篩選(HTS)的串聯與整合
為了解決HTS的“高投入、低產出”悖論,計算化學開始走向舞臺中央。虛擬篩選(VS)作為一種計算過濾器,被引入到篩選流程的前端。
協同效應:
?漏斗策略: 科學家不再將所有百萬級實體化合物直接送入HTS,而是先利用計算機算法對億級虛擬庫進行初篩,遴選出評分最高的100~10,000種化合物,再進行實體驗證。這種“干濕結合”的漏斗模式,顯著降低了實驗成本,提高了篩選的命中率。
![]()
?互補性: 研究表明,VS和HTS往往能發現不同化學空間的活性分子,二者是互補而非替代關系。例如,在GSK-3β抑制劑的篩選中,VS發現了HTS遺漏的骨架,且命中率(12.9%)遠高于HTS(0.55%)。
5、第五次迭代:基于大數據人工智能建模的藥物篩選與預測
這是當前正在發生的革命。隨著數字化信息的爆發和深度學習技術的成熟,藥物發現進入了大數據與人工智能時代。
核心特征:
?數據多模態:數據來源不再局限于化學結構和活性數據,還包括科學文獻、專利、臨床數據、圖像(如細胞表型)、組學數據等非結構化數據。
?從篩選到生成:傳統的VS是從現有庫中“挑選”分子,而生成式AI能夠基于靶點特征“創造”全新的分子結構,并預測其合成路徑和多維性質(活性、ADMET、合成可行性)。
?全流程預測:AI不僅預測分子是否結合,還試圖預測分子在細胞內的動態行為、在人體內的代謝過程以及最終的臨床療效。
二、虛擬篩選面臨的新挑戰與機遇
虛擬篩選領域的大數據問題,并非僅僅是數據量的增加,而是涉及數據的規模、多樣性、速度和價值的全方位挑戰。
1、庫規模的指數級爆炸
虛擬篩選的核心挑戰之一是處理呈指數級增長的化合物庫。
?早期階段:化合物庫主要由幾百種基于特定骨架的同系物組成,這僅僅是化學空間的一個微小角落。
?組合化學時代:隨著組合化學技術的發展,通過不同模塊的排列組合,庫規模迅速擴展到成千上萬種。
?DNA編碼庫(DEL)時代:這是近年來最激動人心的技術突破之一。通過將有機小分子與特定的DNA序列標簽相連(類似商品的條形碼),科學家們可以在一個試管中合成并篩選數十億甚至上千億種化合物 。DEL技術使得“百億級”篩選成為現實,其數據規模之大,使得傳統的計算方法面臨巨大的算力瓶頸。
此外,理論化學空間的探索更是無窮無盡。GDB-17數據庫列出了1664億個分子,這些分子最多包含17個重原子。如果考慮更大的分子量范圍,化學空間的大小可能超過(10^60)^2。面對如此龐大的數據海洋,簡單的線性搜索算法已無法應對。如果在100億個分子的庫中,每個分子的對接計算需要1秒鐘,那么篩選完整個庫需要超過300年。因此,如何從海量數據中快速、精準地識別出有價值的信號,成為了VS技術的核心痛點。
![]()
2、數據的多樣性與復雜性
除了規模,數據的類型也在發生質變。
結構化數據:早期VS技術主要依賴結構化數據。
?基于配體:利用已知活性分子的結構特征(如2D指紋圖譜、3D藥效團、形狀相似性)去尋找類似的分子。這就像是拿著一張嫌疑人的畫像去人群中找人,前提是你必須先知道“壞人”長什么樣。
?基于靶標:利用靶點蛋白的三維結構(通常來自X射線晶體衍射或NMR),模擬小分子與蛋白的結合過程(分子對接)。這就像是拿著一把鑰匙去試開一把鎖,前提是你必須有鎖的精確結構。
?傳統機器學習:使用了支持向量機(SVM)、貝葉斯分類器、隨機森林等算法,基于分子描述符(如分子量、LogP、氫鍵供體數等)建立預測模型。
非結構化數據與深度學習:現代VS技術引入了深度學習(Deep Learning, DL)和高性能計算(HPC)。
?挖掘文獻寶藏:深度學習擅長處理自然語言(NLP)和圖像。這使得它能夠挖掘科學論文、專利文獻等非結構化數據中的隱藏模式。例如,通過分析數百萬篇文獻中的化學反應描述,AI可以學習到哪些反應條件更容易成功,或者哪些結構片段經常出現在特定靶點的抑制劑中。
?動態模擬與柔性對接:傳統的分子對接往往將蛋白視為剛性物體(僵硬的鎖)。但在真實生物體內,蛋白是不斷運動的,存在“誘導契合”效應。隨著HPC算力的提升,基于分子動力學(Molecular Dynamics, MD)的VS技術逐漸成熟。這種方法能夠模擬蛋白的柔性變化,捕捉到瞬態的結合口袋,從而更準確地預測結合親和力,減少漏篩。
3、數據生成的爆發
相關文獻指出,人類數字化信息總量經歷了多次爆發,從1986年的0.02 EB暴增到2007年的280 EB,其中69%的信息是在2000-2007年間產生的。在藥物發現領域,這種爆發體現為基因組測序數據的激增、高內涵篩選(HCS)產生的海量圖像數據、以及DEL庫產生的測序讀數。這些數據為AI模型的訓練提供了豐富的燃料,但也對數據清洗、存儲和處理能力提出了極高的要求。
三、虛擬篩選的戰術圖譜
面對大數據的挑戰和單一算法的局限性,科學家們并未坐以待斃,而是開發出了一系列精妙的策略來提高篩選的成功率。這些策略的核心思想不再是尋找一個“完美”的算法,而是通過組合優化、動態反饋和實驗整合,來逼近真實的生物活性。
1、基于共識的虛擬篩選
“三個臭皮匠,頂個諸葛亮。” 這句古老的諺語在藥物篩選中同樣適用。
虛擬篩選的本質是預測配體與受體的相互作用。然而,沒有任何一種單一的算法(無論是AutoDock, Glide, Gold還是Surflex)能夠完美地模擬所有類型的相互作用(靜電、范德華力、氫鍵、溶劑效應、熵效應等)。有些算法擅長處理疏水作用,有些則對氫鍵更敏感。單一模型往往存在偏差。
為了彌補這一缺陷,共識評分策略應運而生。這種方法同時運行多種不同的對接軟件或預測模型,然后綜合它們的結果。其基本假設是:真正的活性化合物應該在 多種合理的模型中都表現良好,而假陽性通常只在某一種特定的算法偏差下得分較高。
2、迭代式虛擬篩選
如果說共識篩選是“集思廣益”,那么迭代篩選就是“小步快跑,快速糾錯”。
傳統的線性篩選流程是:計算篩選 → 購買/合成 → 實驗測試 → 結束。而迭代篩選將這一過程變為一個閉環。
工作流程:
(1)初始篩選:使用初步模型對庫進行篩選,選取少量(如幾百個)化合物。
(2)實驗反饋:對這批化合物進行實體活性測試。
(3)模型更新:將實驗結果(不僅包括活性數據,也包括非活性數據,即“負樣本”)立即反饋給計算模型。模型根據這些真實的反饋進行“自適應優化”或重新訓練(例如調整打分函數的權重,或訓練一個新的機器學習分類器)。
(4)循環迭代:利用更新后的模型進行第二輪篩選,重復上述過程。
![]()
迭代虛擬篩選過程
這種方法的核心在于反饋循環。上一輪的“最佳”可能不是全局最優,但它指明了進化的方向。結合遺傳算法,這種方法能像生物進化一樣,讓化合物結構在計算機中不斷“變異”和“選擇”,最終進化出高活性的苗頭化合物。這種方法特別適用于那些初始模型準確度不高,或者靶點信息匱乏的項目。
3、虛擬篩選與HTS的深度整合:1+1 > 2
在當今的藥物發現管線中,VS與HTS不再是競爭關系,而是唇齒相依的戰友。將VS整合進HTS流程,已成為必然趨勢,二者的結合能夠產生顯著的協同效應。
經典案例分析:諾華(Novartis)的回顧性分析——剔除假陽性
?諾華團隊對針對26個不同靶點(涵蓋激酶、GPCR、PPI等)的約50萬個化合物的HTS歷史數據進行了深入挖掘。
?他們利用VS技術對HTS的陽性結果進行了分析。結果發現,大多數VS預測出的苗頭化合物(70%~90%)僅針對單一靶標有效,具有很好的特異性。
?這意味著VS可以有效地幫助科學家識別并剔除那些在所有實驗中都顯色的“頻繁擊中者”(Frequent Hitters,通常是干擾實驗的假陽性),從而凈化篩選結果,聚焦于真正的藥物前體。
四、結語
數據規模的指數級爆炸,既是挑戰,也是燃料 。深度學習與高性能計算的結合,讓我們得以模擬蛋白質的“誘導契合”效應,捕捉那些轉瞬即逝的結合口袋 。
未來,隨著生成式AI的進一步滲透,藥物發現或許將徹底告別“試錯”模式,走向真正的“理性設計”。但無論技術如何迭代,核心目標從未改變:用更快的速度、更低的成本,找到那個能拯救生命的分子。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.