![]()
![]()
出品|搜狐科技
作者|周錦童 常博碩
編輯| 楊 錦
很多人,都在生命中的某個時刻,被“癌癥”這個詞擊中過。
悉達多·穆克吉在《萬疾之王》中曾這樣描述癌癥:它不僅是某種疾病,更是生命在基因層面的背叛。
對于人類來說,重大疾病的出現往往并不伴隨任何戲劇性的場面,有的只是一次次復查、一次次調整方案,以及一個反反復復的問題——還有沒有別的辦法?
在醫學語境中,癌癥被描述為失控的細胞增殖,而在患者的世界里,它更像一場漫長的、看不清方向的追逐戰。藥物研發,正是這場追逐戰中最關鍵、也最殘酷的一環。
人類基因組中,大約有兩萬多個蛋白質編碼基因,它們構成了疾病發生、發展的靶點地圖。然而直到今天,真正有藥物能夠精確作用的靶點,只覆蓋了全部可成藥靶點的約十分之一。
而這也意味著在絕大多數疾病,尤其是癌癥這類復雜疾病面前,找到合適的藥物依然像是大海撈針。
近日,清華大學智能產業研究院(AIR)聯合清華大學生命學院、清華大學化學系最新研究成果登上《Science》雜志。
具體來說,他們研發出來一個AI驅動的藥物虛擬篩選平臺DrugCLIP,能夠讓AI在24小時內完成10萬億次蛋白–分子配對計算,極大地提升了人類對癌癥的篩選效率。
“這項技術,可以說是對那些多年沒有藥可用的靶點,給了它一種打中的機會。”論文共同第一作者、清華大學智能產業研究院計算機專業博士生高博文對搜狐科技表示。
![]()
高博文
![]()
星海中的導航
在藥物研發領域,新藥研發周期動輒十年以上,成本高達數十億美元,而失敗往往發生在最昂貴、也最接近患者的階段。
“新藥研發成本高昂,最主要的原因有兩個。”高博文解釋道,“一是早期發現階段失敗率極高,有一種大海撈針的感覺,二是整個研發周期極長,每一步都可能前功盡棄。”
在高博文看來,AI至少可以先做一件事,那就是把盲目試錯變成有方向的探索。
“我們的研究更像是一個在星海中進行的導航。”高博文這樣形容他們正在做的事情,“它不再是一個盲目試錯,而是通過人工智能技術,通過智能的檢索和對比學習,在海量的化學空間與靶點空間中,快速定位出最有希望的匹配對。”
在對話中,他并不回避現實的局限性,但反復強調一個詞——概率。
在癌癥等難治疾病中,概率和速度的提升就可能意味著時間的縮短、成本的下降,以及更多“第一類創新藥(first-in-class)”被嘗試的可能。
在傳統藥物研發中,靶點篩選往往是一件極其緩慢、甚至帶有運氣成分的事情。
研究人員先選定一個靶點,再從有限的分子庫中逐一嘗試,看是否存在可能結合的候選分子。這個過程高度依賴經驗,小規模、串行推進,一次往往只能驗證一個方向。“傳統方法可能一段時間只能做一個靶點,篩一波藥,再去做下一個靶點。”他說。
而DrugCLIP試圖做的,是把這套邏輯重新定義一遍。“我們希望把虛擬篩選變成一個全基因組、超大規模并行檢索的新范式。”高博文解釋道,“這樣研究人員可以在非常短的時間內,對所有潛在靶點進行系統性的掃描。”
不止癌癥,高博文表示DrugClip其實可以適用于各種不同的疾病,甚至是ADHD(注意缺陷多動障礙)。“實際上我們現在有一個正在推進的分子,是用來治療ADHD的。”
“前一段時間羅永浩也表示自己患有ADHD ,這個疾病其實比較常見,市場也很大。這個藥物分子就是由DrugClip篩選出來的,我們現在正在對它進行一些優化,希望能盡快推到臨床前的階段。”
他還提到,團隊非常希望這套方法能在更多如漸凍癥,胰腺癌、膠質母細胞瘤這些缺乏有效治療手段的疾病中發揮作用。
![]()
打開蛋白質靶點“黑盒”
在高博文看來,DrugCLIP不僅首次完成了覆蓋人類基因組規模的藥物虛擬篩選,也重新定義了整個虛擬篩選的方式。
DrugCLIP通過對比學習重構了虛擬篩選的流程,將傳統的結合能預測問題轉化為蛋白質口袋與小分子的向量化檢索任務。
對比傳統方法,DrugClip的篩選速度實現了百萬倍提升,同時在預測準確率上也有顯著突破。
“我們之所以實現了百萬倍的速度提升是因為雙塔模型架構的預編碼設計,候選分子庫可以事先編碼為向量并存入數據庫,針對新靶點僅需單獨編碼蛋白質口袋,隨后通過快速的向量匹配即可完成篩選,省去了傳統方法中逐個分子進行復雜網絡推理的過程。”高博文解釋道。
值得一提的是,DrugCLIP的命名受到了自然語言-圖像多模態模型CLIP的啟發,高博文把它遷移到了藥物發現的場景。
正如CLIP利用海量互聯網圖文對進行對比學習來實現圖文匹配,DrugCLIP則是利用各種蛋白質-分子復合物數據,通過對比學習來訓練模型,從而實現了蛋白質口袋與小分子的匹配。
可以說DrugCLIP在算法架構和數據層面都有創新,也解決了藥物發現中長期存在的一個根本性瓶頸:如何為大量功能未知、且無任何已知結合藥物的“黑盒”蛋白質靶點,快速尋找潛在的藥物起點。
高博文是2022年9月加入清華大學智能產業研究院的,次年1月開始了這個項目的研究。
誠然,在研究過程中,他們遇到了很多困難,最典型的技術挑戰就是如何訓練出一個好泛化性的模型。
“真實的蛋白,小分子復合物是非常稀缺的,我們篩選過濾后有質量的真實數據只有5萬個,相比于大語言模型來說,數據量小太多了,所以我們就設計了ProFSA 策略,從大量純蛋白質數據中挖掘很多偽配體口袋進行預訓練,再用真實復合物數據訓練進行微調,很好地緩解了數據析出問題,提升了模型整體泛化能力。”
目前DrugCLIP模型正在跟天津超算中心進行合作,獲得了速度上的進一步突破,可以實現千億級分子庫在分鐘級內完成篩選,同時模型本身也有很好的硬件兼容性,未來也可以適配國產芯片。
高博文稱如果快的話,由DrugCLIP模型篩選得到的藥物分子今年可以推到臨床前的階段。
不過,也有網友質疑,如果AI預測結果出現嚴重副作用,責任主體是算法提供方、使用方還是雙方共同承擔呢?
對此,高博文表示無需擔心。“我們的算法提供的還是藥物早期苗頭化合物的篩選,篩選的分子就像是AI模型的產物,后面會經過改造以及毒性代謝的監控和測試,還要經過動物實驗、多期臨床實驗。如果藥物分子真的可以面世,那一定是經過監管部門嚴格驗證的。”
![]()
未來必須把藥“搞”出來
可以說,這項研究是跨學科協作的典范。
“我們和生命科學學院、化學系都有合作,他們會向我們反饋一些感興趣的靶點,然后我們進行篩選,再把篩選到的分子給他們,讓他們進行生物學實驗驗證,像文章另一位一作賈寅君,他原本就是生命科學學院的,博士期間來智能產業研究院實習,于是我們就開始了合作。”高博文如是說。
![]()
清華大學智能產業研究院蘭艷艷教授團隊
而之所以進行這方面的研究,也是因為高博文期望能用人工智能的方法去解決對人類有價值的問題,未來他稱會先把當前這個項目的產業化創業一步一步做起來。
在高博文看來,藥物這個圈子是非常看重成果的,不像其他的靠AI“吹吹牛”別人就能買賬,必須把藥“搞”出來別人才會相信這套算法,所以還是要通過系統平臺的能力把藥物推到比較靠后的階段。
“我們現在和Enamine, 藥明康德, 阿斯利康等化合物供應商,CRO公司以及藥企都形成了合作,之后會先形成一個平臺化的服務,同時也希望能夠跟其他藥企進行私有化的部署。”高博文如是說。
談及目前我國在AI輔助藥物發現的近況時,高博文表示:“應該是不會有什么差距的,我們跟MIT,斯坦福這些學校研究的內容都是類似的,但國內外在整個領域還處于探索階段。”
對話最后,高博文還分享了他對未來幾年AI在藥物發現領域技術發展的看法。
在他看來,首要的突破是要解決高質量數據稀缺的瓶頸,通過合成數據等手段來擴大數據規模;其次還需要建立更加可靠的模型驗證方法,這樣才能確保AI預測在實際場景中真正有效。
在此基礎上,還要通過不斷擴大模型規模來提升性能,并推動專用模型與大語言模型的結合,實現全流程自動化藥物發現。最后,還要通過實驗室自動化來實現干濕實驗的閉環,從而打通藥物發現的全路徑,達到提速降本的目標。
![]()
![]()
![]()
運營編輯 |曹倩審核|孟莎莎
![]()
![]()
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.