聞樂 發自 凹非寺
量子位 | 公眾號 QbitAI
一天篩選十萬億次,中國AI找藥又有新突破!
清華大學智能產業研究院(AIR)聯合清華大學生命學院、清華大學化學系在Science上發表論文:《深度對比學習實現基因組級別藥物虛擬篩選》。
![]()
團隊研發了一個AI驅動的超高通量藥物虛擬篩選平臺DrugCLIP
DrugCLIP能讓AI從海量化學分子里,迅速篩出那些最有希望和疾病相關蛋白結合的“候選藥物分子”。
24小時內,DrugCLIP能完成10萬億次蛋白–分子配對計算
![]()
依托該平臺篩選,團隊打通了從AlphaFold結構預測到藥物發現的關鍵通道,不僅為抑郁癥、癌癥、帕金森等疾病篩選出了潛在藥物分子,還首次完成了覆蓋人類基因組規模的藥物虛擬篩選
目前,相關數據已經全部對外開放。
![]()
90%的蛋白靶點難找藥
過去藥物篩選的難點,主要集中在三點上,一是慢,二是無從下手,三是范圍太窄。
先看一個背景數字。
人體內大約有2萬個編碼蛋白質的基因,其中的相當一部分與癌癥、抑郁癥、神經退行性疾病密切相關。
但現實是,目前真正擁有成熟藥物的蛋白靶點,只占其中10%,剩下的90%,還沒找到藥。
![]()
△化學空間大小示意圖(引用:Gastreich, M. BioSolveITDrugSpac
第一個原因,
傳統的篩選方法,比如分子對接,需要逐一計算“這個分子能不能和這個蛋白結合”,一次評估雖然只要幾秒鐘或幾分鐘,但在現實情況下,以篩選1萬個蛋白質靶點、每個靶點面對10?個候選分子為例,需完成約1013次蛋白-配體打分。
即便使用當前最先進的分子對接工具,也得需要2億CPU天。
第二個原因,無從下手
很多疾病相關蛋白根本沒有實驗測出來的三維結構,傳統方法無從下手。
而且在真實世界里,沒用的分子還遠比有用的分子多,這些好分子容易被埋沒在噪聲里。
第三個,范圍太窄
算力成本擺在這兒,只能圍繞熱門靶點篩,工作很難在全基因組的尺度上推進。
![]()
不過,DrugCLIP正是沖著這三點來的。
給蛋白和分子畫像
先概括一下它的方法,就是先教會AI為目標進行畫像,捕捉其結構神韻,再做極速配對
![]()
研究者用對比學習訓練了兩個AI編碼器。
一個給蛋白質上的結合口袋畫像,另一個給化學分子畫像。
“結合口袋”是指蛋白質表面能夠與小分子結合的特定區域,這里的“畫像”是指生成特征向量
訓練時,AI會被明確告知:能結合的一對兒,畫像要盡量接近,即對應的特征向量要盡可能相似;不能結合的,畫像要盡量拉遠。
這樣一來,AI就能逐漸學習并掌握蛋白質與分子之間的結合規律。
![]()
為了讓模型從一開始就領悟這種結構神韻,團隊設計了一套創新性的預訓練策略。
他們從已有的蛋白質結構數據中,切割出短片段模擬成“假分子”,同時將周圍區域當作“假口袋”,一次性構造出了550萬組訓練樣本。
在這套練手數據上打好基礎后,再用真實的蛋白-分子數據進行微調,保證了泛化能力和精度。
模型訓練完成后,真正的篩選過程就變得簡單高效了。
DrugCLIP創新性地將傳統基于物理對接的篩選流程轉化為高效的向量檢索問題。
研究者先把5億個候選分子全部畫像完存起來,當遇到一個新的蛋白口袋時,只需要給它生成一個向量表示,再和所有的分子算相似度、排個名,排在前面的就是最有希望的候選分子。
![]()
該模型結合對比學習、3D結構預訓練與多模態編碼技術,能在三維結構層面精準建模蛋白-配體間的相互作用。
訓練后的高潛力分子將自然聚集于目標蛋白口袋的向量鄰域,能夠有效支撐快速的大規模虛擬篩選。
依托這一機制,DrugCLIP在128核CPU+8張GPU的計算節點上日處理能力達10萬億次,對比傳統方法實現了百萬倍提升。
首次完成了人類基因組規模的虛擬篩選
速度之外,更關鍵的是它真能找到有用的分子。
在標準的虛擬篩選基準測試DUD-E、LIT-PCBA中,DrugCLIP在把有效分子從大量無效分子中提前篩出來這件事上,明顯優于傳統分子對接工具和多種已有AI方法。
并且在LIT-PCBA數據集上篩選速度遠超其他方法。
而且它對結構誤差、陌生蛋白家族、從未見過的分子類型都表現得相當穩定,沒有出現“一換場景就失靈”的問題。
![]()
實驗室驗證結果也讓人眼前一亮。
以抑郁癥相關蛋白為例,研究者從篩選出的78個分子里,找到8個能激活這個蛋白的“激動劑”。
其中最好的一個分子,和蛋白的結合能力達到21nM(數值越小結合越強,100nM以下就是優秀水平),在細胞系中也有顯著活性。
![]()
△畫中的宇宙飛船DrugCLIP作為終極導航者,以前所未有的效率識別
團隊還與清華大學閆創業教授團隊合作,在去甲腎上腺素轉運體(NET)這一臨床相關靶點上開展了系列生物實驗驗證。
NET是2024年才剛解析出結構的靶點,是抑郁癥注意缺陷多動癥以及疼痛等疾病的重要靶點,目前雖然有多款抑制劑已經上市,但是在選擇性等方面仍然有巨大的優化空間。
團隊使用DrugCLIP模型從160萬個候選分子中篩選出約100個高評分分子,同位素配體轉運實驗檢測顯示其中15%為有效抑制劑,其中12個分子結合能力優于現有抗抑郁藥物安非他酮。
相關復合物結構已通過冷凍電鏡解析,進一步驗證了DrugCLIP篩選結果的生物學可信度。
![]()
DrugCLIP還支持對AlphaFold預測的蛋白結構和apo(無配體)狀態下的蛋白口袋進行篩選。
團隊和清華大學劉磊教授團隊合作,針對E3泛素連接酶TRIP12(thyroid hormone receptor interactor 12)的HECT結構域進行了虛擬篩選與實驗驗證。
當時這是一個既沒有實驗結構、也沒有任何已知抑制劑的蛋白,與癌癥帕金森病密切相關。
團隊使用DrugCLIP模型對AlphaFold2預測的蛋白質結構進行篩選,從160萬個候選分子中高通量篩選出約50個高評分分子。
SPR實驗證實其中10個分子與TRIP12有結合能力,兩個親和力較高的分子也對TRIP12的泛素連接酶活性有一定的抑制活性。
![]()
在單靶點驗證之外,DrugCLIP還完成了一次前所未有的全局篩選。
![]()
△人類基因組規模篩選項目覆蓋的蛋白數目與現有數據庫對比
研究團隊首次完成了人類基因組規模的虛擬篩選項目,覆蓋約1萬個蛋白靶點、2萬個結合口袋,分析超過5億個小分子,富集出200萬余個高潛力活性分子。
構建了目前已知最大規模的蛋白-配體篩選數據庫,為后AlphaFold時代的創新藥物發現帶來了新的可能性。
換句話說,這相當于為人類近一半的蛋白質,都提前找好了潛在的“藥物種子”。
![]()
△像一位藝術家構想全新的世界,DrugCLIP框架在廣闊而多維的蛋白
該數據庫已面向全球科研社區開放。
![]()
DrugCLIP團隊介紹
DrugCLIP由清華大學智能產業研究院(AIR)博士后賈寅君、計算機系博士生高博文、生命學院博士后譚佳鑫、化學系博士后鄭濟青以及智能產業研究院(AIR)博士后洪鑫為共同一作。
通訊作者為智能產業研究院(AIR)蘭艷艷教授,生命學院張偉副教授、閆創業副教授以及化學系劉磊教授。
該項目得到了國家科技部重點研發項目、國家自然科學基金委項目、新基石研究基金等項目的支持,同時還有清華大學無錫應用技術研究院智能產業創新中心、北京智源人工智能研究院與北京結構高精尖中心等機構的支持。
未來,DrugCLIP將與科研產業生態合作伙伴深度合作,在抗癌、傳染病、罕見病等方向加速新靶點與First-in-class藥物的發現。
值得一提的是,清華大學智能產業研究院(AIR)還與北京智源人工智能研究院在2021年聯合成立了清華(AIR)-智源健康計算聯合研究中心
該中心致力于應用最前沿的人工智能技術賦能健康管理、精準診療與新藥研發,以數據驅動的全新科研范式突破生命健康領域核心技術。
清華大學智能產業研究院(AIR)首席研究員蘭艷艷、智源健康計算研究中心負責人葉啟威任聯合研究中心主任。
論文地址:https://doi.org/10.1126/science.ads9530
DrugCLIP網址:https://www.drugclip.com
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.