![]()
![]()
出品|搜狐科技
作者|周錦童 常博碩
編輯| 楊 錦
很多人,都在生命中的某個(gè)時(shí)刻,被“癌癥”這個(gè)詞擊中過。
悉達(dá)多·穆克吉在《萬疾之王》中曾這樣描述癌癥:它不僅是某種疾病,更是生命在基因?qū)用娴谋撑选?/p>
對(duì)于人類來說,重大疾病的出現(xiàn)往往并不伴隨任何戲劇性的場面,有的只是一次次復(fù)查、一次次調(diào)整方案,以及一個(gè)反反復(fù)復(fù)的問題——還有沒有別的辦法?
在醫(yī)學(xué)語境中,癌癥被描述為失控的細(xì)胞增殖,而在患者的世界里,它更像一場漫長的、看不清方向的追逐戰(zhàn)。藥物研發(fā),正是這場追逐戰(zhàn)中最關(guān)鍵、也最殘酷的一環(huán)。
人類基因組中,大約有兩萬多個(gè)蛋白質(zhì)編碼基因,它們構(gòu)成了疾病發(fā)生、發(fā)展的靶點(diǎn)地圖。然而直到今天,真正有藥物能夠精確作用的靶點(diǎn),只覆蓋了全部可成藥靶點(diǎn)的約十分之一。
而這也意味著在絕大多數(shù)疾病,尤其是癌癥這類復(fù)雜疾病面前,找到合適的藥物依然像是大海撈針。
近日,清華大學(xué)智能產(chǎn)業(yè)研究院(AIR)聯(lián)合清華大學(xué)生命學(xué)院、清華大學(xué)化學(xué)系最新研究成果登上《Science》雜志。
具體來說,他們研發(fā)出來一個(gè)AI驅(qū)動(dòng)的藥物虛擬篩選平臺(tái)DrugCLIP,能夠讓AI在24小時(shí)內(nèi)完成10萬億次蛋白–分子配對(duì)計(jì)算,極大地提升了人類對(duì)癌癥的篩選效率。
“這項(xiàng)技術(shù),可以說是對(duì)那些多年沒有藥可用的靶點(diǎn),給了它一種打中的機(jī)會(huì)。”論文共同第一作者、清華大學(xué)智能產(chǎn)業(yè)研究院計(jì)算機(jī)專業(yè)博士生高博文對(duì)搜狐科技表示。
![]()
高博文
![]()
星海中的導(dǎo)航
在藥物研發(fā)領(lǐng)域,新藥研發(fā)周期動(dòng)輒十年以上,成本高達(dá)數(shù)十億美元,而失敗往往發(fā)生在最昂貴、也最接近患者的階段。
“新藥研發(fā)成本高昂,最主要的原因有兩個(gè)。”高博文解釋道,“一是早期發(fā)現(xiàn)階段失敗率極高,有一種大海撈針的感覺,二是整個(gè)研發(fā)周期極長,每一步都可能前功盡棄。”
在高博文看來,AI至少可以先做一件事,那就是把盲目試錯(cuò)變成有方向的探索。
“我們的研究更像是一個(gè)在星海中進(jìn)行的導(dǎo)航。”高博文這樣形容他們正在做的事情,“它不再是一個(gè)盲目試錯(cuò),而是通過人工智能技術(shù),通過智能的檢索和對(duì)比學(xué)習(xí),在海量的化學(xué)空間與靶點(diǎn)空間中,快速定位出最有希望的匹配對(duì)。”
在對(duì)話中,他并不回避現(xiàn)實(shí)的局限性,但反復(fù)強(qiáng)調(diào)一個(gè)詞——概率。
在癌癥等難治疾病中,概率和速度的提升就可能意味著時(shí)間的縮短、成本的下降,以及更多“第一類創(chuàng)新藥(first-in-class)”被嘗試的可能。
在傳統(tǒng)藥物研發(fā)中,靶點(diǎn)篩選往往是一件極其緩慢、甚至帶有運(yùn)氣成分的事情。
研究人員先選定一個(gè)靶點(diǎn),再從有限的分子庫中逐一嘗試,看是否存在可能結(jié)合的候選分子。這個(gè)過程高度依賴經(jīng)驗(yàn),小規(guī)模、串行推進(jìn),一次往往只能驗(yàn)證一個(gè)方向。“傳統(tǒng)方法可能一段時(shí)間只能做一個(gè)靶點(diǎn),篩一波藥,再去做下一個(gè)靶點(diǎn)。”他說。
而DrugCLIP試圖做的,是把這套邏輯重新定義一遍。“我們希望把虛擬篩選變成一個(gè)全基因組、超大規(guī)模并行檢索的新范式。”高博文解釋道,“這樣研究人員可以在非常短的時(shí)間內(nèi),對(duì)所有潛在靶點(diǎn)進(jìn)行系統(tǒng)性的掃描。”
不止癌癥,高博文表示DrugClip其實(shí)可以適用于各種不同的疾病,甚至是ADHD(注意缺陷多動(dòng)障礙)。“實(shí)際上我們現(xiàn)在有一個(gè)正在推進(jìn)的分子,是用來治療ADHD的。”
“前一段時(shí)間羅永浩也表示自己患有ADHD ,這個(gè)疾病其實(shí)比較常見,市場也很大。這個(gè)藥物分子就是由DrugClip篩選出來的,我們現(xiàn)在正在對(duì)它進(jìn)行一些優(yōu)化,希望能盡快推到臨床前的階段。”
他還提到,團(tuán)隊(duì)非常希望這套方法能在更多如漸凍癥,胰腺癌、膠質(zhì)母細(xì)胞瘤這些缺乏有效治療手段的疾病中發(fā)揮作用。
![]()
打開蛋白質(zhì)靶點(diǎn)“黑盒”
在高博文看來,DrugCLIP不僅首次完成了覆蓋人類基因組規(guī)模的藥物虛擬篩選,也重新定義了整個(gè)虛擬篩選的方式。
DrugCLIP通過對(duì)比學(xué)習(xí)重構(gòu)了虛擬篩選的流程,將傳統(tǒng)的結(jié)合能預(yù)測問題轉(zhuǎn)化為蛋白質(zhì)口袋與小分子的向量化檢索任務(wù)。
對(duì)比傳統(tǒng)方法,DrugClip的篩選速度實(shí)現(xiàn)了百萬倍提升,同時(shí)在預(yù)測準(zhǔn)確率上也有顯著突破。
“我們之所以實(shí)現(xiàn)了百萬倍的速度提升是因?yàn)殡p塔模型架構(gòu)的預(yù)編碼設(shè)計(jì),候選分子庫可以事先編碼為向量并存入數(shù)據(jù)庫,針對(duì)新靶點(diǎn)僅需單獨(dú)編碼蛋白質(zhì)口袋,隨后通過快速的向量匹配即可完成篩選,省去了傳統(tǒng)方法中逐個(gè)分子進(jìn)行復(fù)雜網(wǎng)絡(luò)推理的過程。”高博文解釋道。
值得一提的是,DrugCLIP的命名受到了自然語言-圖像多模態(tài)模型CLIP的啟發(fā),高博文把它遷移到了藥物發(fā)現(xiàn)的場景。
正如CLIP利用海量互聯(lián)網(wǎng)圖文對(duì)進(jìn)行對(duì)比學(xué)習(xí)來實(shí)現(xiàn)圖文匹配,DrugCLIP則是利用各種蛋白質(zhì)-分子復(fù)合物數(shù)據(jù),通過對(duì)比學(xué)習(xí)來訓(xùn)練模型,從而實(shí)現(xiàn)了蛋白質(zhì)口袋與小分子的匹配。
可以說DrugCLIP在算法架構(gòu)和數(shù)據(jù)層面都有創(chuàng)新,也解決了藥物發(fā)現(xiàn)中長期存在的一個(gè)根本性瓶頸:如何為大量功能未知、且無任何已知結(jié)合藥物的“黑盒”蛋白質(zhì)靶點(diǎn),快速尋找潛在的藥物起點(diǎn)。
高博文是2022年9月加入清華大學(xué)智能產(chǎn)業(yè)研究院的,次年1月開始了這個(gè)項(xiàng)目的研究。
誠然,在研究過程中,他們遇到了很多困難,最典型的技術(shù)挑戰(zhàn)就是如何訓(xùn)練出一個(gè)好泛化性的模型。
“真實(shí)的蛋白,小分子復(fù)合物是非常稀缺的,我們篩選過濾后有質(zhì)量的真實(shí)數(shù)據(jù)只有5萬個(gè),相比于大語言模型來說,數(shù)據(jù)量小太多了,所以我們就設(shè)計(jì)了ProFSA 策略,從大量純蛋白質(zhì)數(shù)據(jù)中挖掘很多偽配體口袋進(jìn)行預(yù)訓(xùn)練,再用真實(shí)復(fù)合物數(shù)據(jù)訓(xùn)練進(jìn)行微調(diào),很好地緩解了數(shù)據(jù)析出問題,提升了模型整體泛化能力。”
目前DrugCLIP模型正在跟天津超算中心進(jìn)行合作,獲得了速度上的進(jìn)一步突破,可以實(shí)現(xiàn)千億級(jí)分子庫在分鐘級(jí)內(nèi)完成篩選,同時(shí)模型本身也有很好的硬件兼容性,未來也可以適配國產(chǎn)芯片。
高博文稱如果快的話,由DrugCLIP模型篩選得到的藥物分子今年可以推到臨床前的階段。
不過,也有網(wǎng)友質(zhì)疑,如果AI預(yù)測結(jié)果出現(xiàn)嚴(yán)重副作用,責(zé)任主體是算法提供方、使用方還是雙方共同承擔(dān)呢?
對(duì)此,高博文表示無需擔(dān)心。“我們的算法提供的還是藥物早期苗頭化合物的篩選,篩選的分子就像是AI模型的產(chǎn)物,后面會(huì)經(jīng)過改造以及毒性代謝的監(jiān)控和測試,還要經(jīng)過動(dòng)物實(shí)驗(yàn)、多期臨床實(shí)驗(yàn)。如果藥物分子真的可以面世,那一定是經(jīng)過監(jiān)管部門嚴(yán)格驗(yàn)證的。”
![]()
未來必須把藥“搞”出來
可以說,這項(xiàng)研究是跨學(xué)科協(xié)作的典范。
“我們和生命科學(xué)學(xué)院、化學(xué)系都有合作,他們會(huì)向我們反饋一些感興趣的靶點(diǎn),然后我們進(jìn)行篩選,再把篩選到的分子給他們,讓他們進(jìn)行生物學(xué)實(shí)驗(yàn)驗(yàn)證,像文章另一位一作賈寅君,他原本就是生命科學(xué)學(xué)院的,博士期間來智能產(chǎn)業(yè)研究院實(shí)習(xí),于是我們就開始了合作。”高博文如是說。
![]()
清華大學(xué)智能產(chǎn)業(yè)研究院蘭艷艷教授團(tuán)隊(duì)
而之所以進(jìn)行這方面的研究,也是因?yàn)楦卟┪钠谕苡萌斯ぶ悄艿姆椒ㄈソ鉀Q對(duì)人類有價(jià)值的問題,未來他稱會(huì)先把當(dāng)前這個(gè)項(xiàng)目的產(chǎn)業(yè)化創(chuàng)業(yè)一步一步做起來。
在高博文看來,藥物這個(gè)圈子是非常看重成果的,不像其他的靠AI“吹吹牛”別人就能買賬,必須把藥“搞”出來別人才會(huì)相信這套算法,所以還是要通過系統(tǒng)平臺(tái)的能力把藥物推到比較靠后的階段。
“我們現(xiàn)在和Enamine, 藥明康德, 阿斯利康等化合物供應(yīng)商,CRO公司以及藥企都形成了合作,之后會(huì)先形成一個(gè)平臺(tái)化的服務(wù),同時(shí)也希望能夠跟其他藥企進(jìn)行私有化的部署。”高博文如是說。
談及目前我國在AI輔助藥物發(fā)現(xiàn)的近況時(shí),高博文表示:“應(yīng)該是不會(huì)有什么差距的,我們跟MIT,斯坦福這些學(xué)校研究的內(nèi)容都是類似的,但國內(nèi)外在整個(gè)領(lǐng)域還處于探索階段。”
對(duì)話最后,高博文還分享了他對(duì)未來幾年AI在藥物發(fā)現(xiàn)領(lǐng)域技術(shù)發(fā)展的看法。
在他看來,首要的突破是要解決高質(zhì)量數(shù)據(jù)稀缺的瓶頸,通過合成數(shù)據(jù)等手段來擴(kuò)大數(shù)據(jù)規(guī)模;其次還需要建立更加可靠的模型驗(yàn)證方法,這樣才能確保AI預(yù)測在實(shí)際場景中真正有效。
在此基礎(chǔ)上,還要通過不斷擴(kuò)大模型規(guī)模來提升性能,并推動(dòng)專用模型與大語言模型的結(jié)合,實(shí)現(xiàn)全流程自動(dòng)化藥物發(fā)現(xiàn)。最后,還要通過實(shí)驗(yàn)室自動(dòng)化來實(shí)現(xiàn)干濕實(shí)驗(yàn)的閉環(huán),從而打通藥物發(fā)現(xiàn)的全路徑,達(dá)到提速降本的目標(biāo)。
![]()
![]()
![]()
運(yùn)營編輯 |曹倩審核|孟莎莎
![]()
![]()
![]()
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.