![]()
在過去幾年里,AI 技術經歷了爆發式的增長,它正以極快的速度影響各行各業。然而,這場技術浪潮并未平等地惠及每一個人。
正如經濟學中的“馬太效應”所揭示的那樣,最頂尖的算法、最充沛的算力,自然而然地流向了回報最為豐厚的領域——金融交易、精準廣告,以及服務于富裕人群的高端醫療市場。技術資源的高度集中,似乎注定只為少數人的利益服務。
可這并不應該是關于 AI 的唯一敘事。
對于西班牙非營利組織 Ersilia 開源倡議(Ersilia Open-Source Initiative)而言,AI 不是讓富者更富的特權工具,它本可以社會帶去更多公平與希望。
當前世界依然面臨著各地區之間發展水平不均衡的重大難題,醫療領域尤甚。以非洲為例,它是全球熱帶疾病和如瘧疾、結核病等傳染病負擔最沉重的地區。這些疾病每年導致數百萬人死亡,但由于患者群體缺乏支付能力,大型藥企并不打算為這些疾病研發對應藥物。
![]()
圖 | 非洲瘧疾分布圖(來源:CDC Yellow Book)
Ersilia,這群由數據科學家和生物醫學專家組成的團隊,希望填補這項空白。他們正在將 AI 算法帶入非洲的實驗室——團隊選擇與南非開普敦大學的整體藥物發現與開發中心(Holistic Drug Discovery and Development Centre,簡稱 H3D)合作。試圖推動非洲地區拿回自己的科技主權。
2023 年,雙方在 Nature Communications 上共同發表了一項論文成果,證明了即使在計算資源匱乏的環境下,開源 AI 也能顯著加速新藥的研發。
![]()
(來源:Nature Communications)
被遺忘的角落與昂貴的門檻
藥物研發是一個漫長且極其昂貴的過程。根據行業統計,研發一款新藥從實驗室到上市平均耗時 10 年,中位數成本高達 13 億美元。這種高昂的投入產出比決定了大型制藥公司的商業邏輯:優先開發針對高收入國家常見病的藥物,因為那里的市場足以覆蓋成本。
相比之下,主要在低中收入國家流行的傳染病,如瘧疾和結核病,往往難以獲得足夠的商業研發資金。
數據顯示,非洲承擔了全球 95% 以上的瘧疾病例和 25% 的結核病死亡人數,但在很長一段時間里,針對這些疾病的藥物研發主要由全球北方國家的機構主導。非洲本土的科學家雖然擁有第一手的臨床數據,卻受限于資金和技術設施,難以主導研發進程。
Ersilia 的聯合創始人米克爾·杜蘭-弗里戈拉(Miquel Duran-Frigola)博士敏銳地察覺到了這一斷層。他意識到,僅僅依靠傳統的援助模式無法解決根本問題。許多非洲的研究機構雖然擁有優秀的化學家和生物學家,但缺乏運行大規模 AI 模型所需的高性能計算集群(HPC)和資深的數據科學團隊。
![]()
(來源: Linkedin)
“在某個時刻,我意識到需要通過一種靈活的組織形式,去往不同的國家和機構,識別他們的數據科學需求——這些需求往往是非常迫切卻缺乏支持的——然后為他們開發合適的數據科學工具,”杜蘭-弗里戈拉表示。正是基于這一理念,Ersilia 被創立出來,其核心使命非常明確:通過開源模式,將 AI 工具平民化,使其能夠運行在普通的硬件上。
讓 AI 在老舊筆記本上運行
Ersilia 帶來的技術突破,并非在于構建參數量驚人的超級模型,而在于“適配”。
在歐美頂尖實驗室,藥物篩選往往依賴昂貴的圖形處理器(GPU)集群來處理海量數據。但在 Ersilia 的目標應用場景中,科學家們手中的設備可能只是一臺普通的筆記本電腦,甚至面臨網絡不穩定的困擾。因此,Ersilia 開發了一套名為 ZairaChem 的自動化建模工具。
這套工具的設計初衷是“低資源消耗”。它被優化為可以在僅有中央處理器(CPU)的計算機上運行,而不需要專門的 GPU 加速。通過這套工具,Ersilia 與 H3D 合作,利用 H3D 過去十年積累的內部數據,訓練出了 15 個針對瘧疾和結核病的預測模型。
這些模型構成了所謂的“虛擬篩選級聯”(Virtual Screening Cascade)。在傳統的藥物發現流程中,研究人員需要合成大量化合物并進行實體實驗(Wet Lab),這既費錢又費時。而引入 AI 后,研究人員可以在計算機上進行“計算機模擬”(in silico)實驗。在化合物被真正合成之前,AI 就能預測其是否具有藥用活性,或者是否具有潛在的毒性。
雙方發表在 Nature Communications 上的論文,詳細描述了這一流程的實際效果。這是非洲大陸首次利用完全基于本土數據構建的虛擬篩選級聯,成功從現有的藥物發現數據庫中挖掘并預測了新的具有藥用活性的化合物。對于 H3D 這樣的機構來說,這意味著他們可以大幅減少無效的實驗,將寶貴的資金集中在最有希望的候選藥物上。
用 GitHub 構建“自助式”研發平臺
擁有模型只是第一步,如何讓不懂編程的生物學家也能輕松使用這些模型,是 Ersilia 面臨的另一個挑戰。為此,Ersilia 的工程師們與GitHub 進行了技術合作。
通常,GitHub 是程序員用來管理代碼版本的工具。但在 Ersilia 的架構中,GitHub 被改造成了一個免費的云計算后端。他們利用 GitHub Actions(一種通常用于自動化軟件測試的功能)和 Docker 容器技術,構建了一個“自助式”的運行流程。
Ersilia 的聯合創始人杰瑪·圖隆(Gemma Turon)博士和團隊設計了一套“IssueOps”工作流。其操作邏輯非常簡單:
研究人員不需要在本地安裝復雜的 Python 環境或機器學習庫,他們只需要登錄 Ersilia 的 GitHub 模型中心(Ersilia Model Hub),提交一個“Issue”(問題單)。在這個表單中,研究人員填寫他們想要測試的化合物分子式(通常使用 SMILES 格式)。
一旦表單提交,后臺的 GitHub Actions 就會自動觸發。系統會拉取相應的 Docker 鏡像——這些鏡像里封裝了已經訓練好的 AI 模型——然后在 GitHub 的云端服務器上運行預測。幾分鐘后,預測結果會以 CSV 文件的形式生成,并自動回復在那個“問題單”里供研究人員下載。
GitHub 的客戶成功架構師珍娜·馬薩爾多(Jenna Massardo)幫助實現了這一流程。她指出,這種利用現有基礎設施的做法避免了過度開發,“用戶不需要擔心任何技術細節,他們只需提交請求,Ersilia 的工作流就會處理一切。”
![]()
圖 | Ersilia 在 GitHub 的項目頁面(來源:GitHub)
這種模式不僅免費利用了公共計算資源,更重要的是極大地降低了使用門檻。一位在喀麥隆研究抗生素耐藥性的生物學家,無需學習任何代碼,就能像填表一樣使用在南非訓練好的結核病模型,或者使用由加拿大麥克馬斯特大學貢獻的抗生素模型。
打破學科與地域的孤島
Ersilia 的這些努力正在改變非洲藥物研發的生態。
H3D 中心主任凱利·奇巴萊(Kelly Chibale)教授認為,這項工作不僅是技術的引入,更是學科融合的典范。
![]()
(來源:H3D 官網)
“計算機科學和制藥科學長期以來一直是各自為戰的孤島,”奇巴萊教授說,“AI 可以將它們結合在一起。”在非洲,計算機科學是一個蓬勃發展的領域,擁有大量年輕的人才。Ersilia 的項目為這些數據科學家提供了一個切入點,讓他們看到自己的代碼可以直接應用于健康科學,解決實際的醫療問題。
通過 Ersilia 模型中心,目前已有約 150 個模型被公開托管。這些模型絕大多數來自科學文獻或合作機構的貢獻。例如,為了確保模型的準確性和更新速度,Ersilia 建立了一套自動化抓取機制,每天更新可用模型列表。任何科學家都可以申請將自己的模型納入這個中心,只需提供輸入輸出模式、開源許可和相關的論文鏈接。
這種去中心化的協作模式,正在構建一種新的“數字公共產品”(Digital Public Goods)。聯合國已經將 Ersilia 認定為數字公共產品,這意味著它是開源的、可免費獲取的,并旨在解決可持續發展目標中的關鍵挑戰。
目前 Ersilia 的足跡已經超越了南非。
他們正在與喀麥隆布埃亞大學(University of Buea)的藥物發現中心合作。該中心由比爾及梅琳達·蓋茨基金會資助成立,旨在從傳統草藥中發現新藥。雖然該中心成立時間不長,資源有限,但通過 Ersilia 的工具,他們可以直接利用全球最先進的預測模型來篩選天然產物,這在過去是不可想象的。
![]()
圖 | Ersilia 與喀麥隆布埃亞大學合作項目(來源:Ersilia 官網)
此外,團隊“低能耗、高影響”的技術路徑,也贏得了全球科技創新領域的認可。Ersilia Open Source Initiative 成功入選了 MIT Solve 的“解決者”(Solver)團隊,這是由麻省理工學院(MIT)發起的一項全球性社會創新挑戰賽事。
不同于傳統的學術資助,MIT Solve 更像是一個連接技術理想主義與現實資源的孵化器。該項目每年向全球征集應對經濟繁榮、健康、學習和氣候等領域棘手問題的技術方案。入選不僅僅意味著獲得一筆資金,更關鍵的是進入了一個由全球慈善家、商業領袖和技術專家組成的生態系統。
對于像 Ersilia 這樣的小型非營利組織而言,這種支持至關重要。
技術背后的理性與克制
盡管 AI 展現了巨大的潛力,但 Ersilia 團隊在推廣技術時保持了極大的理性與克制。杜蘭-弗里戈拉博士反復強調,模型輸出的結果只是一個“指示”,而非“確認”。
為了防止誤導研究人員,Ersilia 在模型中嵌入了驗證代碼。當用戶輸入數據時,系統首先會檢查數據的有效性。同時,團隊正在致力于開發置信度指標,以便在給出預測結果時,明確告知用戶這個結果的可信度有多少。
“目前,Ersilia 的重點是信息和工具的傳播,”杜蘭-弗里戈拉表示,
“未來,我們希望通過更大的用戶群,匯總大家正在測試的分子數據。”這種聚合效應將產生巨大的價值:研究人員可以從宏觀上看到哪些藥物分子正在被不同國家的實驗室關注,甚至通過數據共享,發現某種老藥可能對另一種病菌有效,從而實現藥物的“老藥新用”,這比從頭開發新藥要快得多。
威康信托基金會(Wellcome Trust)最近發布的一份關于 AI 在藥物發現中潛力的報告,重點引用了 H3D 與 Ersilia 的合作案例。報告指出,要釋放 AI 的全部潛力,必須解決中低收入國家的能力差距。
實踐證明,解決這一差距并不一定需要昂貴的硬件投資,更重要的是通過開源精神和巧妙的工程設計,讓現有的技術變得觸手可及。
1.官網:https://www.ersilia.io/
2.GitHub: https://github.com/ersilia-os/ersilia
3.Nature 論文: https://www.nature.com/articles/s41467-023-41512-2
運營/排版:何晨龍
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.