當下的AI技術熱潮中,數據是最炙手可熱的“燃料”。
從通用AI領域的樣本來看,Scale AI、Surge AI、Mercor等新銳,已憑借精細化標注和專家資源,相繼拿下OpenAI、微軟、谷歌、Meta等關鍵客戶晉升為大模型“賣水人”。
然而在生物制造領域中,數據并非一座挖掘后就能投入制造的金礦,現存可供工藝開發和制造的成熟數據極為稀少,無法適應傳統的人工智能/機器學習 (AI/ML)。
在這里,數據更像是新時代的石油。與石油一樣,數據本質上是骯臟的,需要投入時間和金錢來提取價值,這就是人工智能工具作為數據精煉者發揮作用的地方。
![]()
在全球生物工藝的頂級盛會之一,2025波士頓生物工藝峰會(2025 Annual Bioprocessing Summit)上,來自AI制藥、跨國藥企及相關企業的嘉賓就圍繞著“Digital Transformation and AI in Bioprocess”展開了討論。
![]()
高質量數據 成為行業剛需
必須關注AI背后的數據質量,這一點在會議上被反復提及。
國際知名律所Foley Hoag合伙人Colin Zick指出,在生物制造行業中,人們認為AI與其他數據工具不同,這種心態導致許多人覺得過去的通常規則不適用于AI,這是極其危險的。
賽諾菲全球 iCMC數字化轉型項目負責人Cenk 支持這一說法,一旦人們掌握了數據,就直接投入機器學習算法等AI工具中,而不考慮基本原理, 比如基本的統計學知識,以及對數據和我們正在試圖解決的問題的理解。
同時他反駁了另一個流行的神話,即人工智能幾乎適用于所有情況 —— “有時AI/ML方法不適合一項任務,簡單的普通流程反而會完成得更好。”
![]()
AI生物制造初創企業Biocurie的首席執行官 Irene Rombel提出了一個行業關注的話題:使用大型語言模型 (LLM) 和合成數據來生成缺失數據,也就是俗稱的“垃圾進,垃圾出”。
AI制藥企業Cresset首席戰略官 Mark Mackey 等科學家一直在對人工智能的這種潛在用途敲響警鐘,理由是整個行業對生物學的了解還不夠,無法驗證人工智能是否擁有做到這一點所需的所有數據。
人工智能是批判性思維的工具,而不是批判性思維的替代品。
Rombel 建議將心態從收集盡可能多的數據轉變為獲取正確的數據,盡管這樣可能會提高成本,因為專業知識和強大的統計分析同樣重要。
同時Undey還指出:認為機器學習/深度學習模型需要數百萬個數據點是一個常見的誤區。
AI生物制造模型的真正決定因素還是數據的質量,目前他們已經開發出了不少計算方法,甚至能夠處理數據相當有限的數據集。
![]()
哪些企業深耕于此?
使用AI不是目標;在有意義的地方使用它來解決正確的問題更為關鍵。
為了實現這一目標,生物制造行業需要整合生物基因編輯、代謝通路設計、工業發酵優化等全流程數據,才能為生物醫藥等各領域提供高質量數據集支持。
目前AI的表現情況仍直接取決于人類給予它學習的數據,現階段對AI應用來說,最重要的還是由實驗人員產生足夠的數據。
在產業界,木頭姐重倉的TempusAI,就是一家深耕AI醫療數據的公司,核心投資邏輯在于,其擁有目前世界上最大、最全面的癌癥患者分子數據庫,包含250PB多模態數據。
![]()
合成生物龍頭Ginkgo Bioworks也有一項名為Ginkgo Datapoints的數據服務,提出了LDaas(Lab Data as a Service,實驗數據即服務)的概念,并與Google Cloud合作開發生物工程AI模型。
AI醫療領域的Owkin則圍繞藥企和醫院構建了一個聯邦研究生態系統,依托7000例患者數據打造了目前腫瘤學領域規模最大的空間組學數據庫MOSAIC。
![]()
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.