<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      毫秒級搜索10億生物序列!騰訊×浙大合作推出最強生物序列搜索AI工具——ERAST

      0
      分享至

      撰文丨王聰

      編輯丨王多魚

      排版丨水成文

      在生命科學領域,同源搜索(Homology Search)是一項基礎且至關重要的任務。簡單來說,它就是通過比較 DNA 或蛋白質的序列,來尋找那些源自共同祖先、可能具有相似功能的“親戚”。這就像是在龐大的“生命字母表”中,快速找到拼寫相似的段落。

      無論是鑒定一個新發現的基因功能,追溯病毒的進化路徑,還是在宏基因組數據中挖掘有用的酶,都離不開高效的序列比對工具。幾十年來,BLAST 及其衍生工具一直是該領域的金標準。然而,隨著測序技術的飛速發展,生物數據庫的規模已呈指數級增長,傳統方法在處理海量數據時的速度和精度遇到了巨大瓶頸。在浩如煙海的生物序列數據庫中,精準找到一個蛋白質的“遠親,傳統方法可能需要數小時甚至數天。

      2026 年 4 月 1 日,騰訊生命科學實驗室(AI for Life Sciences Laboratory)姚建華研究員、何冰研究員及浙江大學陳華鈞教授、張強助理教授作為共同通訊作者(姜一諾何冰為共同第一作者),在Nature Biotechnology期刊發表了題為:Scalable homology detection with ERAST 的研究論文。

      該研究開發了融合大語言模型與向量數據庫技術的同源檢測工具——ERAST(Efficient Retrieval-Augmented Search Tool)。該研究構建了目前全球規模最大的生物向量數據庫(涵蓋超 10 億條蛋白質序列與 3000 萬條核酸序列),在十億級數據規模下實現了毫秒級的精準檢索,相比傳統工具 TM-align 計算效率提升約 5 萬倍。此外,ERAST 通過全局聚類分析成功揭示了海量“暗功能”蛋白質的潛在進化聯系,為蛋白質功能注釋提供了全新的技術范式。


      ERAST:當 AI 大模型遇見向量數據庫

      該研究開發的高效檢索增強搜索工具——ERAST(efficient retrieval-augmented search tool),是一種旨在處理迄今為止最大的向量數據庫中約 10 億個生物序列的解決方案。ERAST的核心創新在于巧妙地將前沿的大語言模型與高效的向量數據庫相結合,為同源生物序列提供高效且精確的搜索。它通過整合預檢索、檢索和后檢索優化階段來提高搜索質量,并支持核苷酸和蛋白質序列。

      1、構建“生命序列的地圖”:ERAST 首先使用經過預訓練的大語言模型(例如蛋白質語言模型 ESM-2,DNA 語言模型 MAMBA),將抽象的生物序列轉化為高維空間中的“向量”坐標。這相當于為每一條序列賦予了獨一無二的“數學指紋”。超過 10 億個這樣的指紋被存入一個特制的向量數據庫中,并建立了高效的索引。

      2、三步走,實現精準狙擊:ERAST 的搜索流程被精心設計為三個階段,層層過濾,確保結果又快又準:

      • 預檢索過濾:就像用“篩子”先過濾掉明顯不相關的數據。系統會根據查詢序列的元數據(例如長度、家族標簽)縮小搜索范圍。

      • 向量檢索:將查詢序列也轉化為向量,并在數據庫中快速計算其與候選向量之間的“余弦距離”(一種相似度度量)。借助并行計算技術,這個過程能在毫秒內完成。

      • 后檢索重排序:這是提升精度的關鍵一步。ERAST 自帶一個名為 EHSM 的評分模型,會對初步檢索出的候選序列進行二次打分和排序,尤其擅長識別那些進化關系遙遠、序列相似度低的“遠親”。


      ERAST 概述

      性能碾壓:速度更快,準度更高

      論文中的 benchmark(性能測試)結果令人印象深刻:

      速度:在標準的 SCOPe40 測試集上,ERAST 的搜索速度比目前廣泛使用的、基于結構的快速搜索工具 Foldseek 快約 50 倍,比高精度結構比對工具 TM-align 快約 5 萬倍。對于長達 10 萬堿基對的 DNA 序列,ERAST 比經典工具 BLASTn 快 60 倍。

      精度:在識別蛋白質同源關系時,ERAST 的 Top-1 命中精度(P@1)顯著優于包括 TM-Vec、DHR、PLMSearch 在內的所有主流深度學習方法。即使在處理“分布外”的新奇序列時,其穩健性也遠超傳統方法。

      這種性能使得 ERAST 能夠在幾毫秒內從包括數十億個生物序列的數據庫中進行準確搜索,精準定位目標同源序列。

      不止于搜索:照亮“功能未知”的蛋白質暗物質

      除了快速搜索,ERAST 還能做一件更有意義的事:大規模全局聚類分析

      在現有的蛋白質數據庫中,有大量被標記為“功能未知”、“假設蛋白”的序列,它們被稱為“蛋白質暗物質”。ERAST 能夠基于全局序列相似性,將整個 UniRef90 數據庫中的蛋白質進行聚類,構建出一個超大規模的功能聚類網絡。

      研究發現,94% 的功能未知蛋白質簇,都能通過這個網絡與功能已知的蛋白質簇連接起來。這為科學家們推斷這些“暗物質”蛋白的可能功能、揭示其進化關系,提供了前所未有的強大線索和全局視角。

      工具開源,推動生命科學探索

      ERAST 不僅是一項學術成果,更是一個即將惠及全球科研人員的實用工具。該系統支持對蛋白質和核苷酸序列的雙重搜索,其集成向量數據庫的網站已公開可用。

      這項研究標志著AI for Science(科學智能)在生物信息學核心領域的一次重要突破。它將使研究人員從耗時的計算等待中解放出來,更專注于科學發現本身,有望加速新藥靶點發現、病原體追蹤、酶工程設計等眾多領域的研究進程。

      數據庫與在線工具訪問入口:https://ai4s.tencent.com/erast

      ERAST 源代碼倉庫:https://github.com/TencentAILabHealthcare/ERAST

      論文鏈接

      https://www.nature.com/articles/s41587-026-03051-1

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      一地什么都卷,連體育也卷?家長:我們這里的孩子是犯了天條嘛?

      一地什么都卷,連體育也卷?家長:我們這里的孩子是犯了天條嘛?

      新東方
      2026-04-22 17:13:22
      為什么說印度的海岸線,遠看是老天爺賞飯,近看是逗你玩兒?

      為什么說印度的海岸線,遠看是老天爺賞飯,近看是逗你玩兒?

      半解智士
      2026-04-16 17:10:39
      越來越清晰:只剩革命衛隊問題還沒解決,未來會被內外聯合絞殺嗎

      越來越清晰:只剩革命衛隊問題還沒解決,未來會被內外聯合絞殺嗎

      民間胡扯老哥
      2026-04-21 05:45:15
      中共山東省委組織部干部任前公示公告

      中共山東省委組織部干部任前公示公告

      上觀新聞
      2026-04-23 07:06:03
      權威專家獨家解讀正確政績觀丨為何既要“顯績”亮眼,又要深耕“潛績”?

      權威專家獨家解讀正確政績觀丨為何既要“顯績”亮眼,又要深耕“潛績”?

      新華社
      2026-04-22 19:38:56
      百億美元砸出的荒誕死局:一國正規軍為何永遠打不贏一支民兵

      百億美元砸出的荒誕死局:一國正規軍為何永遠打不贏一支民兵

      寰球經緯所
      2026-04-20 22:59:41
      斯諾克世錦賽第5日 又有3人晉級 6組16強對陣確定 中國新

      斯諾克世錦賽第5日 又有3人晉級 6組16強對陣確定 中國新

      軍武英雄
      2026-04-23 12:07:59
      貝克漢姆14歲女兒當美妝總裁!爸媽提前9年鋪路,網友:誰敢買?!

      貝克漢姆14歲女兒當美妝總裁!爸媽提前9年鋪路,網友:誰敢買?!

      英國報姐
      2026-04-22 20:39:20
      胡荷韜:下一場又是硬仗,但我們不會慫

      胡荷韜:下一場又是硬仗,但我們不會慫

      懂球帝
      2026-04-22 23:34:16
      鞍鋼集團有限公司原總工程師林大慶被查

      鞍鋼集團有限公司原總工程師林大慶被查

      新京報
      2026-04-23 09:38:17
      黎筍長子坦言,當年越南敢對華動武,全靠三個關鍵前提

      黎筍長子坦言,當年越南敢對華動武,全靠三個關鍵前提

      嘮叨說歷史
      2026-03-17 12:57:35
      已經復合?太陽報:哲凱踢歐冠時和前女友在里斯本共進晚餐

      已經復合?太陽報:哲凱踢歐冠時和前女友在里斯本共進晚餐

      懂球帝
      2026-04-23 01:31:05
      最新:曝俄軍敗退扎波羅熱!丟失幾年來占領的全部土地

      最新:曝俄軍敗退扎波羅熱!丟失幾年來占領的全部土地

      項鵬飛
      2026-04-20 20:13:15
      退休人員速查!1992年前干過這4類工作 每月多領一筆錢 別白吃虧

      退休人員速查!1992年前干過這4類工作 每月多領一筆錢 別白吃虧

      混沌錄
      2026-04-22 19:51:07
      醪糟再次被關注!醫生發現:高血脂患者喝醪糟,不用多久4大變化

      醪糟再次被關注!醫生發現:高血脂患者喝醪糟,不用多久4大變化

      芹姐說生活
      2026-04-19 15:52:53
      斯諾克世錦賽!誕生兩場慘案,斯佳輝慘遭五連鞭逆轉,恐創造尷尬紀錄!龐俊旭4-5蘿卜

      斯諾克世錦賽!誕生兩場慘案,斯佳輝慘遭五連鞭逆轉,恐創造尷尬紀錄!龐俊旭4-5蘿卜

      體壇最前線66
      2026-04-23 06:26:49
      博格巴欲與穆帥言歸于好!贊其特別,指責英媒挑撥離間致曼聯內訌

      博格巴欲與穆帥言歸于好!贊其特別,指責英媒挑撥離間致曼聯內訌

      羅米的曼聯博客
      2026-04-23 12:11:16
      曼寧格妻子發文悼念丈夫:我們曾擁有完美生活,我會永遠愛你

      曼寧格妻子發文悼念丈夫:我們曾擁有完美生活,我會永遠愛你

      懂球帝
      2026-04-22 17:18:02
      大逆轉!開拓者106-103馬刺!文班亞馬傷退卻慶幸!楊瀚森DNP!

      大逆轉!開拓者106-103馬刺!文班亞馬傷退卻慶幸!楊瀚森DNP!

      越嶺尋蹤
      2026-04-22 11:33:27
      潛伏在中國高層的大間諜,遍布軍界政界,簡直令人唏噓

      潛伏在中國高層的大間諜,遍布軍界政界,簡直令人唏噓

      咸説歷史
      2026-04-14 14:21:44
      2026-04-23 13:08:49
      生物世界 incentive-icons
      生物世界
      最前沿、最有趣的生命科學研究
      9258文章數 145058關注度
      往期回顧 全部

      科技要聞

      車沒賣爆,利潤卻大漲,特斯拉發布財報

      頭條要聞

      媒體:當下越南"極度不安" 蘇林訪華簽文件對沖"焦慮"

      頭條要聞

      媒體:當下越南"極度不安" 蘇林訪華簽文件對沖"焦慮"

      體育要聞

      萊斯特城降入英甲,一場虧麻了的豪賭

      娛樂要聞

      《凌探未來》公益紀錄片今日發布

      財經要聞

      全球第一個國家宣布:儲備6月耗盡

      汽車要聞

      長安"1445"戰略:一張走向"世界長安"的行軍地圖

      態度原創

      本地
      數碼
      親子
      旅游
      公開課

      本地新聞

      SAGA GIRLS 2026女團選秀

      數碼要聞

      2026游戲本必看!暗影精靈PRO 15耐用解析 適配直播用戶+硬核玩家

      親子要聞

      “透明”的幼兒園:困在監控里的家長和老師

      旅游要聞

      男子玩“窩囊版”蹦極摔傷后起訴,景區通報:該案明日第二次開庭

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版