<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      毫秒級搜索10億生物序列!騰訊×浙大合作推出最強生物序列搜索AI工具——ERAST

      0
      分享至

      撰文丨王聰

      編輯丨王多魚

      排版丨水成文

      在生命科學領域,同源搜索(Homology Search)是一項基礎且至關重要的任務。簡單來說,它就是通過比較 DNA 或蛋白質的序列,來尋找那些源自共同祖先、可能具有相似功能的“親戚”。這就像是在龐大的“生命字母表”中,快速找到拼寫相似的段落。

      無論是鑒定一個新發現的基因功能,追溯病毒的進化路徑,還是在宏基因組數據中挖掘有用的酶,都離不開高效的序列比對工具。幾十年來,BLAST 及其衍生工具一直是該領域的金標準。然而,隨著測序技術的飛速發展,生物數據庫的規模已呈指數級增長,傳統方法在處理海量數據時的速度和精度遇到了巨大瓶頸。在浩如煙海的生物序列數據庫中,精準找到一個蛋白質的“遠親,傳統方法可能需要數小時甚至數天。

      2026 年 4 月 1 日,騰訊生命科學實驗室(AI for Life Sciences Laboratory)姚建華研究員、何冰研究員及浙江大學陳華鈞教授、張強助理教授作為共同通訊作者(姜一諾何冰為共同第一作者),在Nature Biotechnology期刊發表了題為:Scalable homology detection with ERAST 的研究論文。

      該研究開發了融合大語言模型與向量數據庫技術的同源檢測工具——ERAST(Efficient Retrieval-Augmented Search Tool)。該研究構建了目前全球規模最大的生物向量數據庫(涵蓋超 10 億條蛋白質序列與 3000 萬條核酸序列),在十億級數據規模下實現了毫秒級的精準檢索,相比傳統工具 TM-align 計算效率提升約 5 萬倍。此外,ERAST 通過全局聚類分析成功揭示了海量“暗功能”蛋白質的潛在進化聯系,為蛋白質功能注釋提供了全新的技術范式。


      ERAST:當 AI 大模型遇見向量數據庫

      該研究開發的高效檢索增強搜索工具——ERAST(efficient retrieval-augmented search tool),是一種旨在處理迄今為止最大的向量數據庫中約 10 億個生物序列的解決方案。ERAST的核心創新在于巧妙地將前沿的大語言模型與高效的向量數據庫相結合,為同源生物序列提供高效且精確的搜索。它通過整合預檢索、檢索和后檢索優化階段來提高搜索質量,并支持核苷酸和蛋白質序列。

      1、構建“生命序列的地圖”:ERAST 首先使用經過預訓練的大語言模型(例如蛋白質語言模型 ESM-2,DNA 語言模型 MAMBA),將抽象的生物序列轉化為高維空間中的“向量”坐標。這相當于為每一條序列賦予了獨一無二的“數學指紋”。超過 10 億個這樣的指紋被存入一個特制的向量數據庫中,并建立了高效的索引。

      2、三步走,實現精準狙擊:ERAST 的搜索流程被精心設計為三個階段,層層過濾,確保結果又快又準:

      • 預檢索過濾:就像用“篩子”先過濾掉明顯不相關的數據。系統會根據查詢序列的元數據(例如長度、家族標簽)縮小搜索范圍。

      • 向量檢索:將查詢序列也轉化為向量,并在數據庫中快速計算其與候選向量之間的“余弦距離”(一種相似度度量)。借助并行計算技術,這個過程能在毫秒內完成。

      • 后檢索重排序:這是提升精度的關鍵一步。ERAST 自帶一個名為 EHSM 的評分模型,會對初步檢索出的候選序列進行二次打分和排序,尤其擅長識別那些進化關系遙遠、序列相似度低的“遠親”。


      ERAST 概述

      性能碾壓:速度更快,準度更高

      論文中的 benchmark(性能測試)結果令人印象深刻:

      速度:在標準的 SCOPe40 測試集上,ERAST 的搜索速度比目前廣泛使用的、基于結構的快速搜索工具 Foldseek 快約 50 倍,比高精度結構比對工具 TM-align 快約 5 萬倍。對于長達 10 萬堿基對的 DNA 序列,ERAST 比經典工具 BLASTn 快 60 倍。

      精度:在識別蛋白質同源關系時,ERAST 的 Top-1 命中精度(P@1)顯著優于包括 TM-Vec、DHR、PLMSearch 在內的所有主流深度學習方法。即使在處理“分布外”的新奇序列時,其穩健性也遠超傳統方法。

      這種性能使得 ERAST 能夠在幾毫秒內從包括數十億個生物序列的數據庫中進行準確搜索,精準定位目標同源序列。

      不止于搜索:照亮“功能未知”的蛋白質暗物質

      除了快速搜索,ERAST 還能做一件更有意義的事:大規模全局聚類分析

      在現有的蛋白質數據庫中,有大量被標記為“功能未知”、“假設蛋白”的序列,它們被稱為“蛋白質暗物質”。ERAST 能夠基于全局序列相似性,將整個 UniRef90 數據庫中的蛋白質進行聚類,構建出一個超大規模的功能聚類網絡。

      研究發現,94% 的功能未知蛋白質簇,都能通過這個網絡與功能已知的蛋白質簇連接起來。這為科學家們推斷這些“暗物質”蛋白的可能功能、揭示其進化關系,提供了前所未有的強大線索和全局視角。

      工具開源,推動生命科學探索

      ERAST 不僅是一項學術成果,更是一個即將惠及全球科研人員的實用工具。該系統支持對蛋白質和核苷酸序列的雙重搜索,其集成向量數據庫的網站已公開可用。

      這項研究標志著AI for Science(科學智能)在生物信息學核心領域的一次重要突破。它將使研究人員從耗時的計算等待中解放出來,更專注于科學發現本身,有望加速新藥靶點發現、病原體追蹤、酶工程設計等眾多領域的研究進程。

      數據庫與在線工具訪問入口:https://ai4s.tencent.com/erast

      ERAST 源代碼倉庫:https://github.com/TencentAILabHealthcare/ERAST

      論文鏈接

      https://www.nature.com/articles/s41587-026-03051-1

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      56歲毛新宇被攙著回韶山祭掃!墓前含淚發表演講,一句話信息量大

      56歲毛新宇被攙著回韶山祭掃!墓前含淚發表演講,一句話信息量大

      溫柔看世界
      2026-04-06 15:00:11
      美股股指期貨上行 納斯達克100指數股指期貨盤中漲超0.7%

      美股股指期貨上行 納斯達克100指數股指期貨盤中漲超0.7%

      每日經濟新聞
      2026-04-06 10:44:03
      陰蒂神經地圖遲到28年:1998年就畫完了男性的

      陰蒂神經地圖遲到28年:1998年就畫完了男性的

      我是一個粉刷匠2
      2026-03-30 12:24:22
      剛從日本回來,說點不中聽的:日本的真實面目,可能讓你很意外

      剛從日本回來,說點不中聽的:日本的真實面目,可能讓你很意外

      復轉這些年
      2026-04-01 09:17:19
      浙江釣友水底釣起行李箱,害怕攤事不敢打開,鉤沒摘直接剪線跑路

      浙江釣友水底釣起行李箱,害怕攤事不敢打開,鉤沒摘直接剪線跑路

      魚窩魚窩
      2026-04-06 10:17:58
      音樂人丁太升曾建議單依純離常石磊遠點,如今來看確實一語中的

      音樂人丁太升曾建議單依純離常石磊遠點,如今來看確實一語中的

      小徐講八卦
      2026-03-31 11:28:01
      綠營瑟瑟發抖?拼連任的蔣萬安最新民調出爐,比上次還高4.4%

      綠營瑟瑟發抖?拼連任的蔣萬安最新民調出爐,比上次還高4.4%

      海峽導報社
      2026-04-06 10:57:02
      非夫妻開房,民警提醒:只要不干這個,誰管你是不是夫妻

      非夫妻開房,民警提醒:只要不干這個,誰管你是不是夫妻

      李博世財經
      2026-04-06 14:15:09
      王皓感動,記者調侃王楚欽成男隊獨苗,大頭:這并不好笑

      王皓感動,記者調侃王楚欽成男隊獨苗,大頭:這并不好笑

      生活新鮮市
      2026-04-06 12:36:24
      張雪掀了陳光標底褲

      張雪掀了陳光標底褲

      言立方
      2026-04-03 18:24:14
      王傳君陳赫和解了!?

      王傳君陳赫和解了!?

      八卦瘋叔
      2026-04-05 10:40:16
      以色列至今都不敢相信,一場戰爭打掉了自己未來50年的國運

      以色列至今都不敢相信,一場戰爭打掉了自己未來50年的國運

      農夫史記
      2026-04-04 20:18:25
      湖人輸獨行俠1喜3憂!老詹體能不支,艾頓無態度,雷迪克死草主力

      湖人輸獨行俠1喜3憂!老詹體能不支,艾頓無態度,雷迪克死草主力

      籃球資訊達人
      2026-04-06 10:18:56
      廣東今日早報!再創CBA紀錄,新大外浮出水面,薩林杰休戰一周

      廣東今日早報!再創CBA紀錄,新大外浮出水面,薩林杰休戰一周

      多特體育說
      2026-04-06 11:05:53
      唐嫣羅晉戴情侶帽游樂園,一家三口坐旋轉木馬,唐嫣嫩如20歲

      唐嫣羅晉戴情侶帽游樂園,一家三口坐旋轉木馬,唐嫣嫩如20歲

      君笙的拂兮
      2026-04-05 23:14:42
      演員陳學冬:11部作品被下架,兩年4次手術,今35歲生活無法自理

      演員陳學冬:11部作品被下架,兩年4次手術,今35歲生活無法自理

      以茶帶書
      2026-04-03 19:40:21
      不攻打美國本土,戰爭或逐步升級;而一旦打美國本土,戰爭或結束

      不攻打美國本土,戰爭或逐步升級;而一旦打美國本土,戰爭或結束

      夢的微塵
      2026-04-06 07:45:15
      詹姆斯30+9+15,湖人128-134負獨行俠!誰是輸球罪魁?數據不說謊

      詹姆斯30+9+15,湖人128-134負獨行俠!誰是輸球罪魁?數據不說謊

      球場沒跑道
      2026-04-06 10:15:55
      特魯姆普調侃稱贊趙心童:我們都要努力了,否則他能拿100個冠軍

      特魯姆普調侃稱贊趙心童:我們都要努力了,否則他能拿100個冠軍

      郝小小看體育
      2026-04-06 06:07:57
      阿斯:拉什福德歐冠預計繼續首發,這是他再次證明自己的機會

      阿斯:拉什福德歐冠預計繼續首發,這是他再次證明自己的機會

      懂球帝
      2026-04-06 15:57:07
      2026-04-06 17:32:49
      生物世界 incentive-icons
      生物世界
      最前沿、最有趣的生命科學研究
      9159文章數 145039關注度
      往期回顧 全部

      科技要聞

      前同事被蒸餾成Token,AI能否偷走職場經驗

      頭條要聞

      外媒:美國副總統萬斯和伊朗外長等人徹夜交流

      頭條要聞

      外媒:美國副總統萬斯和伊朗外長等人徹夜交流

      體育要聞

      球員系列賽大滿貫!趙心童10-3世界第一 加冕賽季第4冠

      娛樂要聞

      喬任梁離世10年 父母曝舞臺光鮮的背后

      財經要聞

      史詩級暴跌"一周年" A股接下來如何走?

      汽車要聞

      阿維塔06T快上市了 旅行車還能這么玩?

      態度原創

      親子
      本地
      時尚
      公開課
      軍事航空

      親子要聞

      這一幕的救贖感誰懂啊!

      本地新聞

      跟著歌聲游安徽,聽古村回響

      AI時代,辨別真相的成本變高了

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      伊朗:在C-130運輸機殘骸中發現一具美軍士兵遺體

      無障礙瀏覽 進入關懷版