![]()
現代分子生物學中,同源搜索(Homology search)是識別具有共同祖先和相似功能的序列的基礎,對于表征新生物序列至關重要。
2026年4月1 日, 騰訊生命科學實驗室(AI for Life Sciences Lab)姚建華研究員、何冰研究員 與 浙江大學陳華鈞教授、張強助理教授 聯合研究團隊 [共同一作為 姜一諾(浙江大學/騰訊)、何冰(騰訊) ]在Nature Biotechnology上發表了文章Scalable homology detection with ERAST,開發了融合大語言模型與向量數據庫技術的同源檢測工具ERAST(Efficient Retrieval-Augmented Search Tool)。該研究構建了目前全球規模最大的生物向量數據庫(涵蓋超10億條蛋白質序列與3000萬條核酸序列),在十億級數據規模下實現了毫秒級的精準檢索,相比傳統工具TM-align計算效率提升約五萬倍。此外,ERAST通過全局聚類分析成功揭示了海量“暗功能”蛋白質的潛在進化聯系,為蛋白質功能注釋提供了全新的技術范式。
![]()
研究背景
同源搜索是分子生物學和計算生物學領域的核心基石。隨著宏基因組學測序技術的飛速發展,生物數據庫的規模呈現指數級爆炸增長,目前已達數十億量級。然而,面對如此龐大的數據規模,傳統的序列比對工具如 BLAST、Foldseek 和 MMseqs2 等暴露出了明顯的局限性:它們在處理海量數據時,往往面臨計算效率低下或高精度計算成本不可接受的權衡困境。
為了突破這一瓶頸,構建能夠同時滿足海量吞吐、極速響應與高精度匹配的超大規模向量數據庫,成為了生物信息學的前沿探索方向。基于此,騰訊與浙江大學聯合研究團隊提出了一種融合大語言模型(LLM)與向量檢索技術的新型系統方案。
ERAST:模塊化檢索增強架構
ERAST 是一款專為超大規模生物序列檢索與遠程同源發現(Remote homology detection)設計的創新工具。其核心突破在于采用了模塊化的檢索增強架構(Retrieval-Augmented Architecture),將復雜的搜索流程解耦為三個高效協同的階段:
1. 檢索前過濾(Pre-retrieval Filtering): 系統首先基于多維元數據對候選序列進行快速的初步篩選,大幅削減底層計算空間的冗余度。
2. 向量檢索(Vector Retrieval): 底層依托預訓練的大語言模型(針對蛋白質序列采用 ESM-2 架構,針對核酸序列采用 MAMBA 架構)提取序列的高維稠密表征,隨后結合 IVFPQ 與 HNSW 索引算法,基于余弦距離在向量空間內完成毫秒級的候選序列召回。
3. 檢索后重排序(Post-retrieval Re-ranking): 這是 ERAST 保證極高精度的核心模塊。系統通過自主研發的 EHSM 模型對召回的 Top-K 結果進行二次精細評分,有效捕捉低序列一致性下的深層同源進化特征。
此外,通過創新的分段存儲與多線程并行策略,ERAST 實現了對超大規模向量數據的高效管理。值得關注的是,該系統不僅支持蛋白質序列,還能無縫處理長度超過 10,000 bp 的長核苷酸序列,極大地拓展了其在基因組學層面的應用潛力。
突破性能與“暗功能”蛋白質解析
在實證表現方面,研究團隊基于 ERAST 構建了目前全球公開規模最大的生物向量數據庫,涵蓋了超過 10 億條蛋白質序列和 3,000 萬條核酸序列。
在嚴苛的 SCOPe40 基準測試集上,ERAST 的檢索精度超越了現有的最先進方法(SOTA)。在計算效率方面,ERAST 展現出了壓倒性優勢:其搜索速度相比于 Foldseek 提升了約 50 倍,相比于經典的 TM-align 提升了約 50,000 倍。 這一性能飛躍意味著系統能夠在毫秒級時間內,從十億級數據庫中精準定位目標同源序列。
基于這一強大的計算引擎,研究團隊對 UniRef90 數據集進行了全局聚類分析。結果揭示,數據庫中約 94% 原本缺乏功能注釋的“暗功能”(Dark functional)蛋白質,實際上與已知功能蛋白質存在潛在的進化聯系。這一發現為系統性破解蛋白質“暗物質”的生物學功能提供了強有力的數據與工具支撐。
研究總結與展望
ERAST 極大地增強了探測遠程同源蛋白質的技術上限,顯著提高了大規模生物序列分析的可擴展性與準確性。其模塊化架構設計使得系統在面對數據分布偏移時展現出極高的魯棒性,研究人員可以在不重新編碼整個龐大向量數據庫的前提下,快速更新重排序模塊以適應新數據。
未來,ERAST 及其配套的十億級向量數據庫,將作為重要的計算生物學基礎設施,為藥物靶點發現、罕見疾病診斷及合成生物學元件挖掘等領域提供堅實的技術支撐。
![]()
圖1:ERAST 系統架構及同源檢索流程示意圖。A. 編碼與索引構建:利用預訓練語言模型將序列轉化為向量,通過 IVFPQ/HNSW 算法構建超大規模索引。B. 檢索流程:涵蓋預過濾、向量空間召回以及 EHSM 模型重排序三大階段。
訪問地址與開源代碼:
數據庫與在線工具訪問入口: https://ai4s.tencent.com/erast
騰訊 AI for Life Sciences 實驗室 : https://ai4s.tencent.com
ERAST 源代碼倉庫: https://github.com/TencentAILabHealthcare/ERAST
原文鏈接:https://www.nature.com/articles/s41587-026-03051-1
制版人: 十一
學術合作組織
(*排名不分先后)
![]()
戰略合作伙伴
(*排名不分先后)
![]()
![]()
轉載須知
【非原創文章】本文著作權歸文章作者所有,歡迎個人轉發分享,未經作者的允許禁止轉載,作者擁有所有法定權利,違者必究。
BioArt
Med
Plants
人才招聘
近期直播推薦
![]()
點擊主頁推薦活動
關注更多最新活動!
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.