![]()
編輯丨王多魚
排版丨水成文
近日,DeepSeek新發(fā)布的“外掛大腦”模式在大模型圈內(nèi)爆火,僅 16 天后,國內(nèi)一個名叫Genos的團(tuán)隊(duì)將這種模式引入了生命科學(xué)領(lǐng)域,提出了Gengram創(chuàng)新模塊,以解決當(dāng)前基因組基礎(chǔ)模型的核心瓶頸,通過用高效的檢索替代一部分繁重的計(jì)算,實(shí)現(xiàn)了“超越條件計(jì)算”的目標(biāo),同時兼顧了實(shí)證性能和機(jī)制可解釋性。
簡單理解,就是不費(fèi)時費(fèi)力地讓模型背常識,直接裝上“外掛大腦”,需要的時候查表就行。
![]()
如果說之前的基因組大模型是在逐字認(rèn)識 ATCG 的排列組合,那么 Genos 團(tuán)隊(duì)此次推出的Gengram則相當(dāng)于為其配備了一本“基因字典”。數(shù)據(jù)顯示,搭載 Gengram 后的大模型,不僅刷新了多項(xiàng)基因組任務(wù)的 SOTA 記錄,讓模型在剪接位點(diǎn)識別等任務(wù)上 AUC 提升16.1%,還能自己悟出 DNA 雙螺旋的物理規(guī)律。
瓶頸:只會“讀字母”的基因組模型
在生物學(xué)中,很多 DNA 的功能元件(例如啟動子、剪接位點(diǎn))往往由特定的堿基組合(Motif)決定,但目前主流的基因組大模型都采用單堿基分詞的形式,也就是把 DNA 序列拆成一個個堿基來處理,這種方式雖然精準(zhǔn),但效率極低。
就像我們看“刻舟求劍”,是一眼看懂成語的含義,而不是先分析“刻”字有幾筆,“舟”字怎么寫,然后一個字一個字拼在一起,這不僅浪費(fèi)算力,還容易讓模型在長達(dá)數(shù)億的堿基序列中迷路。
突破:給 AI 裝上“外掛記憶”與“成語詞典”
今年 1 月 13 日,DeepSeek發(fā)布的Engram論文引發(fā)熱議,其核心是減少“死記硬背”的任務(wù),交給一個外部查表機(jī)制。受此啟發(fā),Genos團(tuán)隊(duì)提出了Gengram,成功將這一模式引入基因組學(xué),實(shí)現(xiàn)了“靜態(tài)模體識別”與“動態(tài)語境推理”的結(jié)構(gòu)解耦。
外置“基因字典”(顯式存儲): 團(tuán)隊(duì)預(yù)構(gòu)建了一個涵蓋 1-6 堿基長度的哈希字典,將生物學(xué)中常見的短序列組合存入其中。當(dāng)模型讀取序列時,可以直接檢索相關(guān)的生物學(xué)先驗(yàn)知識,不再需要從零推導(dǎo)。
動態(tài)門控機(jī)制: AI 學(xué)會了“看人下菜碟”。在編碼區(qū)或關(guān)鍵調(diào)控區(qū),門控高度激活,積極調(diào)用記憶庫;而在廣袤的無功能背景區(qū),門控則保持抑制,減少計(jì)算干擾。
![]()
模型結(jié)構(gòu)及評估概覽示意圖
發(fā)現(xiàn):神奇的 21bp
在測試過程中,研究團(tuán)隊(duì)發(fā)現(xiàn)了一個很有意思的現(xiàn)象,Gengram在訓(xùn)練時,會通過一個局部窗口來聚合信息。研究團(tuán)隊(duì)發(fā)現(xiàn),當(dāng)這個窗口大小設(shè)定為 21bp (堿基對)時,模型性能達(dá)到最優(yōu)。
為什么是 21?
我們知道,DNA 是雙螺旋結(jié)構(gòu),旋轉(zhuǎn)一圈大約是 10.5 個堿基,21 個堿基恰好轉(zhuǎn)了 2 圈。這意味著,相隔 21bp 的兩個堿基,在三維空間中恰好位于螺旋的同一側(cè),面對相似的生化環(huán)境,共同決定了蛋白質(zhì)(例如轉(zhuǎn)錄因子)如何結(jié)合到 DNA 上。
也就是說,Gengram 通過這種設(shè)計(jì),讓 AI 在處理一維序列時,隱約也看見了 DNA 的三維空間。
![]()
Gengram 模塊在不同窗口大小下的驗(yàn)證損失
戰(zhàn)績:小插件撬動大模型
Gengram是一個極輕量的插件,參數(shù)僅約 20M,相對于 100 億參數(shù)的模型微乎其微,卻對模型能力有了極大提升。
出色的模型數(shù)據(jù)能效比:在與多款主流 DNA 基礎(chǔ)模型的橫向測評中,集成 Gengram 的模型僅需極小規(guī)模的訓(xùn)練數(shù)據(jù),便能在核心任務(wù)上媲美乃至超越訓(xùn)練數(shù)據(jù)規(guī)模領(lǐng)先其數(shù)倍乃至數(shù)十倍的公開模型。
這篇論文中的實(shí)驗(yàn),大多基于人類基因組基礎(chǔ)模型 Genos 來實(shí)現(xiàn)。Genos 是研發(fā)團(tuán)隊(duì)于去年 10 月發(fā)布的全球首個百億級人類基因組基礎(chǔ)模型,目前已應(yīng)用于華大基因面向遺傳病臨床檢測的大語言模型GeneT,助力提高遺傳病分析解讀的水平。
![]()
多種參數(shù)MoE模型中,Genram模塊對負(fù)載均衡的影響
幕后:杭州 AI for Science 的“特種部隊(duì)”
Gengram的發(fā)布,讓人們將目光投向了杭州 AI 版圖的另一塊重要拼圖——Genos團(tuán)隊(duì)。
這支低調(diào)的團(tuán)隊(duì)結(jié)合了華大生命科學(xué)研究院的組學(xué)大數(shù)據(jù)經(jīng)驗(yàn),與之江實(shí)驗(yàn)室的計(jì)算和模型能力。這種“數(shù)據(jù)+算力”的強(qiáng)強(qiáng)聯(lián)合,正是目前攻克AI for Science領(lǐng)域壁壘的關(guān)鍵配置。
如果說 DeepSeek 證明了通用 AI 的極限,那么 Genos 團(tuán)隊(duì)則用行動展示了當(dāng) AI 深度對齊生物學(xué)邏輯時,我們離真正讀懂“生命之書”又近了一大步。
Paper:https://github.com/BGI-HangzhouAI/Gengram/blob/main/paper/
Github:https://github.com/BGI-HangzhouAI/Gengram
Hugging face:https://huggingface.co/BGI-HangzhouAI/Gengram
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.