人類基因組序列的“標(biāo)準(zhǔn)地圖”自2001年首次發(fā)布以來(lái),不斷被修正和完善。然而,這些參考基因組主要基于少量個(gè)體構(gòu)建,難以全面反映全球不同人群的遺傳多樣性。尤其是在識(shí)別結(jié)構(gòu)變異、串聯(lián)重復(fù)等復(fù)雜變異方面,傳統(tǒng)的短讀長(zhǎng)測(cè)序技術(shù)存在明顯局限,大量存在于非參考序列中的遺傳信息長(zhǎng)期被忽視。泛基因組概念的提出,為整合群體中完整的遺傳變異譜系提供了新的框架,但要真正服務(wù)于醫(yī)學(xué)研究和臨床實(shí)踐,還需要足夠規(guī)模的樣本來(lái)捕獲稀有的、潛在致病的變異。
2026年4月1日,西湖大學(xué)楊劍教授團(tuán)隊(duì)在《自然》雜志發(fā)表了題為“The 1000 Chinese Pangenome empowers medical and population genetics”的研究論文。該研究基于1116名中國(guó)個(gè)體的高質(zhì)量二倍體基因組組裝,構(gòu)建了首個(gè)大規(guī)模中國(guó)人群泛基因組圖譜,系統(tǒng)揭示了此前未發(fā)現(xiàn)的遺傳多樣性,為精準(zhǔn)醫(yī)學(xué)和群體遺傳學(xué)研究提供了關(guān)鍵數(shù)據(jù)資源。
![]()
研究團(tuán)隊(duì)首先利用自主研發(fā)的泛基因組引導(dǎo)組裝流程,對(duì)1116份樣本進(jìn)行了高質(zhì)量二倍體基因組組裝,平均質(zhì)量值達(dá)到46,展現(xiàn)出極低的錯(cuò)誤率。基于這些組裝結(jié)果,他們構(gòu)建了一個(gè)包含40.53億堿基序列的泛基因組,其中2.77億堿基序列在現(xiàn)有參考基因組中完全缺失。在這些新序列中,研究團(tuán)隊(duì)鑒定出2620萬(wàn)堿基具有潛在功能的遺傳元件,包括增強(qiáng)子、啟動(dòng)子和轉(zhuǎn)錄因子結(jié)合位點(diǎn)。
在變異檢測(cè)方面,該研究構(gòu)建了迄今為止最全面的中國(guó)人群遺傳變異圖譜,涵蓋3540萬(wàn)個(gè)單核苷酸變異、11萬(wàn)余個(gè)結(jié)構(gòu)變異、48.6萬(wàn)個(gè)串聯(lián)重復(fù)變異以及86萬(wàn)個(gè)嵌入非參考序列的嵌套變異。值得注意的是,80.3%的結(jié)構(gòu)變異位點(diǎn)呈現(xiàn)多等位性,研究團(tuán)隊(duì)通過(guò)優(yōu)化合并策略將其平均等位基因數(shù)從61.7個(gè)降至5.5個(gè),更準(zhǔn)確地反映了群體遺傳特征。與現(xiàn)有數(shù)據(jù)庫(kù)相比,33.3%的結(jié)構(gòu)變異為首次報(bào)道,其中83.5%為罕見(jiàn)變異。
聚焦醫(yī)學(xué)相關(guān)基因,研究團(tuán)隊(duì)發(fā)現(xiàn)了5239個(gè)影響蛋白質(zhì)編碼基因外顯子的結(jié)構(gòu)變異,這些變異在進(jìn)化上呈現(xiàn)出明顯的純化選擇信號(hào)。在623個(gè)與孟德?tīng)栠z傳病或癌癥相關(guān)的基因中,罕見(jiàn)結(jié)構(gòu)變異的比例高達(dá)74.6%。此外,他們利用DBSCAN算法在全基因組范圍內(nèi)識(shí)別出2427個(gè)串聯(lián)重復(fù)擴(kuò)增事件,其中124個(gè)位于外顯子區(qū)域。在HP基因簇等具有復(fù)雜結(jié)構(gòu)單倍型的區(qū)域,該研究揭示了多個(gè)此前未報(bào)道的結(jié)構(gòu)單倍型及其與血脂水平的關(guān)聯(lián)。
![]()
為探究復(fù)雜變異的調(diào)控功能,研究團(tuán)隊(duì)整合了1101份樣本的基因表達(dá)數(shù)據(jù),開(kāi)展了涵蓋所有變異類型的表達(dá)數(shù)量性狀位點(diǎn)分析。結(jié)果顯示,復(fù)雜變異解釋了12.6%的基因表達(dá)遺傳力,在3256個(gè)領(lǐng)先表達(dá)數(shù)量性狀位點(diǎn)中,包含串聯(lián)重復(fù)、結(jié)構(gòu)變異和嵌套變異等類型。特別是嵌套變異在增強(qiáng)子、啟動(dòng)子和非編碼外顯子中顯著富集,揭示了非參考序列在基因調(diào)控中的重要作用。通過(guò)共定位分析,他們還發(fā)現(xiàn)了如GSTM1基因18kb缺失等可能影響血小板計(jì)數(shù)的潛在機(jī)制。
基于上述研究成果,研究團(tuán)隊(duì)構(gòu)建了首個(gè)涵蓋多類型變異的中國(guó)人群基因型填充參考面板,包含2630萬(wàn)個(gè)單核苷酸變異、10萬(wàn)余個(gè)結(jié)構(gòu)變異、148萬(wàn)個(gè)嵌套變異和超過(guò)51萬(wàn)個(gè)串聯(lián)重復(fù)變異。評(píng)估結(jié)果顯示,該面板對(duì)結(jié)構(gòu)變異、串聯(lián)重復(fù)和人類白細(xì)胞抗原等位基因的填充準(zhǔn)確性優(yōu)于或相當(dāng)于現(xiàn)有參考面板,并首次實(shí)現(xiàn)了嵌套變異和四字段人類白細(xì)胞抗原等位基因的填充。所有數(shù)據(jù)和研究工具已通過(guò)項(xiàng)目門(mén)戶網(wǎng)站開(kāi)放共享,為全球遺傳學(xué)和醫(yī)學(xué)研究提供了重要資源。
西湖大學(xué)生命科學(xué)學(xué)院博士研究生王逸飛、助理研究員段忠取博士為本文的共同第一作者,楊劍教授為最后通訊作者。本研究得到了國(guó)家自然科學(xué)基金、國(guó)家重點(diǎn)研發(fā)計(jì)劃、浙江省“尖兵”“領(lǐng)雁”研發(fā)攻關(guān)計(jì)劃項(xiàng)目以及新基石科學(xué)基金會(huì)的經(jīng)費(fèi)支持。同時(shí)感謝西湖大學(xué)高性能計(jì)算中心對(duì)本研究的大力支持。
READING
BioPeers
歡迎關(guān)注本公眾號(hào),所有內(nèi)容歡迎點(diǎn)贊,推薦??,評(píng)論,轉(zhuǎn)發(fā)~
如有錯(cuò)誤、遺漏、侵權(quán)或商務(wù)合作請(qǐng)私信小編~~
歡迎大家投稿課題組 研究進(jìn)展 、招聘及招生宣傳~
所有文章只為科普、科研服務(wù),無(wú)商業(yè)目的~
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.