面對日益增長的全球糧食需求,如何快速精準地預測作物復雜性狀,是分子育種領域的核心挑戰。傳統方法或受限于線性假設,難以捕捉基因間復雜的非線性互作;或依賴少數顯著位點,丟失了大量微效多基因信息。同時,海量基因組數據與模型可解釋性之間的鴻溝,也限制了人工智能在育種中的實際應用。
2026年3月27日,中國農業科學院作物科學研究所孫君明研究員、李英慧研究員、李靜副研究員團隊在《自然·通訊》(Nature Communications)上發表題為《Leveraging weighted embedding and Transformer architecture to improve phenotype prediction of complex traits for crops》的研究論文。該研究開發了一種名為GP-WAITER的深度學習框架,通過創新性地整合GWAS權重與Transformer架構,為作物基因組預測提供了高效、精準且可解釋的新方案。
![]()
研究團隊首先構建了GP-WAITER模型,其核心在于一個加權嵌入模塊。該模塊將全基因組關聯分析(GWAS)計算出的SNP權重與基因組序列進行元素級相乘,使模型在訓練之初便能感知每個變異的潛在表型貢獻。隨后,數據通過卷積神經網絡(CNN)提取局部特征,再交由多層Transformer編碼器,利用多頭自注意力機制捕獲超長基因組序列中的遠距離依賴關系。該設計讓模型能在并行計算中,動態為不同基因組區域分配注意力權重。
為驗證模型性能,研究者在涵蓋大豆、玉米、水稻、小麥的六個獨立數據集中,將GP-WAITER與rrBLUP、XGBoost、CNN等七種主流方法進行了系統比較。結果顯示,GP-WAITER在所有數據集上均表現最優,預測準確性較其他模型提升8.9%至77.5%,均方誤差(MSE)最高降低95.9%。在擁有近5.7億數據點的大規模大豆群體中,其計算速度相比其他深度學習方法提升1.8至2.4倍,峰值顯存占用僅536 MB,展現出優異的計算效率與擴展性。
![]()
模型的可解釋性是另一大亮點。通過SHAP分析方法,研究團隊成功定位了驅動特定性狀的關鍵遺傳變異。例如,在總異黃酮含量預測中,排名首位的變異位于MFT基因內。進一步單倍型分析證實,該位點不同等位基因型的大豆材料在油分、油酸等四種營養品質上均存在顯著差異。更有趣的是,SHAP分析還鑒定出一個在常規GWAS中因效應較小而未能檢出的候選位點(位于查爾酮合酶基因附近),說明該方法能有效挖掘被傳統統計學方法遺漏的微效位點。
研究進一步揭示了影響預測精度的關鍵因素。分析表明,性狀的遺傳力與預測精度呈正相關(R2=0.58)。當利用全基因組SNP進行預測時,準確度最高;而僅使用基因區SNP時,準確度顯著下降。有趣的是,對模型貢獻度最高的變異(高SHAP值)有超過90%富集在調控區和基因區,這解釋了為何聚焦于這些功能區域的模型能獲得更高的預測精度。通過消融實驗,團隊證實了加權信息的重要性:加入GWAS權重后,模型平均預測精度提升了7.9%,在多個性狀上的優勢尤為明顯。
READING
BioPeers
歡迎關注本公眾號,所有內容歡迎點贊,推薦??,評論,轉發~
如有錯誤、遺漏、侵權或商務合作請私信小編~~
歡迎大家投稿課題組 研究進展 、招聘及招生宣傳~
所有文章只為科普、科研服務,無商業目的~
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.