網易首頁 > 網易號 > 正文申請入駐

Nature Commun | 中國農科院李英慧/孫君明/李靜團隊新模型讓作物育種預測準確率提升超七成

2026-03-27 12:52:09　來源: BioPeers

浙江舉報

分享至

面對日益增長的全球糧食需求，如何快速精準地預測作物復雜性狀，是分子育種領域的核心挑戰。傳統方法或受限于線性假設，難以捕捉基因間復雜的非線性互作；或依賴少數顯著位點，丟失了大量微效多基因信息。同時，海量基因組數據與模型可解釋性之間的鴻溝，也限制了人工智能在育種中的實際應用。

2026年3月27日，中國農業科學院作物科學研究所孫君明研究員、李英慧研究員、李靜副研究員團隊在《自然·通訊》（Nature Communications）上發表題為《Leveraging weighted embedding and Transformer architecture to improve phenotype prediction of complex traits for crops》的研究論文。該研究開發了一種名為GP-WAITER的深度學習框架，通過創新性地整合GWAS權重與Transformer架構，為作物基因組預測提供了高效、精準且可解釋的新方案。

研究團隊首先構建了GP-WAITER模型，其核心在于一個加權嵌入模塊。該模塊將全基因組關聯分析（GWAS）計算出的SNP權重與基因組序列進行元素級相乘，使模型在訓練之初便能感知每個變異的潛在表型貢獻。隨后，數據通過卷積神經網絡（CNN）提取局部特征，再交由多層Transformer編碼器，利用多頭自注意力機制捕獲超長基因組序列中的遠距離依賴關系。該設計讓模型能在并行計算中，動態為不同基因組區域分配注意力權重。

為驗證模型性能，研究者在涵蓋大豆、玉米、水稻、小麥的六個獨立數據集中，將GP-WAITER與rrBLUP、XGBoost、CNN等七種主流方法進行了系統比較。結果顯示，GP-WAITER在所有數據集上均表現最優，預測準確性較其他模型提升8.9%至77.5%，均方誤差（MSE）最高降低95.9%。在擁有近5.7億數據點的大規模大豆群體中，其計算速度相比其他深度學習方法提升1.8至2.4倍，峰值顯存占用僅536 MB，展現出優異的計算效率與擴展性。

模型的可解釋性是另一大亮點。通過SHAP分析方法，研究團隊成功定位了驅動特定性狀的關鍵遺傳變異。例如，在總異黃酮含量預測中，排名首位的變異位于MFT基因內。進一步單倍型分析證實，該位點不同等位基因型的大豆材料在油分、油酸等四種營養品質上均存在顯著差異。更有趣的是，SHAP分析還鑒定出一個在常規GWAS中因效應較小而未能檢出的候選位點（位于查爾酮合酶基因附近），說明該方法能有效挖掘被傳統統計學方法遺漏的微效位點。

研究進一步揭示了影響預測精度的關鍵因素。分析表明，性狀的遺傳力與預測精度呈正相關（R2=0.58）。當利用全基因組SNP進行預測時，準確度最高；而僅使用基因區SNP時，準確度顯著下降。有趣的是，對模型貢獻度最高的變異（高SHAP值）有超過90%富集在調控區和基因區，這解釋了為何聚焦于這些功能區域的模型能獲得更高的預測精度。通過消融實驗，團隊證實了加權信息的重要性：加入GWAS權重后，模型平均預測精度提升了7.9%，在多個性狀上的優勢尤為明顯。

READING

BioPeers

歡迎關注本公眾號，所有內容歡迎點贊，推薦??，評論，轉發~

如有錯誤、遺漏、侵權或商務合作請私信小編~~

歡迎大家投稿課題組研究進展、招聘及招生宣傳~

所有文章只為科普、科研服務，無商業目的~

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.