作者 | 曾響鈴
文 | 響鈴說
毫無疑問,在充裕的糧食自給率面前,中國老百姓早已經不用擔心“餓肚子”問題。幾個月前,加拿大數字媒體公司發布了一份權威的糧食自給率數據榜單,擁有14億人口的中國已經高居全球第三。
![]()
但是,我們看到的可能只是一種食物的“結果”,在整個農業產業鏈條中,這種“結果”之前的育種環節,我們所面臨的挑戰實際上并不小。2025年,中央一號文件提出繼續推進生物育種產業化,這也是“生物育種”連續第五年走進中央一號文件,其背后是育種產業的重要性和發展的緊迫性。
農安天下,種為基石,種子是農業的“芯片”,是現代農業的基石,更是確保國家糧食安全的源頭,關系著國計民生。
而過去許多年,國際種業巨頭在我國市場來勢兇猛,包括全球種業前十強在內的70多家國際種企進入中國,我們的田間地頭已經種下了一大批洋種子,糧食自給自足的背后是種子嚴重依賴國外。
雖然這些年在國家大力扶持以及相關主體的積極努力下,我國種業也在快速發展并取得了一些突破,研發能力逐步增強,市場占有率也穩步提升,但不得不承認的是,中國種業與發達國家存在代差。
端穩中國飯碗,還必須培育中國種子。
![]()
好消息是,已經有人在行動。作為國家重要的農業實驗室,崖州灣國家實驗室主要從事種業研究,與華為攜手,正在積極通過AI提升育種的效率和效果,實現農業智能化與可持續發展。
![]()
AI普惠帶來的育種革命,但撞上了“數據墻”
崖州灣國家實驗室相關專家在一次活動上分享育種AI實踐時,曾回顧了全球育種行業過去的發展。與很多傳統行業一樣,這個領域過去長期依賴經驗,雖然經過多個階段的進化,但從技術來說一直是一個概率事件:
第一代的馴化育種直接從大自然挑好種子;
第二代雜交育種帶有極強的隨機性,需要長期蹲守,期待、等待好的結果;
到了第三代分子水平育種,有分子標記但也只是進行了提前的篩選,本質上是提高了第二代雜交育種獲得成果的概率;
到了第四代,也就是全基因組學習階段,分子標記變成基因識別和標記,概率、效率近一步提升。
可以看出,只要是不能真正預測育種行為結果的,都無法擺脫被動“拼概率”的命運。
這造成了一個來自時間的壁壘——那些起步早的西方國家,靠著長期依賴不斷試錯、博概率的積累,在育種方面積累了中國很難短期內同樣用概率追趕的優勢(從雜交組合到性狀篩選,往往需要數年甚至數十年的周期),尤其是我們的育種技術還存在代差,獲得成果的“概率值”還比不上西方時。
怎么辦?
如果能有一種方法,突破“拼概率”,在田間育種進行前就能提前預測到結果,毫無疑問育種就能實現彎道超車。
這也正是第五代育種——智能品種設計階段帶給中國的機遇。
中國的AI普惠如火如荼,正在眾多領域推進效率升級甚至是模式革命,它不僅是“工具的革命”,更是“革命的工具”。在育種領域,AI for Science新的研究范式,讓育種可以通過 AI 模型快速分析基因與表型之間的關聯,預測作物的產量、抗逆性等關鍵性狀,大幅縮短研究周期,幫助我國育種產業實現趕超。
![]()
然而,當崖州灣國家實驗室擁抱AI、積極投身智能品種設計時,卻遭遇了嚴峻的數據挑戰。
眾所周知,當下AI已經從拼模型的時代進入到數據的時代,數據的質量很大程度上決定了模型效果,西方國家發布的AI戰略已經把科學數據定為國家戰略資產。但是,我國農業領域能夠用于育種的數據卻很難支撐AI育種的需要——在數量和分布上,我國農業數據分散在全國各地且共享困難;在質量上,農業數據的標準也很難統一,“數據格式、質量標準混亂”。
這時候,建立一個底層數據體系,統一數據規范、數據標準,為AI應用奠定數據基礎,就成為崖州灣國家實驗室的當務之急。
高質量數據集的匯聚、共享和流動,奏響育種數據交響樂
在數據挑戰面前,崖州灣國家實驗室選擇聯合華為,構建面向下一代生物育種技術的AI數據湖基座。
要解決問題,先要更充分地認識問題。
打造數據基座,首先必須對什么才是“好的數據”也即高質量的數據集有統一的認識。在崖州灣國家實驗室與華為的合作中,雙方對數據構建的目標進行了五級劃分,從符合FAIR原則(即可查找、可訪問、可互操作、可復用),到滿足通用模型,再到強化推理支撐,再到針對科學問題的數據集建立,最后到即插即用的統一數據集,一個數據基座的目標體系或者說質量控制體系就此構建起來。
在這樣的“行動綱領”引導下,基于OceanStor Pacific全閃分布式存儲,華為與崖州灣國家實驗室共同打造起AI數據湖基座,匯集了過去分散在全國各地的農業科研數據、國外公開數據、企業托管數據、學校自采集數據等,通過數據分類共享機制(分為對外公開、受限開放、內部機密等級并設置安全策略)實現了數據的有序共享和流通,做到了全局文件系統的統一調度。
當然,數據基座不僅僅是一個既有數據融通共享與利用的體系,在數據質量源頭方面,雙方還制定了統一的農業數據采集標準,讓分散在各地的育種數據有了“通用語言”,不管是來自實驗室還是田間,各種數據都能無縫納入AI 數據湖。
![]()
在這樣的數據基座支撐下,農業數據“散、亂、差”的痛點得到解決,全國育種數據可視、可管和有序共享,面向育種的高質量語料庫建立起來,原本難以共享的數據資源也能夠成為可復用、可流轉的“國家戰略資產”。
最終,在智能融合、數據全域流通下,農業數據分散式、數據割裂難利用的情況被徹底改變,實現全局數據統一目錄,EB級數據秒級檢索,隨時隨地按需共享等。崖州灣國家實驗室智慧育種成功打造了國家級精準育種技術體系,支撐起一個總部+5個基地+N個分支、超1000科學家的育種體系。
從試驗田到數據基座,將育種革命進行到底
一旦數據基座建立,AI育種的工作也開始加速推進。
例如崖州灣國家實驗室還打造了基于Nexent的農業AI工具社區,智能體系統和數據系統打通,實現數據自動推薦和智能體自主交互。
AI數據湖高效支撐各類育種AI工具的運行,科研工作者不再像過去那樣必須費勁找到“指定數據”才能開展工作。在崖州灣國家實驗室的期望中,未來與華為深入合作,要構建起一個基于多智能體的AI科學家系統或AI育種系統,去服務農業科學家群體以及企業群體。
從這個意義上看,當AI數據基座建設起來,數據問題的解決只是一個開端,更重要的是傳統育種工作模式的改變。
本質上,華為AI數據湖并非孤立的技術產品,它與農業智能體系統、育種工具平臺深度融合,做到了“數據采集-分析-決策-執行”的閉環。
過去,提到育種,很多人腦海第一印象可能是田間地頭的“泥腿子”奔波。但當下及以后的育種工作,更可以是完全現代化的工作范式——科研人員通過 VR 眼鏡、無人機等前端設備獲取田間信息,數據實時傳入 AI 數據湖,經過 AI 分析后生成的育種決策,能直接下發給機器狗、智能農機執行,讓傳統“靠天吃飯、憑眼判斷”的育種模式升級為精準可控的智慧育種。
![]()
由此可見,華為AI數據湖與生物育種的結合,看似是技術層面的創新,實則是AI普惠、科技服務國計民生的一次深入實踐。它用數據打通了科技與農業的“最后一公里”,讓AI不再是實驗室里的“高精尖”,而是扎根田野、服務民生的“好幫手”。
未來,隨著這一數據基座的不斷完善,有理由相信,中國育種行業將加速突破代差,培育出更多適應環境、高產優質的農業品種。
*本文圖片均來源于網絡
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.