
(圖片來源:攝圖網)
(記者 葉菁)2025年,我國建成高質量數據集超10萬個,規模超890PB(拍字節)……《“人工智能+制造”專項行動實施意見》中提出“打造100個工業高質量數據集”。高質量數據集的熱度可謂持續高起。
都說巧婦難為無米之炊。和人一樣,AI同樣需要大量的數據作為“糧食”,來進行模型訓練和深度學習。可以說,沒有高質量數據,就“養”不出高質量的人工智能。這些經過加工分類的高質量數據集,在AI時代撬動的能量不可小覷。作為數字基礎設施建設的主力軍,運營商以實踐探索構建起數據要素運營體系,為產業高質量發展提供了堅實支撐。
數據的規模、質量,定義大模型能力上限
過去十年,AI發展曾陷入“算力至上”的迷思,而今高質量數據集的崛起標志著認知的顛覆。浙江大學劉淵教授指出,“沒有高質量的數據就喂不出高質量的人工智能。”當DeepSeek等模型以數據質量取勝。業界終于清醒:數據是AI的“精糧”,而非算力的附屬品,是AI時代的“新基建”。運營商憑借網絡覆蓋與數據沉淀優勢,構建起規模化高質量數據集,成為大模型研發的核心支撐力量。
中國電信以“星海”數據智能中臺為核心,構建起涵蓋多領域的高質量數據資源池,累計形成9萬億Tokens的高質量數據集,為大模型研發提供了堅實的數據基座。基于該數據集打造的“星辰工業大模型”,深入制造業生產一線,通過對實時生產數據的精準分析,實現設備故障提前預警、生產工藝動態優化與供應鏈智能調度。
中國移動聚焦網元智能、運維智能等三大方向,構建高質量數據集,覆蓋44個行業領域,全面支撐九天系列大模型研發。通過“數據飛輪”體系,將辦公、營銷等場景的推理數據經清洗、分類后回流至數據集平臺,形成“采集-訓練-應用-反哺”的閉環,持續提升模型能力。中國聯通則深耕通信行業場景,積累多模態類型數據集,建成網絡運營、客服熱線等自有場景數據集,并憑借政務熱線標注實踐入選行業優秀案例集,為垂直領域大模型研發提供精準數據支撐。
運營商用實踐表明,高質量數據集的規模沉淀與質量管控,是突破AI大模型能力上限的核心密碼。
多維協同發力,激活數據供給動能
目前我國高質量場景數據集產業還處于探索階段,存在三大挑戰:大模型廠商的定制化需求與通用數據供需錯位,醫療、金融等高價值場景數據尤其稀缺;缺乏統一的質量評估體系,導致數據“含金量”參差不齊;企業“自采自用”模式盛行,數據孤島阻礙價值釋放,造成流通壁壘。未來的競爭不僅是算法之爭,更是數據生態之戰——唯有打通數據“供得出、流得動、用得好”的全鏈條,才能讓AI真正賦能千行百業。運營商立足自身技術優勢,從標注技術創新、產業生態構建雙維度發力,激發數據供給積極性,構建起可持續的高質量數據生產體系。
中國電信對“星海”大數據平臺進行升級,推出全新多模態數據智能標注平臺,以技術創新破解行業痛點。平臺集成超50個自動化標準技術與工具,這些技術創新不僅提升了標注效率,更從源頭保障了數據集的標準化與高質量,為復雜場景AI應用奠定基礎。
中國移動以全鏈路體系構建推動標注產業升級,自主研發超200款多模態數據標注治理工具,建成覆蓋場地、團隊、平臺、運營的全鏈路標注體系。中國聯通則聚焦生態共建,服務3個國家級數據標注基地建設,支持公共數據與企業數據的安全標注與流通,推動形成統一標注標準與協同機制。
運營商通過技術賦能與生態共建,推動數據標注產業從“人工主導”向“智能協同”轉型,持續激活高質量數據供給動能。
場景驅動賦能,實現數據供需匹配
高質量數據建設既要強化供給端能力,更要聚焦需求側訴求,破解供需不匹配、需求不清晰、匹配不精準等核心問題。唯有以場景需求為導向,推動數據供給與場景應用深度融合,才能讓高質量數據集真正產生價值。以中國電信為例,其在推進數據要素化的全過程中,始終堅持以場景應用為牽引,著力構建“場景-數據-價值”的閉環,讓數據在精準的流動與碰撞中實現價值倍增。
在能源行業,中國電信聯合國家能源局打造的電力數據專區,整合了12個省份的電網運行數據、200余家發電企業的生產數據,通過脫敏處理與結構化存儲,形成涵蓋負荷預測、故障診斷、節能優化的數據集。
在“三農”領域,中國電信聯合潮州市政府、廣東省農行、清華產研院開展了潮州單叢茶產業數據要素融資試點,解決了茶農融資難題,貸款審批時間從1個月縮短到1-2天,貸款額度提升50%,利息降低50%,為銀行的盡調、獲客、風控等實現降本增效。
在智慧城市領域,中國電信利用大數據、物聯網等技術,打造蘭州市智慧城市運營管理平臺、雄安新區智慧城市運營中心等,實現對城市運行狀態的實時監測和預警,為城市管理者提供了更加精準、高效的決策支持。
在醫療領域,中國電信開發了全民健康信息平臺、縣域醫共體平臺、突發公衛應急指揮平臺等多個解決方案,實現對醫療數據的快速處理和分析,為醫生提供精準的診斷建議和治療方案,提升醫療服務的效率和質量。
在工業領域,自研“翼云采”和“翼云控”系統,實現生產數據實時采集,推進工業控制系統軟硬解耦、云化部署,提升自主可控能力。
在政務領域,中國電信支撐廣州12345熱線發布了政務熱線大數據系列產品,分別是“消費創新商機洞察”和“企業畫像動態輔助分析”。
從日照供需對接活動的豐碩成果,到《“人工智能+制造”專項行動》的落地推進,高質量數據集已成為AI新基建的核心支撐。未來,唯有持續強化高質量數據集建設,深化供需兩端協同與場景深度融合,才能筑牢AI新基建堅實底座,為數字經濟高質量發展注入持久動力。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.