前不久,世界數據組織在北京成立,這是全球首個旨在推動數據發展與治理實踐的專業性國際組織。數據作為人工智能發展的關鍵要素,如同燃料之于發動機,其供給能力的高低直接決定人工智能的發展速度與質量。隨著人工智能產業范式從“模型為王”轉向“數據為王”,數據的供給能力,不僅關乎人工智能產業發展,更決定著國家在未來競爭格局中的地位。如何充分釋放數據潛能、驅動數字經濟更快發展,值得關注。
近年來,我國在培育數據要素市場方面取得顯著成效,數據資源規模優勢持續擴大,不斷轉化為產業優勢。但中文語料數據供給不足,正成為我國人工智能應用創新的重要問題。中文語料供給不足,不僅會導致語義偏差風險制約AI發展效能,還可能導致潛在的文化誤讀與意識形態風險。隨著單邊主義、保護主義抬頭,我國人工智能創新發展可能面臨更加嚴峻的數據“瘸腿”困境。“十五五”時期,強化面向人工智能的數據高效供給,有助于充分發揮數據資源規模優勢,搶占未來科技發展制高點。
擴容數據供給“蓄水池”。構建數據高效供給體系的核心在于持續擴大數據規模、豐富數據類型。當前,我國數據供給存在明顯的結構性失衡,互聯網娛樂數據相對過剩,產業應用、科技創新所需的高價值數據嚴重不足。需進一步推動公共數據開放與授權運營,加強物聯網等數據接口開放,激發行業數據共享匯聚,促進社會數據收集,拓展數據供給的廣度與深度。
筑牢數據質量“壓艙石”。數據質量是價值實現的前提,高質量的數據不僅要求準確性、完整性與合規性,更強調場景適配性和知識密度。數據加工能力不足導致大量數據時效性較差、價值被低估、難以挖掘復用,海量數據“出生”即“死亡”。提升數據加工能力,保障數據供給質量與適用性,仍需進行數據資源規劃管理,建立數據標注規范、數據集質量評估標準。
打通數據流通“快車道”。當前,大量數據長期被“鎖”在政府、高校、科研機構和企業各自的數據壁壘里。有報告顯示,2023年數據交易中需求方是供給方的1.75倍,數據產品成交率僅為17.9%。提升數據流通效率,消除“數據孤島”與流通堵點,要著眼于技術創新和制度創新“雙輪驅動”。一方面,隱私計算技術為消解數據安全與流通矛盾提供了全新思路,可信數據空間成為數據資源規模化流通利用的新模式新路徑,區塊鏈技術為數據確權和流通提供可信保障。另一方面,制度創新則為數據流通“松綁提速”。
培育數據供給“新生態”。充分發揮人工智能威力,要對接應用場景中大模型的實際需求,綜合利用政府和社會各方資源,打通數據采集、開發、流通和利用鏈條,構建共享共創共贏的合作生態。推動數據標注提質增效。數據集開發周期長、成本高,可通過創新技術手段,優化資源配置,實現數據供給的集約高效。建立行業數據聯盟,實現數據共建復用。發揮市場導向作用,制定完善數據集定價和收益分配機制,創新數據開發利用方式,優化數據集運營模式,提升數據投入產出比,凝聚社會各方數據供給合力,共同培育數據高效供給生態。(本文來源:經濟日報 作者:劉彬芳)
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.