
近日,中國石化建設的“石油化工行業通用高質量數據集”成功通過工業和信息化部電子工業標準化研究院測評,成為國內首個通過國家標準測評的行業高質量數據集。
![]()
此次測評依據國家標準《高質量數據集 質量評測規范》(TC609-5-2025-04),通過“數據+模型”相結合的測評方法,涵蓋數據集說明文檔、數據質量、模型應用3大維度17項指標,對數據集進行多維度全鏈條質量評估。“石油化工行業通用高質量數據集”包含行業特定術語、公式、分子式等,在格式規范性、內容一致性、內容干凈性指標上得分均超90分,數據質量達到行業領先水平,充分驗證其在支撐人工智能深度應用方面可靠性。
該數據集有力支持了中國石化長城大模型訓練,以及分子理解、分子生成、審計等專業大模型訓練,自主研發的高質量數據集全鏈路工具套件為系統內86家單位近900個用戶開展數據加工處理工作提供支撐。同時,其標準化構建方法也為石油化工行業提供了可參考的建設范本。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.