/記得星標我/
比大部分人早一步看見未來
數據是AI的新戰場,而高質量數據集已成為數據流通的“硬通貨”。在這場關乎人工智能未來的競爭中,中國電信天翼AI以350TB高質量行業數據集和10萬億tokens通用語料的積累,正悄然成為重要的市場參與者。
——是為序
人工智能產業正經歷從模型中心化向數據中心化的戰略轉變。據最新數據顯示,2025年中國高質量數據集交易量呈現爆發式增長,在某些數據交易所從去年占交易量10%猛增至近80%,成為數據流通最活躍的領域。
在這場由數據驅動的AI競賽中,中電信人工智能科技(北京)有限公司(以下簡稱天翼AI)已構建覆蓋14個關鍵行業、總量達350TB的高質量數據集,以及超過10萬億tokens的通用大模型語料,成為人工智能賽道的重要參與者,并逐步成長為引領者。
產業背景:從數據荒到高質量數據集的戰略價值
全球AI產業正面臨嚴峻的“數據荒”。Epoch AI研究人員預測,到2028年左右,用于訓練人工智能模型的典型數據集的規模將達到公共在線文本的估計總存量。這意味著,高質量數據資源將成為制約AI發展的關鍵瓶頸。
2024年以來,國家數據局等部委連續出臺《“數據要素×”三年行動計劃》和《高質量數據集建設指南》,推動科研機構、龍頭企業等開展行業共性數據資源庫建設。截至2025年6月,全國建設高質量數據集已超3.5萬個、總量超400PB。
高質量數據集的需求主要集中于模型行業知識底座構建。隨著AI應用從通用場景向垂直行業深入,行業專有知識成為提升模型性能的關鍵。
正如清華大學數字政府與治理研究院院長張小勁所言:“人工智能大模型走到哪里,高質量數據集就走到哪里,反之,高質量數據集走到哪里,人工智能就走到哪里,這是相輔相成的,是雙輪驅動的格局。”
高質量數據集背后:星辰MaaS平臺的神奇魔力
那天翼AI是如何解決數據荒和數據質量差的問題的呢?它又是如何快速構建覆蓋十多個關鍵行業、總量達350TB的高質量數據集以及超過10萬億tokens的通用大模型語料的呢?
一切都要從星辰MaaS平臺說起——
MaaS是AI架構中的“中樞層”,基于算力基礎設施的支持,面向場景提供多種應用,具備從模型生產到模型調取并打造成 AI 應用的全流程能力。MaaS層以模型為核心,下接算力和數據,上承應用,承擔“從模型服務到應用支撐”的關鍵定位,是AI應用生態繁榮的關鍵要素。
對于天翼AI來說,星辰MaaS平臺至關重要,它像是一個數據精煉廠,通過“基礎大模型-數據工具鏈-模型工具鏈-智能體”四大核心協同運作,構建“數據—模型—服務”的完整閉環。其中——
基礎大模型(星辰大模型)作為“動力引擎”,提供基礎認知與推理能力;數據工具鏈(星海數據中臺)作為“原料庫”,持續輸送高質量的數據資源;模型工具鏈(星海AI中臺)作為“加工廠”,將數據高效轉化為可用模型;智能體(星辰智能體平臺)作為“執行中樞”,靈活調度資源并自主完成復雜任務,實現決策智能化與行為自動化,服務千行百業。
![]()
這四大核心并非孤立存在,而是構成了一個緊密協作、自我優化的“數據-模型-服務”閉環,共同支撐星辰MaaS平臺發揮價值。整個流程始于數據工具鏈,星海數據中臺負責準備和提純高質量的“數據原料”。這些原料被輸送到模型工具鏈,也就是星海AI中臺這座“加工廠”,利用基礎大模型提供的強大認知、推理能力,通過微調、訓練等工藝,生產出面向具體行業場景的精準模型。隨后,這些訓練好的模型被封裝和部署到星辰智能體平臺上,智能體作為終端執行者,將模型能力與各種工具相結合,轉化為解決用戶實際問題的智能化服務。
最重要的是,這個閉環形成了一個正向飛輪。智能體在服務千行百業的過程中,會不斷產生新的交互數據和反饋,這些數據通過回流機制,再次進入數據工具鏈,經過加工后,又可以用于模型工具鏈對模型的迭代優化,從而讓基模和整個平臺都變得越來越聰明、越來越精準。正是通過這種環環相扣、持續演進的方式,星辰MaaS平臺最終實現了將原始數據轉化為智能服務,賦能各行各業數字化升級的核心價值。
行業賦能實踐:天翼AI推進行業應用百花齊放
天翼AI以高質量數據集為核心引擎,深度釋放數據要素潛能,驅動行業生產邁向智能化與高效化。通過構建覆蓋工業制造、采購供應鏈、民航等多個關鍵領域的行業通識與專識數據集,天翼AI將散落的行業數據轉化為可直接驅動大模型與AI應用的高價值資產。
在實踐中,這些數據集有效解決了行業痛點:在工業質檢中實現了超高精度與少樣本快速上線,在供應鏈管理中賦能智能決策以降低成本,在垂直領域中通過注入專業知識提升了模型的精準性與可靠性。最終,天翼AI將高質量數據集轉化為提升生產效率、優化業務流程、激發創新的核心動力,為產業數字化升級提供了堅實的數據基礎。
在智能制造領域,星海數據中臺首先匯聚了產業鏈上下游的設計、生產、運維等原始數據,隨后對這些數據進行清洗、標注和增強,構建出面向不同場景的訓練數據集;星海AI中臺基于這些數據集訓練出預測性維護、智能排產等模型,通過星辰智能體平臺的應用部署,投入到企業生產系統中。這種端到端的解決方案,使企業設備緊急維修率降低80%,排產效率提升數倍。
一個典型的案例就是紡織行業AI質檢——晉江市聯盟舒坦科技有限公司作為大型紡織企業,面臨驗布工招工難、培訓周期長、漏檢率高等行業共性難題。星辰MaaS平臺通過匯聚紡織行業歷史缺陷數據,構建出包含15萬張圖像、覆蓋20+類疵點類型的專業數據集,最終部署出智能驗布模型。
![]()
具體實施中,天翼AI在驗布機前端加裝4個工業相機和光源模塊,實時對布匹進行線掃拍照;部署自研AI視覺缺陷檢測系統,識別瑕疵類型、位置和數量;與客戶原有質檢系統對接,實現自動定級。項目成效顯著:質檢準確率從人工的55%提升至85%,驗布速率從30米/分鐘提升到60米/分鐘,每臺機器年均節約人工成本20萬元。更重要的是,AI驗布機實現了0.02mm的檢測精度,遠超人眼1mm的極限,且具備無情緒、24小時持續工作的優勢。
![]()
(圖為數據標注工具在標識缺陷樣本)
這一案例的深層價值在于,天翼AI不僅提供了技術解決方案,更通過高質量行業數據集的持續優化,將紡織行業的專業知識沉淀為可復用的數字資產。針對織造廠的緯密度檢測、漂染廠的色差檢測、成衣廠的缺陷自動打標等細分需求,平臺都能夠快速適配,展現了柔性定制能力。
在智慧城市領域,星辰MaaS平臺接入了城市基礎設施、環境監測、公共服務等多源數據,針對交通治理、安全監管等場景構建專用數據集,并訓練出事故預警、違規識別等模型,并通過API服務賦能政府部門。杭州“中國視谷”項目就是典型例證,天翼AI構建了統一的“視覺理解中樞”,通過構建涵蓋26萬路城市視圖的龐大數據庫與具備2000多種標簽的視覺大模型,天翼AI將城市中散亂、非結構化的視頻流,轉化為了機器可理解、可分析的標準化數據要素。這一能力直接賦能于交通管理、公共安全、應急響應乃至低空經濟監管等十大關鍵城市治理領域,實現了從“看得見”到“看得懂”的質變,顯著提升了城市治理的精細化、智能化與高效化水平。
![]()
特別值得關注的是高質量行業數據集在垂直行業領域的深度賦能。在醫療行業,天翼AI不僅提供通用技術平臺,更通過與三甲醫院合作構建專科疾病數據集,訓練出具備臨床實用價值的輔助診療模型。這種“平臺+數據+場景”的深度結合,使得天翼AI能夠突破單純的技術服務商角色,真正成為行業數字化轉型的伙伴。
- 04 -
生態構建策略:平臺能力的對外輸出
天翼AI參與多個國家級數據標注基地建設的過程,實際上是其平臺能力的對外復制。每個標注基地都部署了星辰MaaS平臺的全鏈路服務能力,形成完整的本地化數據服務體系。
比如,在成都與沈陽兩大國家級數據標注基地的建設中,由中國電信集團數據發展中心牽頭,天翼AI作為核心技術實體與戰略驅動者,發揮了不可替代的價值。。在成都,天翼AI主導了從新津的產教融合實訓、簡陽的產業集聚到高新的技術研發的全鏈條布局。在這個過程中,天翼AI并非簡單的參與者,而是以技術賦能與生態構建為核心,為成都打造了一個集人才培養、企業孵化與關鍵技術攻關于一體的綜合性數據產業基礎設施,將自身的AI能力深度融入地方數字經濟發展脈絡。
在沈陽基地,天翼AI輸出的價值不僅在于提供基礎的標注能力,更在于通過打造“具有沈陽特色”的專業化標注體系,直接賦能于沈陽政務大模型的開發與數字政府建設。這標志著天翼AI正將其數據標注與大模型技術,從單純的商業服務提升為服務于城市級數字化治理的核心引擎,實現了從技術輸出到戰略賦能的跨越。
更重要的是,通過數據標注基地建設,天翼AI正在將自身的數據處理標準和方法論推向更廣泛的生態圈。合作伙伴不僅可以使用平臺工具,更可以學習到完整的數據治理方法論,這種知識傳遞的價值可能比技術輸出更為深遠。
- 05 -未來展望:平臺化戰略的演進路徑
從天翼AI的實踐中,我們可以窺見數據要素市場未來的幾個重要趨勢:
技術架構層面,星辰MaaS平臺作為“數據即服務”的一體化平臺,用戶無需關心底層技術細節,即可獲得從數據到模型的全棧能力。天翼AI目前的分層架構為這種演進提供了良好基礎。
商業模式方面,平臺化運作將催生新的價值分配機制。高質量行業數據集作為大模型、智能體行業應用的上游供給,可能發展出數據分紅、模型分成等創新模式。天翼AI在14個行業的數據集積累,使其在未來的價值分配中占據有利位置。
產業影響維度,這種平臺化能力將降低AI應用門檻。中小企業無需自建完整技術棧,即可通過星辰MaaS平臺獲得行業大模型能力。天翼AI的實踐正在推動AI技術從“技術精英”走向“產業大眾”,這種普惠化趨勢具有深遠的社會意義。
- 06 -AI時代高質量數據集的平臺化解決方案
中國電信天翼AI的價值不僅在于350TB數據集的規模,更在于其構建了一套完整的“數據-模型-服務”平臺化體系。這種平臺化架構的意義超越了一家企業的商業成功,它實際上是在構建數字時代的新型基礎設施。正如工業時代的電網、交通網一樣,天翼AI正在參與建設數據時代的基礎服務網絡。其成功實踐表明,中國的數據要素市場化不僅需要政策引導,更需要扎實的技術架構和工程化能力作為支撐。
正如中國電信天翼AI公司副總經理阮宜龍所說的,“中國電信堅定履行建設網絡強國和數字中國、維護網信安全的使命擔當,持續推進新型數字信息基礎設施建設,推動AI向善和應用普惠,這要求我們打造安全、可信的高質量數據集,推進數據流通交互,賦能千行百業智能化轉型。”
隨著國家“數據要素×”行動的深入推進,天翼AI的平臺化探索或許代表了未來發展方向。在數據成為關鍵生產要素的時代,這種系統化、平臺化的解決方案,不僅具有商業價值,更關乎國家數字競爭力的構建。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.