![]()
編輯|冷貓、Panda
「2025 年,注定被銘記為 AI 工業(yè)時(shí)代的黎明。」
回望這一年,吳恩達(dá)教授曾這樣感慨。
這一年,大量企業(yè)你追我趕,投身于 AI 應(yīng)用及 Agent 建設(shè)。然而,許多企業(yè)或許尚未意識到:如果 AI 競速只停在應(yīng)用層,可能連這場競爭的「起跑線」都尚未站上。
AI 時(shí)代,數(shù)智化表面是模型的狂歡,底層是基建的深耕。
唯有能支撐 AI 應(yīng)用規(guī)模化落地的數(shù)據(jù)基座,才能構(gòu)筑企業(yè)真正的競爭力。
近來, AI 行業(yè)普遍認(rèn)為我們正在進(jìn)入所謂的「AI 下半場」,而此時(shí)行業(yè)面臨的一大關(guān)鍵問題是「究竟應(yīng)該讓 AI 去做什么?又該如何衡量真正的進(jìn)展?」
而這個(gè)問題的答案也基本已有共識:要想在這下半場脫穎而出,我們需要及時(shí)轉(zhuǎn)變思維方式,應(yīng)當(dāng)用 AI 的思維,把該做的事情重新做一遍。
與上一階段不同,這一階段的企業(yè)數(shù)據(jù),不再等待人來解讀,而是被模型直接「消費(fèi)」。
以音頻數(shù)據(jù)應(yīng)用為例,AI 時(shí)代,音頻數(shù)據(jù)不應(yīng)只是一份錄音數(shù)據(jù)存檔,還應(yīng)成為可查詢和交互的信息源,比如應(yīng)該支持查找「錄音中的人是客戶 A ,上周在另一業(yè)務(wù)有投訴記錄」這類關(guān)聯(lián)信息。這種跨模態(tài)的關(guān)聯(lián)性,是實(shí)現(xiàn)模型復(fù)雜推理的基礎(chǔ)。
推及其他行業(yè):
- 在智能駕駛中,道路視頻、點(diǎn)云與傳感器數(shù)據(jù)需要被實(shí)時(shí)送入智能體,支撐感知、規(guī)劃與異常檢索;
- 在游戲行業(yè),需要將對話、行為與世界觀等多模態(tài)數(shù)據(jù)沉淀為長期記憶,用于沉浸式 NPC 與自動(dòng)化資產(chǎn)生成;
- 在傳媒行業(yè),需要使用視頻、音頻與用戶互動(dòng)數(shù)據(jù)來驅(qū)動(dòng)內(nèi)容生成與精準(zhǔn)分發(fā);
- 在電商領(lǐng)域,商品圖文與交易數(shù)據(jù)直接喂給模型,實(shí)現(xiàn)智能選品與個(gè)性化推薦。
因此,對多種模態(tài)數(shù)據(jù)的處理與使用的能力,正在影響各行業(yè)商業(yè)競爭的形態(tài)與上限
接下來的風(fēng)口要踏在哪里?我們關(guān)注到了火山引擎近期發(fā)布的《AI 時(shí)代企業(yè)數(shù)據(jù)基建升級路線圖》。
它在開篇寫到:AI 時(shí)代,數(shù)據(jù)基建已經(jīng)成為決定企業(yè)競爭高度的戰(zhàn)略資產(chǎn)
筆者深以為然。
企業(yè)要發(fā)展可以處理多模態(tài)數(shù)據(jù)的底層基建。因?yàn)?AI 時(shí)代最深的紅利,并不在于「擁有」SOTA 的模型,而在于能否持續(xù)「駕馭」并「滋養(yǎng)」它。更進(jìn)一步,可以說構(gòu)建多模態(tài)數(shù)據(jù)湖已經(jīng)成為企業(yè)參與這場 Agent 競賽的必選項(xiàng)。
![]()
傳統(tǒng)數(shù)據(jù)湖與多模態(tài)數(shù)據(jù)湖對比,圖像由 AI 生成。
Agent 時(shí)代,這是你不能錯(cuò)過的風(fēng)口
智能的涌現(xiàn)扎根于堅(jiān)實(shí)、鮮活且可進(jìn)化的數(shù)據(jù)土壤。
尤其在 Agent 時(shí)代的到來之際,企業(yè)競速也正由數(shù)據(jù)基建分野:領(lǐng)先者正將沉睡的非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)化為可用的競爭力,而落后者由于非結(jié)構(gòu)化數(shù)據(jù)資產(chǎn)仍處于休眠狀態(tài),而只得徘徊在 Agent 應(yīng)用的起點(diǎn)。
當(dāng)行業(yè)的聚光燈都投向大模型或智能體本身時(shí),真正的競爭已轉(zhuǎn)入水下,即底層的、支撐多模態(tài)數(shù)據(jù)的數(shù)據(jù)工程
喚醒數(shù)據(jù),化「沉睡庫存」為核心資產(chǎn)
IDC 預(yù)測,2025 年企業(yè)超過 80% 的數(shù)據(jù)將是非結(jié)構(gòu)化的。
這些長期堆積的視頻、音頻、圖像和傳感器數(shù)據(jù),曾被視為「數(shù)字負(fù)債」。然而,多模態(tài)與大模型技術(shù)的成熟,正讓它們煥發(fā)前所未有的價(jià)值。
以制造業(yè)為例,以往無人問津的歷史故障錄像,經(jīng)大模型解析與標(biāo)注,即可成為「智能知識庫」。新員工用自然語言提問,便能精準(zhǔn)調(diào)取同類故障的處理記錄 —— 沉寂數(shù)據(jù)瞬間轉(zhuǎn)化為實(shí)戰(zhàn)生產(chǎn)力。
本質(zhì)上,AI 時(shí)代的數(shù)據(jù)基建,正通過向量化等處理能力,讓非結(jié)構(gòu)化數(shù)據(jù)真正「活」起來,使其從被動(dòng)存儲的負(fù)擔(dān),變?yōu)榭呻S時(shí)調(diào)用、持續(xù)學(xué)習(xí)的戰(zhàn)略資源。
喚醒這 80% 的數(shù)據(jù),是在 Agent 時(shí)代構(gòu)建競爭力的工程前提。
讓數(shù)據(jù)資產(chǎn)驅(qū)動(dòng)業(yè)務(wù),啟動(dòng)飛輪
強(qiáng)大的數(shù)據(jù)基建能構(gòu)建數(shù)據(jù)、模型與業(yè)務(wù)深度耦合的閉環(huán),真正「讓模型自主成長」,為 Agent 賦予更多智能。
一個(gè)優(yōu)秀的數(shù)據(jù)架構(gòu),需在企業(yè)數(shù)據(jù)平臺、MaaS(模型即服務(wù))平臺、Agent 開發(fā)工具與應(yīng)用之間建立高效的數(shù)據(jù)流通管道,否則數(shù)據(jù)會(huì)停留于「孤島」,智能難以落地。
典型的例子是傳統(tǒng)智能客服:盡管不斷采集用戶的語音、文本、截圖與操作軌跡,卻因模型與業(yè)務(wù)間數(shù)據(jù)不通,導(dǎo)致客服模型始終重復(fù)犯錯(cuò)、體驗(yàn)停滯,陷入「千人一面」的困境。
我們發(fā)現(xiàn),火山引擎通過多模態(tài)數(shù)據(jù)湖與 AgentKit、火山方舟等產(chǎn)品的聯(lián)動(dòng),已驗(yàn)證了數(shù)據(jù)、模型、業(yè)務(wù)打通的可行性。在零售行業(yè)中,完善的多模態(tài)數(shù)據(jù)湖不僅能分析銷售報(bào)表,還可實(shí)時(shí)捕捉顧客行為、評論與畫像。這些鮮活數(shù)據(jù)持續(xù)回流,使企業(yè) AI 能力能隨業(yè)務(wù)不斷演進(jìn)。
這種「業(yè)務(wù)滋養(yǎng)模型、模型反哺業(yè)務(wù)」的閉環(huán),使企業(yè) AI 能力可伴隨業(yè)務(wù)持續(xù)進(jìn)化,這正因?yàn)榇耍嗄B(tài)數(shù)據(jù)湖成為了 Agent 時(shí)代構(gòu)建智能護(hù)城河的必選項(xiàng)。
讓業(yè)務(wù)擁有錨點(diǎn),獲得未來的確定性
新一代數(shù)據(jù)基建通過統(tǒng)一的數(shù)據(jù)與計(jì)算底座,以同一平臺支撐多模態(tài)數(shù)據(jù),并持續(xù)適配技術(shù)演進(jìn)。
以某安防企業(yè)為例,傳統(tǒng)數(shù)據(jù)管理體系下,如果從視頻監(jiān)控?cái)U(kuò)展至智能識別,往往需為不同算法供應(yīng)商重建獨(dú)立的計(jì)算平臺與數(shù)據(jù)庫,導(dǎo)致內(nèi)部數(shù)據(jù)不互通、煙囪林立。巨大的管理和技術(shù)成本,會(huì)拖累企業(yè)創(chuàng)新動(dòng)力。
而統(tǒng)一的多模態(tài)數(shù)據(jù)湖體系,能以統(tǒng)一元數(shù)據(jù)管理結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),提供面向 AI 的靈活數(shù)據(jù)集能力,支持?jǐn)?shù)據(jù)快速探查與調(diào)用。通過標(biāo)準(zhǔn)化存儲與可擴(kuò)展接口,系統(tǒng)能在上層屏蔽底層模型的頻繁迭代,使數(shù)據(jù)始終以對模型友好的形態(tài)穩(wěn)定輸入。
這意味著,當(dāng)該企業(yè)未來業(yè)務(wù)從「視頻監(jiān)控」拓展至「自動(dòng)巡檢」、「人流預(yù)測」等領(lǐng)域時(shí),可低成本接入新算法模塊,無需顛覆底層架構(gòu)。
「基建不動(dòng),技術(shù)常新」,在追求敏捷響應(yīng)速度的 Agent 時(shí)代,這種具備工程確定性的多模態(tài)基座正在成為架構(gòu)的必選項(xiàng)。
升級三部曲:積累,重構(gòu),融合
火山的這份「數(shù)據(jù)基建升級路線圖」之所以值得展開聊聊,是因?yàn)樗谛袠I(yè)內(nèi)率先為企業(yè)提供了一套從「擁有模型」到「駕馭智能」的數(shù)據(jù)基建進(jìn)化藍(lán)圖。在 Agent 時(shí)代,它為企業(yè)提供一套實(shí)現(xiàn)多模態(tài)數(shù)據(jù)湖的清晰演進(jìn)路徑。
這個(gè)藍(lán)圖可作為重要的參考框架,企業(yè)可結(jié)合業(yè)務(wù)特點(diǎn)與發(fā)展階段,衍生出適合自身的基建升級路徑,進(jìn)而在 Agent 時(shí)代構(gòu)筑自己的核心競爭力。
![]()
具體而言,火山引擎將企業(yè)數(shù)據(jù)基建的演進(jìn)分為了三步漸進(jìn)式過程。
異構(gòu)算力與分布式引擎階段
這一階段的核心是突破算力瓶頸。為應(yīng)對大規(guī)模數(shù)據(jù)處理與大模型訓(xùn)練的需求,傳統(tǒng)僅依賴 CPU 的架構(gòu)已難以滿足 AI 時(shí)代對存儲與計(jì)算的高實(shí)時(shí)性要求。企業(yè)需轉(zhuǎn)向?yàn)?AI 任務(wù)量身打造的 CPU+GPU 異構(gòu)架構(gòu),實(shí)現(xiàn)靈活調(diào)度。
這一階段的核心目標(biāo)是:數(shù)據(jù)「進(jìn)得來,跑得快」,并原生支持 AI 服務(wù)。在異構(gòu)算力的支撐下,企業(yè)能在技術(shù)快速迭代中平衡性能與成本,真正讓算力服務(wù)于業(yè)務(wù)與模型增長。整體來說,這一階段可為多模態(tài)數(shù)據(jù)湖這一必選項(xiàng)提供堅(jiān)實(shí)的物理支撐。
模型即引擎與多模態(tài)重構(gòu)階段
在算力基礎(chǔ)就緒后,需進(jìn)一步推動(dòng)數(shù)據(jù)基建與 AI 的深度融合。本階段的關(guān)鍵在于將預(yù)訓(xùn)練大模型嵌入數(shù)據(jù)流水線,實(shí)現(xiàn)文本、圖像、音頻等多模態(tài)數(shù)據(jù)向統(tǒng)一語義向量與高價(jià)值知識標(biāo)簽的自動(dòng)轉(zhuǎn)換。
Agent 時(shí)代,數(shù)據(jù)價(jià)值不在于「存量」,而在于能被 AI 調(diào)用的「流量」。通過向量化處理,企業(yè)的多模態(tài)資產(chǎn)第一次真正實(shí)現(xiàn)通用「可讀、可感、可交互」。該過程直接發(fā)生于數(shù)據(jù)基建層,從源頭確保企業(yè)數(shù)據(jù)對大模型友好,使其可隨時(shí)被檢索、推理與學(xué)習(xí),賦能全感官業(yè)務(wù)洞察。
因此,這一階段可使多模態(tài)數(shù)據(jù)湖成為 Agent 識別與推理的邏輯重心,進(jìn)一步確立了其作為基建必選項(xiàng)的地位。
全域數(shù)據(jù)治理與平臺融合階段
目標(biāo)是在管理層面對數(shù)據(jù)資產(chǎn)進(jìn)行統(tǒng)一管控,推動(dòng)全域數(shù)據(jù)的治理、價(jià)值激活與安全合規(guī)。
這意味著 AI 能力可深度融入每一條業(yè)務(wù)流程,激活分散在不同系統(tǒng)與形態(tài)中的數(shù)據(jù)資產(chǎn),并將其持續(xù)轉(zhuǎn)化為增長動(dòng)能。統(tǒng)一的數(shù)據(jù)治理體系不僅能顯著降低安全與合規(guī)風(fēng)險(xiǎn),還可大幅提升數(shù)據(jù)復(fù)用效率,助力企業(yè)將技術(shù)優(yōu)勢系統(tǒng)化、可持續(xù)地轉(zhuǎn)化為長期競爭力。
這一階段標(biāo)志著多模態(tài)數(shù)據(jù)湖從單一的技術(shù)底座演變?yōu)槿虻闹悄苤袠校瓿闪似渥鳛?Agent 時(shí)代必選項(xiàng)的最后拼圖。
Agent 時(shí)代數(shù)據(jù)基建的選型指南
國內(nèi)云廠商都在積極擁抱 Agent 時(shí)代的技術(shù)升級,從各大廠商的進(jìn)度來看,對多模態(tài)數(shù)據(jù)的「存、算、管」重視度在持續(xù)提升。其中,我們觀察到火山引擎「多模態(tài)數(shù)據(jù)湖」在行業(yè)內(nèi)的進(jìn)展最快,能夠提供數(shù)據(jù)統(tǒng)一入湖與治理能力,在算子體系、性能優(yōu)化、異構(gòu)算力調(diào)度以及與大模型生態(tài)的無縫協(xié)同方面形成了更完整的一體化方案。
同時(shí)通過觀察行業(yè)內(nèi)其他廠商面向多模態(tài)數(shù)據(jù)的方案方向,我們也在思考:AI 和 Agent 時(shí)代的企業(yè)需要的數(shù)據(jù)基建,到底應(yīng)該是什么樣的?
綜合起來,我們認(rèn)為企業(yè)應(yīng)將以下特質(zhì)列為 AI 數(shù)據(jù)基建的必選項(xiàng)。
從「存儲中心」到「價(jià)值中心」
在 AI 浪潮下,企業(yè)首先撞上的,是數(shù)據(jù)體系的根本性變革。
一方面,數(shù)據(jù)規(guī)模動(dòng)輒 PB 級,非結(jié)構(gòu)化格式復(fù)雜,處理流程高度碎片化,還要同時(shí)承載 CPU + GPU 混合負(fù)載與復(fù)雜作業(yè)調(diào)度;另一方面,大量數(shù)據(jù)分散存儲、難以統(tǒng)一檢索,無法被模型高效消費(fèi),數(shù)據(jù)準(zhǔn)備周期越來越長,成本卻持續(xù)上升。
真正有價(jià)值的數(shù)據(jù),是能被快速獲取、被模型理解、能轉(zhuǎn)化為 Token 并直接參與推理與訓(xùn)練的數(shù)據(jù)。而那些無法被向量化、無法進(jìn)入模型工作流的數(shù)據(jù),正在從資產(chǎn)變成沉重的存儲負(fù)擔(dān)。
AI 時(shí)代的數(shù)據(jù)底座,是從「存儲中心」轉(zhuǎn)向「價(jià)值中心」的底座。
業(yè)務(wù)優(yōu)先,回歸實(shí)用主義
在技術(shù)變革快速的當(dāng)下,除去技術(shù)復(fù)雜性之外,企業(yè)更大的挑戰(zhàn)是:數(shù)據(jù)基建與業(yè)務(wù)脫節(jié)。
當(dāng)前很多企業(yè)同時(shí)面臨多模態(tài)數(shù)據(jù)分散、訓(xùn)練與生產(chǎn)割裂、血緣與版本缺失、質(zhì)量評估與數(shù)據(jù)反饋閉環(huán)不足的問題。結(jié)果是數(shù)據(jù)冗余高、問題排查難、準(zhǔn)備周期長,而業(yè)務(wù)決策卻越來越依賴實(shí)時(shí)與精準(zhǔn)。
在這種背景下,盲目堆算力、追求極限性能,反而成了負(fù)擔(dān)。AI 時(shí)代最昂貴的基建,是那些無法轉(zhuǎn)化為業(yè)務(wù)價(jià)值的閑置能力。
衡量一套數(shù)據(jù)基建是否先進(jìn),在于它是否能以最低成本、最快速度完成從數(shù)據(jù)輸入到業(yè)務(wù)決策的閉環(huán),并持續(xù)驅(qū)動(dòng)數(shù)據(jù)飛輪運(yùn)轉(zhuǎn)。
開放解耦,對沖未來不確定性
隨著模型與技術(shù)路線持續(xù)快速更迭,企業(yè)面臨的另一項(xiàng)長期風(fēng)險(xiǎn)正在顯現(xiàn):如果數(shù)據(jù)基建隨模型變化不斷重構(gòu),系統(tǒng)將永遠(yuǎn)處于遷移與動(dòng)蕩之中。
在多模態(tài)數(shù)據(jù)規(guī)模持續(xù)膨脹、合規(guī)與安全要求不斷提高的背景下,這種反復(fù)重構(gòu)的代價(jià)幾乎不可承受。
因此,解耦與開放的能力決定了成為企業(yè)的「生存能力」。通過模塊化、可替換的數(shù)據(jù)與 AI 基礎(chǔ)設(shè)施,企業(yè)才能在模型更替、技術(shù)躍遷時(shí)實(shí)現(xiàn)平滑升級,既保持系統(tǒng)穩(wěn)定,又持續(xù)吸收新能力,將技術(shù)不確定性轉(zhuǎn)化為長期競爭力。
在 AI 時(shí)代,模型會(huì)不斷過時(shí),真正具有長期價(jià)值的,只有數(shù)據(jù)資產(chǎn)與承載它的基礎(chǔ)設(shè)施彈性。
![]()
這使得多模態(tài)數(shù)據(jù)管理必須從「存得全、存得久」升級為「取得快、讀得懂」的針對業(yè)務(wù)模式的系統(tǒng)性工程。
我們觀察到火山引擎多模態(tài)數(shù)據(jù)湖有一個(gè)非常有意思的理念。
其提出了「樂高式」可組合底座的觀點(diǎn),與其他云廠商的解決方案大相徑庭。這種方式支撐企業(yè)以樂高積木般靈活、高效的方式,自主構(gòu)建上層應(yīng)用與智能體。
在這種框架下,企業(yè)可以根據(jù)現(xiàn)有的技術(shù)情況,選擇漸進(jìn)式的解決方案,同時(shí)可以模塊化設(shè)計(jì)數(shù)據(jù)與智能架構(gòu),結(jié)合自身業(yè)務(wù)來進(jìn)行組合式的升級,方案完全「量身定做」。
![]()
從行業(yè)視角看,這一設(shè)計(jì)理念呼應(yīng)了企業(yè)長期的 AI 戰(zhàn)略 —— 讓數(shù)據(jù)基礎(chǔ)設(shè)施具備持續(xù)演進(jìn)的能力,使企業(yè)在快速迭代的技術(shù)環(huán)境中,始終擁有自主調(diào)整與進(jìn)化的空間。
目前火山的多模態(tài)數(shù)據(jù)湖,已經(jīng)在智駕、游戲、傳媒等多個(gè)行業(yè)落地。
- 在某智駕企業(yè)的模型訓(xùn)練中,該方案可在 150–200 毫秒內(nèi)完成 12 億級別數(shù)據(jù)的「以圖搜圖」,性能提升20 倍以上;
- 某游戲企業(yè)在 AI NPC 模型訓(xùn)練過程中,音視頻數(shù)據(jù)加工效率提升50%
- 應(yīng)用于某頭部傳媒企業(yè)的媒資平臺后,其內(nèi)容生產(chǎn)與運(yùn)營效率提升90%
這些實(shí)踐表明了采用多模態(tài)數(shù)據(jù)湖的必要性,同時(shí)也揭示出:AI 和 Agent 時(shí)代,用好多模態(tài)數(shù)據(jù),可以激發(fā)出推動(dòng)企業(yè)智能化躍遷的潛能。千行百業(yè),都值得以此為起點(diǎn),探索數(shù)據(jù)基建的更多可能,擁抱智能時(shí)代的風(fēng)口。
結(jié)語
當(dāng)下,企業(yè)正站在一場深刻技術(shù)變革的洪流之中。
AI 落地的前提,是多模態(tài)數(shù)據(jù)處理走向標(biāo)準(zhǔn)化與智能化。對堅(jiān)定投身于 AI 浪潮的企業(yè)來說,在見證大模型所帶來的能力飛躍的同時(shí),更應(yīng)關(guān)注到多模態(tài)數(shù)據(jù)管理作為基礎(chǔ)設(shè)施的必要性。
構(gòu)建能夠支撐未來十年 AI 發(fā)展的數(shù)據(jù)基座,是這場變革中最應(yīng)錨定的重心。
對企業(yè)而言,多模態(tài)數(shù)據(jù)湖的意義遠(yuǎn)不止步于一套數(shù)據(jù)架構(gòu)。它是承載 AI 應(yīng)用持續(xù)演進(jìn)的土壤,是企業(yè)在技術(shù)紅利窗口期建立確定性的基礎(chǔ)。
是的,正如我們已經(jīng)在文中多次強(qiáng)調(diào)的那樣:多模態(tài)數(shù)據(jù)湖已經(jīng)不再只是可有可無的優(yōu)化項(xiàng),而是企業(yè)進(jìn)入智能賽道的必選項(xiàng)。
它賦予企業(yè)的,是在 Agent 時(shí)代中「以靜制動(dòng)」的底氣,也是在變革中持續(xù)進(jìn)化的能力。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.