網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

當(dāng)AI吞噬軟件，數(shù)據(jù)正在成為企業(yè)唯一的護(hù)城河

2026-02-04 13:34:25　來源: InfoQ

北京舉報(bào)

分享至

作者 | 關(guān)濤、蘇郡城

審校 | 李文朋

編者按：近日編者獲悉，國內(nèi)領(lǐng)先的數(shù)據(jù)平臺(tái)公司“云器科技”完成 B 輪融資，其聚焦在亞洲市場(chǎng)，產(chǎn)品戰(zhàn)略對(duì)標(biāo) Databricks。隨 AI 持續(xù)火熱，全球數(shù)據(jù)基礎(chǔ)設(shè)施市場(chǎng)也正經(jīng)歷一場(chǎng)范式轉(zhuǎn)移。本文將對(duì)比國內(nèi)外數(shù)據(jù)領(lǐng)域技術(shù)發(fā)展，深度拆解 AI 時(shí)代數(shù)據(jù)平臺(tái)必須要完成的進(jìn)化之路。

當(dāng)大模型成為通用商品，資金正瘋狂涌向唯一的非標(biāo)資產(chǎn)——數(shù)據(jù)

2026 年初，全球科技界正經(jīng)歷一場(chǎng)前所未有的范式轉(zhuǎn)移。AI 三要素（算法、算力、數(shù)據(jù)）中，算法與算力正在快速商品化。算法層面，大模型加速標(biāo)準(zhǔn)化，逐步成為通用的“超級(jí)大腦”；算力層面，AI 數(shù)據(jù)中心的規(guī)模化建設(shè)使算力供給日益充足。二者獲取門檻大幅降低，但也日趨同質(zhì)。

全球具備基礎(chǔ)模型研發(fā)能力的企業(yè)不超過 10 家，AI 芯片廠商更是屈指可數(shù)。對(duì)絕大多數(shù)企業(yè)而言，其私有高質(zhì)量數(shù)據(jù)正在成為企業(yè)競(jìng)爭(zhēng)力唯一的護(hù)城河。

資本市場(chǎng)已率先捕捉到這一趨勢(shì)，AI 數(shù)據(jù)基礎(chǔ)設(shè)施成為投資熱點(diǎn)。一個(gè)標(biāo)志性事件是，在一級(jí)市場(chǎng)中，Databricks 估值約增長(zhǎng) 2.7 倍；ClickHouse 估值約增長(zhǎng) 3 倍。

資本市場(chǎng)對(duì) Databricks 和類似技術(shù)棧的追捧，本質(zhì)上是對(duì) “Data + AI” 這一輪新增長(zhǎng)飛輪的押注，數(shù)據(jù)作為核心生產(chǎn)要素的地位已無可撼動(dòng)。但現(xiàn)實(shí)是，大多數(shù)企業(yè)的數(shù)據(jù)體系沒準(zhǔn)備好迎接 AI，沒有做到基礎(chǔ)設(shè)施的 AI 就緒（AI-Ready）。

過去二十年，企業(yè)建設(shè)了數(shù)據(jù)中臺(tái)、數(shù)倉和治理體系，但在 AI 真正落地時(shí)發(fā)現(xiàn)，許多數(shù)據(jù)資產(chǎn) “用不上”。根本原因在于，傳統(tǒng)數(shù)據(jù)平臺(tái)是為 SQL 設(shè)計(jì)的，擅長(zhǎng)處理 Filter（過濾）、Aggregation（聚合）、Join（連接）等確定性計(jì)算，數(shù)據(jù)必須結(jié)構(gòu)化。

但企業(yè) 80% 以上的數(shù)據(jù)是文檔、音視頻、聊天記錄、會(huì)議紀(jì)要等 “非結(jié)構(gòu)化數(shù)據(jù)”。這些數(shù)據(jù)長(zhǎng)期躺在各個(gè)系統(tǒng)中，被稱為 “暗數(shù)據(jù)”（Dark Data）。

更關(guān)鍵的是訪問模式的改變。人類分析師習(xí)慣于看日?qǐng)?bào)、周報(bào)，容忍 T+1 的數(shù)據(jù)延遲，且查詢模式多為 “全量掃描” 后的聚合指標(biāo)。

而 Agent 的訪問模式完全不同：它們可能在秒級(jí)發(fā)起成千上萬次查詢，要求毫秒級(jí)的響應(yīng)，且查詢方式多為基于語義的 “精準(zhǔn)檢索”（Vector Search）。

這種高頻、低延遲、基于語義的機(jī)器交互需求，徹底擊穿了傳統(tǒng) Lambda 架構(gòu)的性能與成本底線。如果沿用老架構(gòu)，每一次 Agent 的思考都可能觸發(fā)昂貴的全表掃描，導(dǎo)致算力成本指數(shù)級(jí)上升。

1 當(dāng)前數(shù)據(jù)基建支持 AI 就緒的兩個(gè)結(jié)構(gòu)性障礙

企業(yè)這些年在數(shù)據(jù)建設(shè)上投入不少，數(shù)據(jù)中臺(tái)、數(shù)倉、治理體系都搭了，但許多數(shù)據(jù)資產(chǎn)“缺失”“用不上”“用不好”的問題，主要出在兩個(gè)地方。

架構(gòu)的熵增： Lambda 架構(gòu)的“一致性難題”是通向 AI 實(shí)時(shí)決策的巨額債務(wù)，且注定無法解決。

過去十年，為了同時(shí)支持實(shí)時(shí)和離線，行業(yè)普遍采用 Lambda 架構(gòu)：批處理一套，流處理一套。這一選擇由彼時(shí)的業(yè)務(wù)需求與技術(shù)條件共同決定。

Lambda 架構(gòu)的數(shù)據(jù)平臺(tái)受到“數(shù)據(jù)不可能三角”限制——你無法同時(shí)獲得數(shù)據(jù)的實(shí)時(shí)性、低成本和高查詢性能；只能三者取其二。通常，批處理面向成本和復(fù)雜查詢優(yōu)化，流處理面向解決實(shí)時(shí)性優(yōu)化，兩套系統(tǒng)各司其職。

（圖：典型的 Lambda 架構(gòu)）

痼疾也很明顯，如兩套系統(tǒng)的數(shù)據(jù)很難對(duì)齊。同一個(gè)指標(biāo)，批處理通過復(fù)雜的 ETL 處理和計(jì)算形成的指標(biāo)，與流計(jì)算不一定對(duì)得上。

所以說 Lambda 架構(gòu)下的“數(shù)據(jù)一致性”基本是美好愿望，需要巨大的運(yùn)維成本，潛在制約了數(shù)據(jù)業(yè)務(wù)整合和發(fā)展。另外還有維護(hù)成本高，運(yùn)維復(fù)雜等問題。

BI 時(shí)代這個(gè)問題勉強(qiáng)能忍，但 AI 時(shí)代忍不了了。

傳統(tǒng)數(shù)據(jù)庫掃描一張結(jié)構(gòu)化數(shù)據(jù)表，成本可能幾分錢；同樣的數(shù)據(jù)如果送給大模型做推理，成本可能幾百塊，差距在 10 萬倍量級(jí)。

且 Agent 要求新數(shù)據(jù)盡快就緒可召回，因此 AI 時(shí)代要求引擎同時(shí)滿足數(shù)據(jù)不可能三角的三個(gè)頂點(diǎn)（新鮮度、低成本、Readiness）。這意味著“有問題就全量重跑”的兜底方案徹底失效——你必須精確知道哪些數(shù)據(jù)變了，只處理增量。

但 Lambda 架構(gòu)的數(shù)據(jù)平臺(tái)，天然做不到這一點(diǎn)。因?yàn)榛诙嗵紫到y(tǒng)、多套邏輯、多套數(shù)據(jù)血緣。

范式不適配：AI 的原料與計(jì)算模式均與傳統(tǒng)數(shù)據(jù)平臺(tái)迥異

AI 需要的原料是文檔、音視頻等“非結(jié)構(gòu)化數(shù)據(jù)”，這些占了企業(yè)數(shù)據(jù)的 80% 以上，且包含大量有價(jià)值 Context 信息，我們稱他們?yōu)椤鞍禂?shù)據(jù)”。

真正的業(yè)務(wù) know-how——客戶是怎么想的、項(xiàng)目是怎么推進(jìn)的、決策是怎么做出的——大部分都藏在一個(gè)模糊的非結(jié)構(gòu)化數(shù)據(jù)為核心編織的數(shù)據(jù)網(wǎng)絡(luò)里。

過去，這些數(shù)據(jù)的價(jià)值只能靠數(shù)據(jù)科學(xué)家人工去挖掘。現(xiàn)在，AI 第一次提供了規(guī)模化處理這些數(shù)據(jù)的可能性。

但現(xiàn)在的數(shù)據(jù)庫 / 數(shù)倉 / 數(shù)據(jù)平臺(tái)是為結(jié)構(gòu)化數(shù)據(jù)和關(guān)系模型設(shè)計(jì)的。卻不擅長(zhǎng)處理文檔、音視頻。這是處理非結(jié)構(gòu)化數(shù)據(jù)（AI 的主要原料）時(shí)的范式缺失。

這些缺失是結(jié)構(gòu)性和根本性的，是從底層的處理硬件開始（GPU vs CPU）、到存儲(chǔ)系統(tǒng)、存儲(chǔ)格式、數(shù)據(jù)管理、元數(shù)據(jù)系統(tǒng)到引擎算子的全技術(shù)棧缺失。

2 AI 引入的三大范式變化

要打造 AI 時(shí)代的數(shù)據(jù)護(hù)城河，必須對(duì)底層架構(gòu)進(jìn)行徹底的范式重構(gòu)，這集中體現(xiàn)在計(jì)算能力、數(shù)據(jù)形態(tài)與訪問模式的三個(gè)維度。

高階計(jì)算能力：從關(guān)系代數(shù) 到 AI 模型

過去，數(shù)據(jù)庫和數(shù)據(jù)平臺(tái)只有一種引擎：結(jié)構(gòu)化分析引擎，基于關(guān)系代數(shù)，符號(hào)化、確定性、低語境依賴。你給它一條 SQL，它返回一個(gè)確定的結(jié)果，分毫不差。

但 AI 引擎的特性完全不同：基于概率模型，模糊匹配、概率推斷、高語境依賴。同一個(gè)問題問兩遍可能得到不同答案。

但正因如此，它能做傳統(tǒng)引擎做不到的事——理解、抽取、總結(jié)、推理、生成。

例如，在經(jīng)典的 DIKW（數(shù)據(jù) - 信息 - 知識(shí) - 智慧）金字塔中，傳統(tǒng)結(jié)構(gòu)化引擎的能力邊界在 Information 層——它能把數(shù)據(jù)加工成報(bào)表和指標(biāo)，但無法告訴你這些指標(biāo)“意味著什么”。AI 引擎能深入到 Knowledge 層級(jí)，實(shí)現(xiàn)真正的語義理解和推理。

換個(gè)角度：如果把傳統(tǒng)引擎類比為大腦頂葉（負(fù)責(zé)數(shù)學(xué)計(jì)算），AI 引擎則對(duì)應(yīng)前額葉皮層（負(fù)責(zé)高階認(rèn)知、規(guī)劃、決策）。兩者的關(guān)系是互補(bǔ)而非替代——二維關(guān)系計(jì)算交給傳統(tǒng)引擎，總結(jié)、歸納及推等認(rèn)知計(jì)算交給 AI 引擎。

暗數(shù)據(jù)的解鎖：Lakehouse 下的多模態(tài)表達(dá)

?期以來，企業(yè)數(shù)據(jù)資產(chǎn)中超過 80% 都是?結(jié)構(gòu)化或半結(jié)構(gòu)化的 “暗數(shù)據(jù)?（Dark Data），如客?服務(wù)的錄?、合同 PDF ?檔、監(jiān)控視頻等。在傳統(tǒng)數(shù)倉架構(gòu)下，這些數(shù)據(jù)往往被丟棄或僅作為冷備份存儲(chǔ)，?法參與核?業(yè)務(wù)計(jì)算。

Lakehouse（湖倉一體）架構(gòu)的普及為這些數(shù)據(jù)的存儲(chǔ)提供了低成本方案，但通過 AI 對(duì)其進(jìn)行深度解析才是關(guān)鍵。

通過 AI 的多模態(tài)處理能力，能夠自動(dòng)解析、向量化并索引這些非結(jié)構(gòu)化數(shù)據(jù)，將其轉(zhuǎn)化為機(jī)器可理解的格式。這意味著企業(yè)可以首次全景式地利用其擁有的所有信息資源，而非僅僅通過那 20% 的結(jié)構(gòu)化表格來決策。

訪問模式轉(zhuǎn)變：從 Scan 到 Search

AI 引擎有一個(gè)獨(dú)特特性：上下文窗口極小（100 萬 Token 約等于 4MB），但處理成本極高。1TB 數(shù)據(jù)，AI 引擎推理需要 25 萬個(gè)窗口，總成本高達(dá)百萬美元，同樣的數(shù)據(jù)量大數(shù)據(jù)引擎處理成本在 5 美元以下。

這帶來訪問模式的根本轉(zhuǎn)變：從“全量掃描”轉(zhuǎn)向“精準(zhǔn)檢索”。例如計(jì)算 “過去一年的總銷售額”。這需要掃描大量行數(shù)據(jù)。然而，AI Agent 的典型訪問模式完全不同：它們更多地進(jìn)行 “精準(zhǔn)檢索”（Point Lookup）或 “語義搜索”（Vector Search），例如 “找到與該投訴最相似的歷史案例”。

這種從 Scan 到 Search 的轉(zhuǎn)變，對(duì)底層存儲(chǔ)引擎的索引結(jié)構(gòu)、緩存策略和并發(fā)能力提出了全新的要求。RAG（檢索增強(qiáng)生成）技術(shù)的興起，本質(zhì)上就是為了解決這一問題。

但 RAG 僅僅是檢索環(huán)節(jié)，更重要的是如何構(gòu)建一個(gè)高效、實(shí)時(shí)、低成本的 AI 處理平臺(tái)，將非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)化為 AI 就緒（AI-Ready）的知識(shí)并存儲(chǔ)在 RAG 中。

3 未來架構(gòu)藍(lán)圖：AI 原生數(shù)據(jù)平臺(tái)的五個(gè)設(shè)計(jì)原則

基于上述變革，構(gòu)建新一代數(shù)據(jù)護(hù)城河需要遵循五個(gè)核心原則，這些原則構(gòu)成了 AI 原生數(shù)據(jù)平臺(tái)的藍(lán)圖。Databricks、Snowflake 以及國內(nèi)云器科技等廠商，都在沿著這個(gè)方向演進(jìn)。

核心設(shè)計(jì)原則概覽

原則一：Lakehouse 統(tǒng)一存儲(chǔ)。一份數(shù)據(jù)，多種視圖（Table/Vector/Graph），打破結(jié)構(gòu)化與非結(jié)構(gòu)化的邊界。
原則二：AI 作為原生計(jì)算引擎。 AI 能力內(nèi)嵌至 SQL，支持 AI ETL 與 GPU 統(tǒng)一調(diào)度。
原則三：增量計(jì)算結(jié)合的獎(jiǎng)牌架構(gòu)。拋棄 Lambda 架構(gòu)，采用全鏈路增量（GIC）構(gòu)建獎(jiǎng)牌架構(gòu)。
原則四：Agent 友好的開發(fā)范式。 API First，自然語言交互，建立 “執(zhí)行 - 反饋” 閉環(huán)。
原則五：企業(yè)級(jí)能力。細(xì)粒度權(quán)限治理，Serverless 彈性伸縮，滿足審計(jì)與合規(guī)需求。

原則一：Lakehouse 統(tǒng)一存儲(chǔ)

Lakehouse 的核心是用一套系統(tǒng)同時(shí)支持低成本存儲(chǔ)和高效查詢。但對(duì) AI 原生平臺(tái)來說，更關(guān)鍵的是它原生支持多種數(shù)據(jù)表達(dá)形態(tài)。同一份數(shù)據(jù)可以有多種表達(dá)，不同表達(dá)帶來不同的能力邊界。

以一段客戶反饋為例，同樣的信息可以有不同的存儲(chǔ)方式，假如：

存成原始文本：信息最完整，但檢索效率低
抽取成結(jié)構(gòu)化字段（情感傾向、產(chǎn)品類別、問題類型）：查詢快、可聚合，但丟失了細(xì)節(jié)
轉(zhuǎn)成向量：支持語義檢索，能找到“意思相近”的內(nèi)容
構(gòu)建圖關(guān)系：能表達(dá)客戶、產(chǎn)品、問題之間的關(guān)聯(lián)網(wǎng)絡(luò)

不同形態(tài)有不同權(quán)衡。越靠近結(jié)構(gòu)化，準(zhǔn)確率越高、可解釋性越強(qiáng)、處理成本越低；越靠近原始態(tài)，信息越豐富、靈活性越高，但成本也越高。

一個(gè)洞察是，AI 的數(shù)據(jù)不應(yīng)該獨(dú)立建一套平臺(tái)。它應(yīng)該和結(jié)構(gòu)化數(shù)據(jù)融合在一起，因?yàn)?AI 處理流程中有大量結(jié)構(gòu)化計(jì)算的需求。把兩者割裂開，反而會(huì)制造新的數(shù)據(jù)孤島。

舉個(gè)例子：你問 AI “Meta 2021 年的營(yíng)收是多少”，如果只有原始文本，AI 可能猜錯(cuò)單位（是百萬還是十億？美元還是其他貨幣？）。但如果結(jié)構(gòu)化數(shù)據(jù)和語義層（Semantic Layer）結(jié)合，標(biāo)注清楚 revenue 列的單位和口徑，回答就會(huì)精確得多。

這就是為什么 Lakehouse 架構(gòu)強(qiáng)調(diào)統(tǒng)一——不是簡(jiǎn)單地把數(shù)據(jù)堆在一起，而是讓不同形態(tài)的數(shù)據(jù)能夠協(xié)同工作。

原則二：內(nèi)生 AI 計(jì)算

AI 能力必須內(nèi)嵌到數(shù)據(jù)平臺(tái)，成為 SQL 的一部分，而非通過 API 外掛。

海外頭部廠商已經(jīng)在這樣做。Snowflake 和 Databricks 都在 SQL 里加入了一系列 AI 算子，形成了相對(duì)完整的能力圖譜：

AI_COMPLETE：文本補(bǔ)全和生成，比如根據(jù)上下文自動(dòng)填充缺失字段
AI_EXTRACT：從非結(jié)構(gòu)化文本中抽取結(jié)構(gòu)化信息，比如從合同里提取關(guān)鍵條款
AI_FILTER：語義級(jí)別的過濾，比如篩選"與某主題相關(guān)"的內(nèi)容
AI_AGGREGATE：對(duì)文本內(nèi)容做聚合摘要，比如把 100 條客戶反饋總結(jié)成 3 個(gè)要點(diǎn)
AI_CLASSIFY：分類打標(biāo)，比如判斷一段文本的情感傾向或主題類別

這些算子對(duì)應(yīng)的底層能力，其實(shí)就是大模型的理解、抽取、生成、總結(jié)、推理。但封裝成 SQL 算子之后，AI 模型與數(shù)據(jù)結(jié)果的結(jié)合表達(dá)能力獲得大幅提升，不需要搭 LangChain，不需要懂 Prompt Engineering，一條 SQL 搞定。

（圖：AI 能力與 SQL 算子的融合，Snowflake Cortex AI）

舉個(gè)具體場(chǎng)景：金融分析師每天面對(duì)上萬條新聞，傳統(tǒng)做法要么人工篩選，要么寫復(fù)雜的關(guān)鍵詞規(guī)則（然后漏掉大量相關(guān)信息）。現(xiàn)在可以直接寫：

WHERE AI_FILTER(content, '與我關(guān)注的公司直接相關(guān)的新聞')

如果需要更精細(xì)的處理，還可以組合多個(gè)算子：

WHERE AI_FILTER(content, '與科技行業(yè)相關(guān)的重大事件')

這才是真正的多模態(tài)計(jì)算——AI 和 SQL 在同一個(gè)執(zhí)行引擎里協(xié)同工作，而非簡(jiǎn)單的多模態(tài)召回。是在統(tǒng)一的數(shù)據(jù) governance 的環(huán)境中做權(quán)限管理的 AI 數(shù)據(jù)處理，符合隱私合規(guī)；而且算子可組合，復(fù)雜邏輯也能表達(dá)。

原則三：大獎(jiǎng)牌架構(gòu)與增量計(jì)算 - “只計(jì)算變化的部分”

傳統(tǒng) Lambda 架構(gòu)維護(hù)實(shí)時(shí)和離線兩套代碼，導(dǎo)致邏輯冗余且指標(biāo)經(jīng)常無法對(duì)齊。Databricks 和微軟 2024 年提出的 Medallion Architecture（大獎(jiǎng)牌架構(gòu)）已成為 AI+Data 數(shù)據(jù)處理的標(biāo)準(zhǔn)模型。（Reference：Databricks：What is a medallion architecture? Medallion Architecture 101: Building Data Pipelines That Don't Fall Apart）

這個(gè)架構(gòu)的核心思想是把數(shù)據(jù)處理分成三層，像煉礦一樣逐級(jí)提純：

Bronze 層（銅）：存原始數(shù)據(jù)，越原始越好，不做任何加工。就像礦石——今天你煉鐵，明天可能發(fā)現(xiàn)里面還有金子。原始數(shù)據(jù)不能丟，因?yàn)槟悴恢牢磥頃?huì)需要什么。

Silver 層（銀）：做清洗、抽取、結(jié)構(gòu)化。把非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)成可查詢的格式，把臟數(shù)據(jù)清理掉，統(tǒng)一 schema。這一層是數(shù)據(jù)質(zhì)量的關(guān)鍵戰(zhàn)場(chǎng)。

Gold 層（金）：生成最終產(chǎn)出——報(bào)表、特征、指標(biāo)，直接供業(yè)務(wù)和模型使用。

并且，這個(gè)架構(gòu)同時(shí)適用于結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。

圖：獎(jiǎng)牌架構(gòu)數(shù)據(jù)處理流程：結(jié)構(gòu)化數(shù)據(jù)（上圖）；非結(jié)構(gòu)化數(shù)據(jù)（下圖）

獎(jiǎng)牌架構(gòu)是一套建模方法，它最終能跑起來，有一個(gè)前提：增量計(jì)算能力。

獎(jiǎng)牌架構(gòu)有四個(gè)核心原則：靈活性（Flexibility）、數(shù)據(jù)質(zhì)量管理（Data Quality Management）、成本效率（Cost Efficiency）、以及最關(guān)鍵的——增量 ETL（Incremental ETL）。

前三個(gè)相對(duì)直觀，第四個(gè)是難點(diǎn)和核心。為什么？因?yàn)?AI 推理成本極高，“全量重跑”模式根本不可行。每次數(shù)據(jù)更新都從頭算一遍，成本和延遲都無法接受。

獎(jiǎng)牌架構(gòu)本質(zhì)上是一個(gè) Kappa 架構(gòu)——端到端的統(tǒng)一增量數(shù)據(jù)處理流程，不再區(qū)分流 / 批等傳統(tǒng)計(jì)算模型。但這個(gè)架構(gòu)能跑起來的前提是：必須有真正的增量計(jì)算能力。

AI 推理成本決定了“全量重跑”不可行。通用增量計(jì)算（GIC）的核心思想是：

（圖：增量計(jì)算原理）

只處理變化的部分，不重復(fù)計(jì)算已經(jīng)算過的東西。這個(gè)方式并不像說的那樣容易，需要從底層重新設(shè)計(jì)計(jì)算引擎：精確追蹤數(shù)據(jù)的每一個(gè)變化，理解變化對(duì)下游計(jì)算的影響，只對(duì)需要更新的部分做增量處理。這涉及到存儲(chǔ)格式、索引結(jié)構(gòu)、執(zhí)行計(jì)劃、狀態(tài)管理的全面重構(gòu)。

理想的增量計(jì)算引擎能用一套系統(tǒng) Single-Engine 同時(shí)支持實(shí)時(shí)和離線，同一套代碼、同一份數(shù)據(jù)、同一個(gè)執(zhí)行引擎。（增量計(jì)算白皮書 -- 請(qǐng)參看附錄）

原則四：Agent 友好的開發(fā)范式

當(dāng)軟件使用者從人變成 Agent，開發(fā)平臺(tái)的設(shè)計(jì)范式也必須改變。

過去的數(shù)據(jù)開發(fā)平臺(tái)，核心交互是 GUI：拖拉拽建模、點(diǎn)選配置、根據(jù)監(jiān)控調(diào)整。這對(duì)人很友好，但 Agent 并不需要點(diǎn)按鈕。

面向 Agent 的設(shè)計(jì)需要幾個(gè)根本轉(zhuǎn)變：

API First 而非 UI First。 Agent 通過接口與系統(tǒng)交互，所有能力都必須 API 化。GUI 變成可選的觀測(cè)層，而非核心交互層。
自然語言作為主要接口。 Agent 用“交流”的方式檢索和操作數(shù)據(jù)。NL2SQL 不再是錦上添花的功能，而是核心能力。Agent 可以在一次查詢里融合文本、向量、圖關(guān)系的檢索結(jié)果，實(shí)現(xiàn)真正的多模態(tài)查詢。
反饋鏈路不可或缺。 AI 是概率模型，有時(shí)對(duì)有時(shí)錯(cuò)。傳統(tǒng)軟件是確定性的——代碼寫對(duì)了就永遠(yuǎn)對(duì)。但 AI 系統(tǒng)需要持續(xù)校正，需要建立“執(zhí)行→反饋→調(diào)整”的閉環(huán)機(jī)制，像機(jī)器學(xué)習(xí)訓(xùn)練一樣不斷迭代。
自解釋的語義層。 Agent 需要理解數(shù)據(jù)的業(yè)務(wù)含義，而非只知道表名和字段名。這要求數(shù)據(jù)平臺(tái)具備豐富的元數(shù)據(jù)和語義描述，讓 Agent 能夠自主理解"revenue 列的單位是什么""這兩個(gè)表之間是什么業(yè)務(wù)關(guān)系"。

但有一點(diǎn)需要清醒認(rèn)識(shí)：短期內(nèi)人不會(huì)完全退出，而且人與 Agent 的交互也同樣關(guān)鍵。

AI 寫的代碼、做的決策仍需人來檢查與審批。不管 AI 多強(qiáng)，"因?yàn)槭?AI 寫的所以 bug 不算數(shù)"這種邏輯并不成立。人的角色從"開發(fā)者"變成"Reviewer+Observer"——審批關(guān)鍵決策，監(jiān)控系統(tǒng)運(yùn)行。

未來的數(shù)據(jù)平臺(tái)會(huì)是混合模式：Agent 負(fù)責(zé)主要的開發(fā)和執(zhí)行，人作為審批者和監(jiān)控者。平臺(tái)需要同時(shí)支持兩種交互范式。

原則五：企業(yè)級(jí)治理能力

AI 原生時(shí)代，開源自建的 ROI 邏輯在改變。

Agent 大規(guī)模調(diào)用企業(yè)數(shù)據(jù)時(shí)，細(xì)粒度訪問控制變得極其重要——財(cái)務(wù)報(bào)表、員工工資、客戶隱私管理、嚴(yán)格的權(quán)限隔離、數(shù)據(jù)防泄露等企業(yè)級(jí)數(shù)據(jù)管理與治理能力。此外，AI 的決策需要可追溯、可審計(jì)，在金融、醫(yī)療等強(qiáng)監(jiān)管行業(yè)尤其關(guān)鍵。

這些能力開源軟件天然缺失，商業(yè)級(jí)托管平臺(tái)天然具備。這也是為什么 Databricks/Snowflake 這一類商業(yè)平臺(tái)受到包括 OpenAI 在內(nèi)的新一代企業(yè)青睞的原因。

路徑選擇：全球共識(shí)與中國式解法

上述五個(gè)原則由云器科技總結(jié)提出，事實(shí)上全球頭部廠商都在沿著這個(gè)方向演進(jìn)，只是路徑選擇各有不同。

Databricks是這套范式的最佳踐行者。從 Spark 起家，到推出 Delta Lake 實(shí)現(xiàn)湖倉一體，再到 2024 年系統(tǒng)性提出 Medallion Architecture，它一直在引領(lǐng) Data+AI 融合的技術(shù)方向。商業(yè)上，Databricks 堅(jiān)持云中立 + 托管化，不綁定任何一家云廠商，這讓它能夠服務(wù)于多云和混合云場(chǎng)景的企業(yè)客戶。

Snowflake也是數(shù)據(jù)領(lǐng)域的先行者之一。它的底子是云原生數(shù)倉，強(qiáng)項(xiàng)在結(jié)構(gòu)化數(shù)據(jù)的極致性能。面對(duì) AI 浪潮，Snowflake 選擇通過收購和集成來補(bǔ)齊能力——Document AI 處理非結(jié)構(gòu)化數(shù)據(jù)，Cortex 提供 AI 服務(wù)，Snowpark 支持 Python 生態(tài)。路徑不同，但方向一致。

值得注意的是，這兩家公司都沒有選擇自研基礎(chǔ)模型，而是專注于數(shù)據(jù)的價(jià)值挖掘。

中國市場(chǎng)有其特殊性。

一方面，國內(nèi)云廠商的技術(shù)棧與海外存在較大差異；另一方面，企業(yè)對(duì)數(shù)據(jù)主權(quán)和合規(guī)性有更高要求。直接照搬海外方案并不現(xiàn)實(shí)，這給了本土廠商機(jī)會(huì)。云器科技是目前國內(nèi)最接近 Databricks 定位的公司。技術(shù)上，它基于 Lakehouse + GIC 實(shí)現(xiàn)了批流一體的架構(gòu)重構(gòu)；商業(yè)上，同樣堅(jiān)持云中立與全托管路線。

目前，云器科技的這一架構(gòu)已在螞蟻集團(tuán)、小紅書、快手等頭部互聯(lián)網(wǎng)公司的生產(chǎn)環(huán)境中得到了驗(yàn)證。這些場(chǎng)景往往具有極高的數(shù)據(jù)吞吐量和復(fù)雜的業(yè)務(wù)邏輯，能在這些苛刻環(huán)境中穩(wěn)定運(yùn)行，證明了該技術(shù)路徑的成熟度與可替代性。

（表：Databricks 與云器科技產(chǎn)品對(duì)比）

編者按：據(jù)悉，近期云器科技已完成 B 輪融資。資金將主要用于新一代 AI 數(shù)據(jù)基礎(chǔ)平臺(tái)的持續(xù)研發(fā)，進(jìn)一步推動(dòng) AI 原生數(shù)據(jù)架構(gòu)在本土市場(chǎng)的落地與普及。當(dāng)前形勢(shì)下，作為國內(nèi)最接近 Databricks 定位的公司，云器的融資進(jìn)展也反映出資本對(duì)亞太 Data+AI 基礎(chǔ)設(shè)施賽道的持續(xù)看好。

4 終局：構(gòu)建智能時(shí)代的數(shù)據(jù)壁壘

從最宏觀的視角看，數(shù)據(jù)平臺(tái)的定位在 AI 時(shí)代正在發(fā)生根本變化。

關(guān)鍵事實(shí)：

用戶主體變遷：軟件的主要使用者正在從人類（Human）加速轉(zhuǎn)向智能體（Agent），要求數(shù)據(jù)接口具備更高頻、低延遲的機(jī)器交互能力。
架構(gòu)痛點(diǎn)解決：傳統(tǒng) Lambda 架構(gòu)在即時(shí)性與準(zhǔn)確性上難以兼得，且維護(hù)成本高昂；云器科技通過統(tǒng)一的流批一體與增量計(jì)算技術(shù)，徹底解決了數(shù)據(jù)一致性難題。
暗數(shù)據(jù)價(jià)值釋放：針對(duì)企業(yè)內(nèi)部大量存在的非結(jié)構(gòu)化 “暗數(shù)據(jù)”（文檔、日志、多媒體），平臺(tái)提供了原生的存儲(chǔ)與計(jì)算支持，使其成為可被 AI 利用的高價(jià)值資產(chǎn)。
計(jì)算模式革新：從傳統(tǒng)的全量掃描（Scanning）模式轉(zhuǎn)向更高效的搜索（Searching）模式，大幅提升了 RAG（檢索增強(qiáng)生成）場(chǎng)景下的響應(yīng)速度。
技術(shù)路徑融合：采用 Lakehouse 架構(gòu)作為數(shù)據(jù)底座，結(jié)合獨(dú)創(chuàng)的 GIC（增量計(jì)算）技術(shù)，實(shí)現(xiàn)了存儲(chǔ)成本與計(jì)算效率的最優(yōu)平衡。
中國生態(tài)定位：針對(duì)中國企業(yè)復(fù)雜的 IT 環(huán)境，云器科技提供云中立且具備完全托管能力的解決方案，填補(bǔ)了國內(nèi)市場(chǎng)在高端 AI 數(shù)據(jù)基礎(chǔ)設(shè)施上的空白

過去它是“被動(dòng)響應(yīng)的資產(chǎn)庫”——業(yè)務(wù)系統(tǒng)產(chǎn)生數(shù)據(jù)，數(shù)據(jù)平臺(tái)存起來，有人查就返回結(jié)果。未來它將成為“主動(dòng)參與決策的智能實(shí)體”的底座，是企業(yè) AI 的“記憶與知識(shí)庫”。

可以想象這樣的場(chǎng)景：Agent 群在上面運(yùn)行、學(xué)習(xí)、協(xié)作，數(shù)據(jù)平臺(tái)在下面收集、計(jì)算、優(yōu)化數(shù)據(jù)。與上層 Agent 形成互動(dòng)。AI 消費(fèi)數(shù)據(jù)、理解數(shù)據(jù)、改寫數(shù)據(jù)，數(shù)據(jù)再反過來塑造 AI 的行為與能力。

這個(gè)循環(huán)迭代越快，系統(tǒng)的智能水平就越高。

更宏觀地看，AI+Data 正在形成新的技術(shù)范式。未來的超級(jí)智能不會(huì)是孤立的模型，而是持續(xù)運(yùn)轉(zhuǎn)的系統(tǒng)——是數(shù)據(jù) + 算力 + 模型的融合；它既使用知識(shí)，也創(chuàng)造知識(shí)。數(shù)據(jù)不再是被動(dòng)存放的資源，而是不斷加工、更新、進(jìn)化的運(yùn)行態(tài)。

承載這個(gè)循環(huán)的核心基礎(chǔ)設(shè)施，必然是 AI 原生的數(shù)據(jù)平臺(tái)。誰能更快完成從傳統(tǒng)架構(gòu)到 AI 原生的遷移，誰就更有機(jī)會(huì)在下一輪基礎(chǔ)設(shè)施競(jìng)爭(zhēng)中占據(jù)位置。

Reference

AI SQL Query Language：https://www.snowflake.com/en/blog/ai-sql-query-language/

獎(jiǎng)牌模型 Medallion Architecture: https://www.databricks.com/glossary/medallion-architecture

Medallion Architecture 101: Building Data Pipelines That Don't Fall Apart： https://dev.to/aawiegel/medallion-architecture-101-building-data-pipelines-that-dont-fall-apart-1gil

增量計(jì)算白皮書：https://www.yunqi.tech/resource/incremental-computation/reservation

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.