
對于當下的開發者而言,現在是一個最好的時代,也是一個最“卷”的時代。一方面,以RAG(檢索增強生成)、智能Agent為代表的AI應用浪潮洶涌,仿佛一夜之間,開發者手里就多了一把“創世”的錘子;另一方面,當開發者真正拿起錘子,試圖構建應用時,才發現最大的阻礙,竟來自最基礎的——數據。
AI開發者的“數據拼裝困局
今天,任何一個想做RAG或智能體Agent的開發者,都會面臨同一個尷尬現實:工具越先進,數據層越混亂。
例如構建一個企業內部知識庫,企業的數據天然是割裂的:員工的HR信息、工單記錄在業務數據庫(如MySQL、PostgreSQL)里;非結構化的產品文檔、PDF、技術手冊在對象存儲或本地磁盤上;而為了實現語義搜索,還需要將文檔向量化后,存入專門的向量數據庫(如Milvus、Chroma)。
于是,一個本應極簡的AI應用,被迫變成一場跨系統的“數據搬運馬拉松”。首先,一個簡單的查詢要串起三四個系統:先查MySQL過濾結構化數據,再到 Elasticsearch (ES)匹配關鍵詞,最后去向量庫做語義相似度Top-K。其次,由于數據割裂,系統無法在單一請求內建立完整的上下文,導致大模型拿到的“養料”殘缺不全,推理結果自然難以精準。
更頭疼的問題是數據一致性。業務數據在MySQL更新了,向量庫的嵌入是否同步更新?ES的索引呢?數據在多個煙囪里流轉,一致性、時效性的問題會以指數級復雜度增加。最后,跨系統的數據搬運和多步查詢,讓實時AI變成奢望。
正如OceanBase CEO楊冰在2025 OceanBase年度發布會上所指出的:“AI 的真正瓶頸不在模型,而在數據。”
當AI應用需要毫秒級響應,需要實時融合結構化交易、非結構化文檔與向量畫像時,行業需要的不再是低效的拼裝,而是一個能在數據源頭驅動實時、可信智能的全新底座。為此,11月18日,OceanBase給出了答案——開源AI原生數據庫seekdb,試圖用“AI Native”來終結開發者的“數據困境”。
![]()
深度拆解:seekdb是什么?
seekdb是一款AI原生、基于Apache 2.0協議的開源數據庫。與諸多在原有數據庫上打補丁的方案不同,seekdb是面向AI的徹底重構。我們不妨從兩個維度來深度拆解seekdb。
首先是極簡的開發者體驗。
seekdb帶給開發者的第一印象是“極簡”和“輕量”。官方宣稱,開發者僅需三行代碼,即可快速構建支持知識庫、智能Agent等AI應用。
seekdb徹底打破了“企業級數據庫必重型”的刻板印象,僅需1核CPU、2GB內存,支持pip install一鍵安裝、秒級啟動,最低資源即可運行。如此的輕量化,讓seekdb能輕松嵌入到智能Agent、開發工具鏈甚至本地應用中。
此外,seekdb以Apache 2.0協議全球開源。在發布會上,官方展示了seekdb 對LangChain、Llamaindex、Dify等30余種主流AI框架的兼容與適配。“開箱即用”的友好度,是seekdb向開發者社區遞出的第一張名片。
其次是基于AI原生理念的數據上下文工程重構。
如果說極簡是外在,那么一體化就是seekdb的硬核內在。seekdb真正要重構的,是AI應用的數據處理流。
seekdb的核心能力,是在單一數據庫中深度融合了標量(結構化數據)、向量、全文檢索及空間地理(GIS)數據的能力。此舉對開發者意味著,前文提到的系統縫合問題迎刃而解。開發者現在可以通過一條SQL,同步完成“結構化過濾”、“關鍵詞匹配”和“向量語義計算”。
一個在發布會上被重點提及的場景很能說明問題:
以反欺詐場景為例,可毫秒級響應“近7天交易超5萬元、位置異常且行為類似歷史欺詐樣本”的混合搜索。
在上述請求中,“近7天”、“交易超5萬元”是結構化數據過濾;“位置異常”可能是空間地理或關鍵詞匹配;而“行為類似歷史欺詐樣本”則是向量語義計算。在傳統架構下,完成該任務需要一個跨多個系統調用的復雜鏈路。而在seekdb 中,這只是一個混合查詢。
更關鍵的是,seekdb引入了"Document in, Data out"的設計理念。數據進入數據庫后,解析、分片、Embedding(向量化)等復雜流程均由數據庫內核自動完成。結合內置的AI Function,seekdb形成了一個從存儲、索引、檢索到推理的一站式閉環。數據不出庫,就能在數據源頭完成全流程處理,既提升性能,又保障金融、政務等高敏場景下的數據安全。
![]()
![]()
架構對比:seekdb vs. 傳統“拼裝”方案
seekdb的“AI原生”是否真的優于傳統的數據拼裝方案?有必要從架構和可量化的收益上進行客觀對比。
以PostgreSQL配合pgvector插件及ES的方案為例,該方案是開發者目前最熟悉的選擇。但熟悉不代表最優。
首先是架構之痛。pgvector只是一個插件,當數據量和并發量上來時,開發者很快會遇到性能瓶頸。更核心的問題是,向量檢索、全文檢索和標量查詢,在底層是不同的優化路徑和存儲形態,強行縫合的查詢優化器很難做到全局最優。
其次是運維之痛。數據在PG、ES之間需要復雜的ETL或Flink CDC來同步。多一套系統就多一套運維成本,數據延遲、丟失、不一致的風險始終高懸。
最后是成本之痛。系統越復雜,延遲越高。為了“看似”的實時,開發者不得不在數據同步和中間件上投入大量資源,而跨系統調用帶來的網絡開銷和序列化成本,最終都會反映在終端用戶的延遲上。
相比之下,seekdb的一體化架構則提供了不同的解法。
seekdb并非拼裝,而是基于OceanBase成熟的事務引擎,原生融合多模數據能力。其核心優勢在于事務能力保障下的索引實時更新——數據DML(增刪改)后,ES索引和向量索引同步生效,徹底消除傳統方案中的“不一致窗口”,保證查詢結果總是最新的。
原生的混合搜索,意味著優化器從一開始就知道如何最高效地協同處理標量、向量和全文索引。
由此帶來了可量化的收益:開發效率得到解放,無需編寫“膠水代碼”,擺脫復雜數據流;性能上,得以實現百億級多模數據的混合搜索——發布會數據顯示,在10億級向量檢索場景下,OceanBase混合搜索的效率是業內主流全文向量搜索數據庫的2倍以上。配合同期開源的PowerMem分層記憶架構,在 LOCOMO Benchmark上以78.70分登頂SOTA,Token消耗較傳統方案降低96%。種種舉措表明,OceanBase的Data x AI戰略是一個組合拳,不但有seekdb負責數據底座的開源AI原生數據庫,還有PowerRAG、PowerMem 等混合搜索相關的開源生態組件。
![]()
極簡的底氣:15 年“硬核工程化”
看到這里,一個問題自然浮現:
一個15年來都在攻堅金融級“高并發、強一致”的數據庫廠商,為什么能(或者說,憑什么能)突然做出一個如此“輕量、極簡”的AI數據庫?
答案或許在于:seekdb的極簡,是OceanBase十五年工程化能力的“降維封裝”。
“極簡”從來不是“簡單”,而是將極致的“復雜”封裝在內核里。
seekdb的底氣,首先來自極端場景的淬煉。OceanBase從誕生的第一天起,面對的就是地球上最嚴苛的數據庫場景——支付寶的核心賬務系統,并連續十余年穩定支撐雙11。在極端高并發、數據強一致(金融級RPO=0) 場景下淬煉出的穩定性和性能,是OceanBase技術工程能力的“底色”。
其次,是世界級技術的客觀背書。技術圈講究實例,在數據庫領域則是TPC測試。OceanBase是全球唯一登頂過“數據庫世界杯” TPC-C(事務處理)和 TPC-H(數據分析)兩大基準測試紀錄的數據庫,證明其一體化架構(HTAP)在TP和AP兩條線上都具備世界級的性能。最新發布的4.4版本內核,在向量索引 HNSW能上又提升了 32%。
最后,也最核心的,是近乎偏執的工程文化。要理解seekdb,就必須理解 OceanBase團隊的工程文化。團隊的理念是:“正確性第一,穩定性第二,性能第三”。
為了保障數據絕對可靠,OceanBase選擇了最難的路——完全的自主研發。從零開始寫代碼,自己掌控硬件資源,不依賴操作系統。據稱,在 300 萬行核心代碼中,超過50%是用于內核自檢的。
一個在團隊內部廣為流傳的故事,是關于代碼規范器(Normalizer)的。在 OceanBase早期版本,創始人陽振坤(正祥)親筆寫下了100多頁的C++代碼規范,然后團隊停下了所有開發任務,花了整整一個月時間,把所有代碼過了一遍,只是為了加上“空指針判斷”。
在外人看來,此舉是一個投入產出比極低的行為。但正是對“正確性”和“穩定性”的偏執信仰,才鍛造了OceanBase的工程基因。
所有過往,共同構成了seekdb “極簡”的底氣。seekdb不是一個初創團隊的試驗品,而是OceanBase將15年來在分布式、高并發、強一致、HTAP領域積累的復雜工程化能力,“降維”封裝成一個輕量級、開源的AI數據庫。
![]()
開源、演進與DataAI戰略
在發布會上,官方也坦誠地保持了克制,稱seekdb仍處于早期版本。
同時,作為OceanBase “Data x AI”戰略的關鍵一環,OceanBase 4.4 一體化融合版本正式發布,該版本首次將TP、AP與AI能力集成于單一內核,兼具分布式擴展、多云部署與金融級高可用,幫助企業避免后期架構重構風險。商用 4.4.2 LTS版本將于2026年2月2日推出。
事實上,OceanBase的混合搜索能力已在行業中落地驗證。例如,中國聯通基于混合搜索構建了統一AI知識庫,有效解決了私有文檔的權限管理與高效檢索難題;貨拉拉利用OceanBase實現了知識庫、AI Coding和Agent平臺的多合一,RPO降至0。
回歸到開發者本身。
seekdb的意義在于:讓AI開發回歸本質——聚焦AI應用本身的邏輯創新,而非長期身陷冗余的數據拼裝和“膠水代碼”中。
正如楊冰所說:“未來數據庫必須同時服務于‘人’與‘智能體’”。seekdb正是這一理念的實踐。它通過開源,通過工程化將企業級AI數據能力進一步簡化,推動行業從“膠水式開發”邁向“一站式閉環”。
目前,seekdb已在GitHub開源,新域名oceanbase.ai也已同步啟用,全球開發者可免費下載使用。而這場AI時代的數據庫范式躍遷,正以一個更輕量、更現代、更易用的開源數據底座形式,呈現在全球開發者面前。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.