網易首頁 > 網易號 > 正文申請入駐

OpenAI把80%算力砸向訓練，向量數據庫卻偷偷吃掉90%推理

2026-04-06 16:01:50　來源: 野生運營

北京舉報

分享至

2024年，全球向量數據庫市場規模從4.2億美元飆到12.8億，增速205%。但比這數字更扎眼的是另一組對比：企業部署大模型時，訓練成本只占10%，推理和存儲吃掉剩下的90%。向量數據庫恰好卡在這90%的咽喉位置。

Prabu Jayant在Medium上發了篇長文，把這事說透了。他的核心觀點很直接：「如果說大語言模型（LLM，Large Language Model）是推理引擎，向量數據庫就是長期記憶。」沒有后者，你的AI就是個金魚腦——每次對話從零開始，連你三分鐘前說過什么都記不住。

SQL查得到"UserID 505"，但查不到"像雨天周日下午那種視頻"

傳統關系型數據庫（SQL）是精確匹配的大師。輸入確定關鍵詞，返回確定結果，毫秒級響應。但現實世界的問題從來不是這么問的。

用戶想要的是"文檔里講太陽耀斑法律風險的那些"，是"和這張圖風格接近的設計參考"，是"上次聊過的那個預算方案"——這些問題的共同特征是：沒有標準答案，只有語義相近。

SQL數據庫不理解"意思"，它只認識字符串。你把"King"和"Queen"存進去，它們就是四個字母和五個字母的區別，和"Toaster"沒有任何本質不同。

向量嵌入（Embeddings）解決的就是這個斷層。它把文本、圖像、音頻這些非結構化數據，轉換成幾百到幾千維的數字坐標。在這個高維數學空間里，"King"和"Queen"的向量距離可能只有0.3，而"King"和"Toaster"隔著整個銀河系。

Jayant打了個比方：這就像是給每個概念發了一張宇宙中的三維坐標身份證。查詢不再是"等于"，而是"靠近"。

RAG架構：讓大模型從"閉卷考試"變成"開卷帶筆記"

2023年開始爆火的RAG（檢索增強生成，Retrieval-Augmented Generation），核心依賴就是向量數據庫。它的工作流很直白：用戶提問→向量數據庫檢索相關上下文→把上下文塞進提示詞→大模型生成回答。

沒有向量數據庫的RAG，就像讓學生閉卷考試但允許翻書——書倒是給你了，沒目錄、沒頁碼、沒索引，翻到天亮也找不到考點。

Jayant列了組數據：企業級知識庫動輒百萬級文檔，純靠大模型上下文窗口硬塞，成本會指數級爆炸。GPT-4的128K上下文窗口看著寬敞，塞進去10萬字后，推理延遲和費用都夠喝一壺。向量檢索先把范圍縮到最相關的3-5段，再扔給大模型，成本和延遲都能壓到原來的1/10以下。

更隱蔽的收益是準確性。大模型的"幻覺"（Hallucination，編造不存在的信息）在RAG架構下被顯著抑制——因為它被強制要求基于檢索到的真實材料作答，而不是憑參數記憶瞎編。

向量數據庫的戰場：從"能搜"到"快、準、省"

這個賽道現在擠滿玩家。Pinecone靠托管服務起家，Weaviate主打開源和GraphQL接口，Milvus在十億級向量檢索上性能夸張，pgvector則直接寄生在PostgreSQL生態里，讓存量用戶零遷移成本上車。

Jayant特別提到了檢索質量的三層漏斗：召回率（Recall，找沒找全）、精確率（Precision，找得準不準）、延遲（Latency，多快給出結果）。這三者構成不可能三角，不同場景需要不同取舍。

電商搜索要的是"快+準"，寧可漏掉幾個長尾商品，也不能讓用戶等超過200毫秒；科研文獻檢索要的是"全+準"，等個兩三秒可以忍，但關鍵論文漏掉就是事故；合規審查場景則要"全+快"，批量掃描百萬份合同，漏一條風險條款或拖慢審批流程，都是真金白銀的損失。

技術細節上的分化也很明顯。HNSW（Hierarchical Navigable Small World，分層可導航小世界）算法在速度和召回率之間平衡得最好，但內存占用高；IVF（Inverted File Index，倒排文件索引）更省資源，適合超大規模但精度稍遜。沒有銀彈，只有場景適配。

被低估的瓶頸：嵌入模型和存儲成本

向量數據庫本身只是鏈條的一環。上游的嵌入模型（Embedding Model）決定了"坐標身份證"的質量，下游的存儲和計算決定了能撐多大規模。

Jayant指出一個反直覺的事實：OpenAI的text-embedding-ada-002曾經是企業首選，但2024年開源模型（如BGE、E5系列）在MTEB（Massive Text Embedding Benchmark，大規模文本嵌入基準測試）榜單上全面反超，且成本只有API調用的1/50。很多企業開始自建嵌入流水線，把向量數據庫從"黑盒服務"的一部分，變成可完全掌控的基礎設施。

存儲側的壓力同樣真實。一個10億向量的庫，如果每向量768維、用float32存儲，裸數據就接近3TB。加上索引結構，實際占用可能翻3-5倍。云廠商的托管服務按存儲+查詢量計費，賬單跑得比業務增長還快。壓縮技術（量化、降維）和分層存儲（熱數據SSD、冷數據對象存儲）成為剛需，不是優化項。

Jayant的觀察是：「向量數據庫正在從'AI應用的配件'變成'數據架構的核心'。」這個轉變的標志性信號是，傳統數據庫巨頭（Oracle、MongoDB、Snowflake）2024年全部內嵌了向量檢索能力，不是插件，是原生支持。

當數據庫的老炮們集體轉身，說明這不再是邊緣技術，而是主戰場的基礎設施。下一個問題是：你的數據 pipeline，準備好把"語義查詢"當成一等公民了嗎？

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.