網易首頁 > 網易號 > 正文申請入駐

OpenSearch把向量檢索延遲壓到3毫秒

2026-04-07 01:54:43　來源: 薛定諤的BUG

北京舉報

分享至

去年夏天，AWS內部有個數據沒對外講：用OpenSearch做向量相似度搜索，延遲中位數壓到了3毫秒。這個數字放在RAG（檢索增強生成）場景里，意味著大模型還沒開始"思考"，答案已經候場了。

但Bedrock團隊沒按常理出牌。他們新推的Agentic助手架構，把語義搜索和文本搜索捆在一起用——不是二選一，是讓兩者互相拆臺又互相補位。

為什么"混合檢索"成了必選項

純向量檢索有個經典翻車現場：用戶搜"Apple"，系統返回一堆水果營養學的文檔，把蘋果公司財報埋在第47位。語義理解再強，也猜不透用戶此刻到底想啃的是iPhone還是紅富士。

Bedrock的解法粗暴但有效。查詢進來先走兩條 pipeline：一條把問題轉成向量，去向量庫里找"意思相近"的；另一條保留原始關鍵詞，去倒排索引里找"字面匹配"的。最后把兩撥結果扔給一個重排序模型，讓它決定誰該上浮、誰該沉底。

這套架構的隱性成本在于：你得維護兩套索引，付兩份存儲錢，調兩個召回策略。AWS的底氣是OpenSearch Serverless能自動擴縮容，但中小企業的賬單可能沒那么好看。

Bedrock AgentCore 的隱藏設計

這次發布里有個被低估的組件：AgentCore。它不像Agents for Amazon Bedrock那樣包辦對話管理，而是專注做"工具調用"的編排層——什么時候查數據庫、什么時候調API、什么時候把結果喂給模型，它用一套聲明式配置串起來。

舉個例子。酒店預訂場景里，用戶說"下周三去北京，要離國貿近的"。AgentCore會先把這句話拆成結構化意圖：日期=下周三、城市=北京、區域=國貿。然后觸發兩條并行檢索：向量庫查"商務出行偏好"的歷史畫像，關系庫查實時房態。兩條結果合并后，才進LLM生成最終回復。

關鍵細節：AgentCore允許開發者在"讓LLM自己決定"和"硬編碼流程"之間滑動調節。信任模型就多給自主權，怕幻覺就收緊權限——這個滑動條的位置，往往比模型選型更能決定用戶體驗。

Strands Agents 的入場時機

AWS這次把Strands Agents也塞進了技術棧，位置有點微妙。它負責的是多輪對話中的"記憶管理"：用戶三分鐘前提過的"不要高層房間"，現在還能被準確召回。

但Strands的真正價值可能是"兜底"。當AgentCore的工具調用鏈斷裂——比如API超時、數據庫返回空——Strands能切換對話策略，把硬失敗包裝成軟回復："這部分信息暫時查不到，我先給您推薦幾家評分穩定的？"

這種分層架構的本質，是把"智能"拆成可替換的模塊。今天用Claude 3.5，明天換自研模型，只要向量維度和API契約不變，底層檢索層不用動。

向量數據庫的軍備競賽，OpenSearch卡在哪

OpenSearch的向量引擎去年加了磁盤原生索引（disk-native index），能把十億級向量的存儲成本壓到內存方案的1/10。代價是查詢延遲從亞毫秒爬到毫秒級——對推薦系統無傷大雅，對實時RAG卻是生死線。

Bedrock團隊的應對是"預過濾"。在向量搜索前，先用元數據過濾（比如"只查過去30天的文檔"）縮小候選集，把有效計算量砍掉90%。這招依賴業務場景有可用的結構化標簽，不是所有數據集都能照搬。

更隱蔽的瓶頸在嵌入模型。Bedrock默認用Amazon Titan做文本向量化，但技術文檔里留了鉤子：可以替換成自定義模型。這個設計暗示AWS自己也清楚，通用嵌入在垂直領域經常被微調模型碾壓。

一個待驗證的假設

AWS這次沒公布混合檢索的端到端延遲數據。3毫秒的向量檢索是單點成績，加上關鍵詞檢索、重排序、LLM首token生成，完整鏈路可能奔著500毫秒去。

他們押注的是：用戶寧愿多等半秒，也要答案準一點。但這個權衡在客服場景（用戶急著解決問題）和內容創作場景（用戶愿意多輪打磨）里，可能是相反的。

Bedrock的文檔里埋了句話，可能是整個架構的注腳：「檢索策略的選擇，應該由查詢的意圖置信度動態決定。」翻譯成人話：系統自己也不知道該信向量還是信關鍵詞，所以干脆全跑一遍。

這種"暴力美學"能撐多久？當查詢量從千級飆到百萬級，成本曲線會不會突然變陡？AWS沒給答案，但把調參的開關都擺在了控制臺里。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

ICLR 2026 Oral | Revela：用語言建模重新定義稠密檢索器訓練

機器之心Pro 2026-03-27 10:33:36
0 跟貼 0
Moltbot作者被Claude刁難后：MiniMax M2.1是最優秀的開源模型

量子位 2026-01-29 13:17:17
13 跟貼 13

CMU開源首份Agentic Search日志數據，把Agent拆開給你看

機器之心Pro 2026-02-09 12:05:13
0 跟貼 0

DeepSeek突然更新：專家模式實測效果驚艷，V4要來了？

智東西 2026-04-08 10:14:42
0 跟貼 0
正面硬剛Claude Opus 4.6：我們給GLM-5.1使了三個“絆子”，它居然

智東西 2026-04-08 13:53:36
0 跟貼 0

省token神器3天狂攬4.1k星！19歲小哥開發，信息無損最高省87%

量子位 2026-04-08 11:26:59
0 跟貼 0

多模態檢索新突破，用軟標簽打破傳統剛性映射約束，全面超越CLIP

量子位 2025-11-15 13:18:07
0 跟貼 0
生成式推理再排序，可能會是LLM4RecSys的新突破口嗎？

機器之心Pro 2026-04-08 11:52:53
0 跟貼 0

毫秒級搜索10億生物序列！騰訊×浙大合作推出最強生物序列搜索AI工具——ERAST

生物世界 2026-04-06 15:07:19
0 跟貼 0
Karpathy知識庫「LLM Wiki」火爆了，全網圍觀討論

機器之心Pro 2026-04-07 11:08:13
2 跟貼 2
Claude爆火研究漏引華人團隊成果，已挨打立正道歉

量子位 2026-04-07 17:03:51
1 跟貼 1
最強大腦組合！全球SOTA邏輯和記憶CodeBrain-1&MemBrain1.5開源

機器之心Pro 2026-04-08 10:55:09
0 跟貼 0
Clawdbot進化速度離譜：突然開口說話，給自己捏臉，還能炒股砍價

DeepTech深科技 2026-01-29 18:14:10
0 跟貼 0
Skill vs App：一場入口范式的爭奪

量子位 2026-04-08 12:00:47
0 跟貼 0
河南小伙，被中東大佬下300輛戰車模型，全村都上了！

乘風笑浪 2026-04-06 14:56:09
7 跟貼 7
這個 Skill，把同事一天的工作壓縮到 15 分鐘

人人都是產品經理社區 2026-04-08 07:51:55
2 跟貼 2
張雪說要革掉一些不上進的人

點時新聞 2026-04-07 14:50:35
311 跟貼 311
監控系統出現漏洞，300多人被帶走？海康威視回應

每日經濟新聞 2026-04-07 15:06:19
25442 跟貼 25442
修好五億系統卻遭賴賬，我留下后門靜靜看它倒計時崩潰

曉艾故事匯 2026-04-06 14:21:52
3 跟貼 3
大媽吃面順走大半罐花椒帶走店家：說好多次都沒用管不了

荔枝新聞 2026-04-08 09:43:05
36 跟貼 36
不止動起來：SentiAvatar重新定義3D數字人動作生成范式

機器之心Pro 2026-04-08 11:23:10
0 跟貼 0
CVPR 2026｜1分鐘單圖變4D視頻！AI看圖直接腦補物理規律

機器之心Pro 2026-04-08 12:04:29
0 跟貼 0
再不怕亂引文獻！繞過付費墻，BibAgent把學術核驗轉為證據鏈

新智元 2026-04-08 12:04:39
0 跟貼 0
AI不再「炫技」，淘寶要讓技術解決用戶每一個具體問題

機器之心Pro 2025-10-28 14:02:58
0 跟貼 0
白宮官員：美國停火將于霍爾木茲開放時生效

央視新聞 2026-04-08 07:29:47
7354 跟貼 7354
“祖先給的特權”，河南網友稱祖墳在景區祭祖免票，景區回應：沒過檢票口，一般是附近住戶的祖墳

大風新聞 2026-04-06 15:06:12
2294 跟貼 2294
廣州外賣騎手去年平均薪酬15萬，快遞員、貨車司機收入下降

南方都市報 2026-04-07 18:12:09
1377 跟貼 1377
原來這屆中國AI年輕人，已經卷到業界都驚了

機器之心Pro 2025-12-03 12:03:29
0 跟貼 0
CVPR 2026｜DROID-W：復雜室外動態場景，也能穩定SLAM

機器之心Pro 2026-04-08 11:58:01
0 跟貼 0
“一盒只加一滴”？北冰洋NFC葡萄汁添加量僅0.005%，公司回應：產品沒問題

紅星資本局 2026-04-07 20:40:07
4384 跟貼 4384
美媒：“無法無天的世界代價高昂”

參考消息 2026-04-07 16:50:06
412 跟貼 412
毛新宇攜家人到楊開慧烈士陵園祭掃

政知新媒體 2026-04-05 08:48:13
2639 跟貼 2639
社保基金會：堅決擁護黨中央決定

新京報 2026-04-07 21:41:14
69 跟貼 69
港中文薛天帆團隊：實現 4K 全景視頻生成，普通視頻也能「長出空間」丨CVPR 2026

AI科技評論 2026-04-07 18:45:06
0 跟貼 0
日媒：“日本制造業輸給了中國”

環球網資訊 2026-04-08 07:11:12
750 跟貼 750
今年才買的LABUBU被卸甲水擦成“無臉娃”，客服：建議用橡皮或不含酒精濕巾

界面新聞 2026-04-07 22:00:49
60 跟貼 60
8個月的小狗高度近視，主人花800元給它配了副眼鏡，主人：之前它吃飯要趴地上找大半天#小狗近視 #萌

開屏新聞客戶端 2026-04-07 16:14:33
782 跟貼 782
農民養老金專題座談會在京召開專家建議提高高齡農民基礎養老金

中國青年報 2026-04-07 19:52:06
923 跟貼 923
首個出行MCP！哈啰順風車MCP上線，AI也能替你叫車了

雷科技 2026-04-08 13:17:51
0 跟貼 0
20 萬級六座 SUV 再添猛將全系標配華為乾崑華境 S開啟預售

愛車覺羅PLUS 2026-04-08 13:09:47
0 跟貼 0

手機 / 數碼

房產 / 家居

OpenSearch把向量檢索延遲壓到3毫秒

為什么"混合檢索"成了必選項

Bedrock AgentCore 的隱藏設計

Strands Agents 的入場時機

向量數據庫的軍備競賽，OpenSearch卡在哪

一個待驗證的假設

造出地表最強AI，卻死活不給你用！

裝修工強奸未遂殺雇主 死者兒子跟"媽"聊天發現不對勁

裝修工強奸未遂殺雇主 死者兒子跟"媽"聊天發現不對勁

皇馬1.5億巨星浪費超級單刀 丟球攤手抱怨

楊穎鄧超低調現身觀眾席 支持陳赫話劇

特朗普同意停火兩周 伊朗:接受停火提議

5門5座/新復古造型 繽果Pro將于4月14日開啟預售

態度原創

干細胞抗衰4大誤區,90%的人都中招

齊白石『凌波仙子』

自在恣意 侘寂風別墅

小米18首發！高通驍龍8E6系列新增協處理器：待機更持久

文化符號當“彈藥” 美伊將信息戰帶入新階段

裝修工強奸未遂殺雇主死者兒子跟"媽"聊天發現不對勁

裝修工強奸未遂殺雇主死者兒子跟"媽"聊天發現不對勁

皇馬1.5億巨星浪費超級單刀丟球攤手抱怨

楊穎鄧超低調現身觀眾席支持陳赫話劇

特朗普同意停火兩周伊朗:接受停火提議

5門5座/新復古造型繽果Pro將于4月14日開啟預售

自在恣意侘寂風別墅