隨著圖像、視頻、音頻等非結構化數據日益成為信息主體,傳統信息系統在處理多模態內容時面臨理解與檢索的瓶頸。本文首先圍繞“向量檢索”這一人工智能關鍵技術,探討如何通過嵌入模型將多模態數據轉化為特征向量,并利用輕量級向量數據庫(如sqlite-vec)實現高效的相似性檢索,接著系統介紹了從“以圖搜圖”到“以文搜圖”的具體實現方法,最后對向量檢索在檢索增強生成(RAG)、視頻內容搜索等復雜AI應用中的潛力進行了展望。
數據是信息系統的核心要素。在傳統認知中,信息系統擅長處理規整的、存儲在表格里的結構化數據,如學生信息、商品庫存或交易記錄。然而,感知技術的發展使我們正身處一個數據爆炸的時代,圖像、視頻、音頻、文檔等非結構化數據已成為信息的主流形式。面對這些多模態數據,傳統信息系統往往力不從心。如何讓信息系統“看懂”圖片、“聽懂”聲音,并實現跨模態的智能檢索?這正是多模態向量檢索技術要解決的核心問題。
向量檢索技術簡介:
從“數據”走向“向量”
要理解多模態數據,可以借助嵌入(Embedding)模型與向量化技術的支持。我們可以將嵌入模型理解為一個高效的“翻譯官”,它能將非結構化的原始數據(如“一只在草地上奔跑的金毛犬”這段文本,或一張對應的照片)轉換成一串能夠捕捉其核心特征的數字,即特征向量(如圖1)。
![]()
圖1
通過深度學習模型(如CLIP模型),語義相近的內容會被“翻譯”成空間中距離相近的向量。例如,“狗”和“貓”之類的文本,在向量空間中的距離會非常接近,而相對來說,“狗”和“電腦”之類的距離,則比“動物”要遠一些。一旦數據被轉化為向量,復雜且模糊的語義相似度比較,就轉變為精確且高效的向量空間距離計算,如余弦相似度。這些向量被存儲在專門的向量數據庫中,從而實現快速、可擴展的相似性搜索和分析,這便是向量檢索的基石。
向量數據庫的選擇:
輕量化利器sqlite-vec
要實現多模態檢索,需一個能夠高效存儲與檢索向量的“倉庫”。盡管市面上已有諸多專業向量數據庫,但在教學環境、個人項目或資源受限的中小型應用中,它們的部署復雜度與資源消耗往往較高。考慮到高中信息技術課程普遍以SQLite作為數據庫教學基礎,sqlite-vec這一輕量級工具顯得尤為適用。
sqlite-vec是一個專注于向量搜索、無任何外部依賴的SQLite擴展,支持跨平臺使用。其使用方式延續了SQLite的簡潔風格,開發者只需聲明一個帶有向量列的“虛擬表”,隨后使用標準的INSERT INTO語句插入向量數據,再通過形如“SELECT…WHERE content_embedding MATCH?”的SQL語句執行相似性搜索。這種將強大功能封裝于熟悉接口之下的設計,大幅降低了向量檢索的開發門檻與技術復雜度。代碼如圖2所示。
![]()
圖2
sqlite-vec支持pip安裝,操作便捷。性能測試顯示,相較于傳統手動遍歷計算向量相似度的方式,sqlite-vec在查詢效率上具備壓倒性優勢,足以勝任中小規模檢索場景的需求。
功能展示:
從“以圖搜圖”到“以文搜圖”
要實現向量檢索功能,首先需將原始數據轉化為向量并存入數據庫。sqlite-vec本身不提供向量化功能,需借助其他模型完成特征提取。作為中小學廣泛使用的深度學習工具,XEduHub內置了多種向量化模型,成為sqlite-vec的理想搭檔。XEduHub提供的向量特征提取任務如下表所示。
![]()
借助XEduHub的特征提取功能,我們可以輕松實現以圖搜圖、以文搜圖之類的AI檢索功能。
01
以圖搜圖
“以圖搜圖”指用戶上傳一張圖片,系統即可在海量圖庫中快速找出視覺內容相似的圖像。其實現流程如下:
首先,將圖庫中所有圖像轉換為特征向量并存入數據庫;其次,將用戶上傳的查詢圖片也轉換為特征向量;最后,在向量數據庫中將查詢向量與庫中所有圖像向量進行相似度比較,按相似度從高到低返回結果。測試代碼如圖3所示。
![]()
圖3
02
以文搜圖
“以文搜圖”指用戶通過輸入文字描述來搜索相關圖片。XEduHub所采用的CLIP模型屬于多模態理解模型,能夠將圖像和文本映射到同一向量空間。因此,文本“一只在沙灘上的金毛犬”與其對應圖片的向量在空間中位置鄰近。
“以文搜圖”的實現流程與“以圖搜圖”基本一致,區別僅在于:先使用CLIP的文本編碼器將用戶輸入的自然語言轉換為文本向量,隨后在向量數據庫中進行檢索,找出語義最匹配的圖片。
測試代碼中僅需修改生成查詢向量的部分(如圖4)。
![]()
圖4
更多AI功能的實現
向量檢索的能力遠不止于此,它還是實現更復雜AI應用的腳手架。
01
檢索增強生成
檢索增強生成是當前提升大語言模型回答質量、抑制其“幻覺”的關鍵技術。其核心思路是:在讓大模型回答問題之前,先從外部知識庫(如專業文檔、教材)中檢索出相關信息,并將這些信息作為上下文提供給模型,從而生成更準確的答案。在此過程中,向量檢索扮演了“信息篩選員”的角色。例如,當用戶提問“光合作用的主要階段是什么?”時,系統會先將問題轉化為向量,隨后在向量化的知識庫中快速檢索出最相關的文檔片段,再將這些片段交給大語言模型,生成精準且有據可依的答案。
02
視頻畫面搜索
視頻可以視為一系列連續幀圖像(可能包含音頻)的集合。對視頻內容的檢索可借鑒圖像檢索的技術路徑。我們可以使用視頻描述或視頻問答模型,對視頻關鍵幀進行抽幀與理解,生成每一幀的特征向量,或對整個視頻內容生成概括性向量。當用戶搜索“視頻中貓咪跳上沙發的片段”時,系統可將該文本轉換為向量,并與視頻關鍵幀的向量進行匹配,從而快速定位事件發生的時間點,實現精準的“視頻畫面搜索”。
總結
信息系統是信息技術課程的核心概念。在傳統教學中,我們多聚焦于結構化數據的處理。然而,人工智能的快速發展,尤其是多模態理解與檢索技術的成熟,正推動傳統信息系統實現功能上的跨越。向量檢索僅僅是這輪變革中的一環,它使信息系統進化為能夠“理解”豐富世界、支持智能問答與跨模態搜索的“智能信息助手”。借助sqlite-vec等輕量化工具,這些前沿技術變得觸手可及,更易融入教學實踐。
本文作者:
謝作如
浙江省溫州科技高級中學
文章刊登于《中國信息技術教育》
2025年第23期
引用請注明參考文獻:
謝作如.當信息系統遇上人工智能之向量檢索——多模態數據分析初體驗[J].中國信息技術教育,2025(23):80-82.
![]()
歡迎訂閱
識別上方二維碼即可訂閱
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.