2003年,谷歌每天處理2億次搜索請求,工程師們卻在為同一件事頭疼——用戶搜"蘋果"到底是要水果還是科技公司?當時的關鍵詞匹配像瞎子摸象,把"蘋果"和"蘋果派"綁在一起,卻漏掉了"iPhone"。
這個問題的解法,藏在一種叫向量化(vectorization)的技術里。簡單說,就是把文字、圖片、聲音變成一串數字。不是隨便的數字,是能被機器"理解"的數字。
從"蘋果"到[0.21, 0.98, 0.45]:一場20年的翻譯革命
人類讀"king",腦子里會蹦出王室、權力、男性。機器呢?它只認二進制。向量化的本質,是給每個概念造一個多維坐標——"king"可能是[0.21, 0.98, 0.45, ...],"queen"是[0.23, 0.97, 0.44, ...]。兩個向量的距離越近,語義越相關。
這套坐標系最狡猾的地方在于:它能捕捉人類自己都說不清的關聯。"king"減"man"加"woman",結果向量會逼近"queen"。不是程序員寫死的規則,是機器從海量文本里自己學出來的。
2013年谷歌發布Word2Vec論文時,這個發現讓NLP(自然語言處理)圈子炸開了鍋。之前 researchers 花十年手工編的語義網絡,被一套無監督學習模型輕松碾壓。
為什么你的推薦比你自己還懂你
Netflix的推薦系統有個公開的秘密:它不看你點了什么,看你"像"誰。每個用戶是一個向量,每部電影也是一個向量。你們的向量夾角越小,系統越敢把《黑鏡》推給剛看完《西部世界》的你。
這套機制背后,向量運算的速度是關鍵。傳統做法用循環逐個處理數據,像一個人手工分揀快遞。向量化之后,NumPy這類庫能把計算扔給GPU并行處理,吞吐量提升幾十倍。
具體有多快?一個百萬維度的矩陣乘法,優化后的向量化實現能把時間從分鐘級壓到毫秒級。這種差距不是量變,是能不能實時響應的分水嶺。
ChatGPT的底層語法:所有輸入都是向量
大語言模型(LLM)的每一層,本質上都在做向量變換。你輸入的句子先被切成token,每個token變成一個高維向量,然后在Transformer架構里被反復旋轉、縮放、投影。所謂的"注意力機制",不過是計算向量之間的相似度權重。
這里有個反直覺的事實:模型從不"認識"文字。它只認識向量空間里的幾何關系。"悲傷"和"快樂"對它來說,是兩個方向相反的箭頭;"巴黎"到"法國"的向量,和"東京"到"日本"的向量幾乎平行。
這種表示法的威力在于通用性。同一份向量空間,可以同時承載文本、圖像、音頻——這就是多模態模型的基礎。CLIP能把"一只貓在沙發上"的文本向量和對應圖片的向量對齊,靠的不是理解,是幾何。
向量化的五個段位:從詞袋到嵌入
技術演進有過明顯的代際劃分。最早的詞袋模型(Bag of Words)只管統計詞頻,"我愛你"和"你愛我"在它眼里完全一樣——都是"我""愛""你"各出現一次。
TF-IDF加了權重,降低"的""是"這類高頻詞的干擾,但本質還是查表。真正的質變來自詞嵌入(Word Embeddings):Word2Vec、GloVe、FastText,把每個詞錨定在一個連續的語義空間里。
再往上是句嵌入(Sentence Embeddings)和文檔嵌入。BERT的出現讓"一詞多義"有了解法——同一個"bank",在"river bank"和"bank account"里會激活不同的向量表示。
最新的趨勢是上下文嵌入和多模態嵌入。OpenAI的text-embedding-3系列能把文本壓縮到幾百維,同時保留跨語言的語義對齊。你搜"如何修自行車",系統能召回"單車故障排查"的中文文檔,靠的是向量空間的語言無關性。
搜索、推薦、RAG:向量數據庫的戰場
2023年向量數據庫賽道突然擁擠。Pinecone、Weaviate、Milvus、Qdrant,加上傳統數據庫的向量擴展(PostgreSQL的pgvector、Redis的RediSearch),都在搶同一個場景:近似最近鄰搜索(ANN)。
RAG(檢索增強生成)架構的爆發是催化劑。大模型有幻覺、知識截止、無法訪問私有數據,解決思路很簡單——先把企業文檔向量化存進數據庫,用戶提問時先檢索相關片段,再塞進prompt當上下文。向量相似度搜索,就是這個流程的瓶頸環節。
一個具體的性能指標:Milvus聲稱能在十億級向量數據集上做到毫秒級查詢延遲。這意味著什么?你可以實時比對用戶上傳的照片和全網圖庫,或者讓客服機器人在幾毫秒內從十萬份產品手冊里找到答案。
但向量檢索有代價。高維空間的"維度災難"讓精確搜索變得不可行,所有人都靠近似算法 trade-off 精度換速度。IVF、HNSW、PQ,這些縮寫背后是無數工程師調參的深夜。
向量化的故事遠沒結束。下一代模型正在壓縮向量維度、提升跨模態對齊精度、降低推理成本。一個懸而未決的問題是:當所有數據都變成向量,隱私和可解釋性怎么保證?你的醫療記錄、財務數據、聊天記錄,本質上都是高維空間里的一個點——足夠接近,就能被推測出來。
如果未來的AI助手能把你過去十年的郵件向量化,然后回答"我三年前那個項目的合作方是誰",你會讓它這么做嗎?
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.