網易首頁 > 網易號 > 正文申請入駐

BigQuery 新功能：SQL 直調 17 萬 + AI 模型，3800 萬行數據處理成本僅 2 美元

2026-02-04 13:34:37　來源: InfoQ

北京舉報

分享至

作者 | Steef-Jan Wiggers

譯者 | 田橙

Google 近期針對 BigQuery 推出了面向開源模型的第三方生成式 AI 推理功能。這一更新允許數據團隊直接使用簡單的 SQL 語句，部署并運行來自 Hugging Face 或 Vertex AI Model Garden 的任何模型。該接口目前處于預覽階段，其最大的亮點在于消除了對獨立機器學習（ML）基礎設施的需求，系統會自動啟動計算資源、管理端點，并在任務完成后通過 BigQuery 的 SQL 接口自動清理資源。

這項新功能解決了困擾數據團隊已久的痛點。在過去，運行開源模型往往意味著需要管理 Kubernetes 集群、配置端點以及在多種工具之間反復切換。Virinchi T 在一篇關于此次發布的 Medium 文章中指出：

這一過程需要多種工具協同、不同的技能儲備以及巨大的運維開銷。對于許多數據團隊來說，這種摩擦意味著即便模型本身是免費且公開的，AI 能力依然顯得遙不可及。

然而，得益于 BigQuery 的 SQL 接口，整個工作流現在被簡化為僅需兩條 SQL 語句。用戶首先通過一條 CREATE MODEL 語句來創建模型，只需指定 Hugging Face 的模型 ID（例如 sentence-transformers/all-MiniLM-L6-v2）或 Vertex AI Model Garden 中的模型名稱。BigQuery 會根據默認配置自動分配計算資源，部署過程通常在 3 到 10 分鐘內即可完成，具體時長取決于模型大小。

部署完成后，用戶可以使用 AI.GENERATE_TEXT（針對語言模型）或 AI.GENERATE_EMBEDDING（針對嵌入模型）直接對 BigQuery 表中的數據進行推理查詢。平臺通過 endpoint_idle_ttl 選項管理資源的生命周期，該功能會自動關閉閑置端點以節省費用。此外，在批處理任務結束后，用戶還可以通過 ALTER MODEL 語句手動卸載端點。

為了滿足生產環境的需求，該功能還支持高度定制化。用戶可以直接在 CREATE MODEL 語句中設定機器類型、副本數量以及端點閑置時間。通過 Compute Engine 預留功能，還可以鎖定 GPU 實例以確保性能穩定。當不再需要某個模型時，只需執行一條簡單的 DROP MODEL 語句，系統便會自動清理所有關聯的 Vertex AI 資源。

Google 在官方博客中將該系統描述為提供“精細的資源控制”和“自動化的資源管理”，旨在讓團隊在不脫離 SQL 環境的情況下，找到性能與成本之間的最佳平衡點。2025 年 9 月發布的一篇早期博客曾展示，利用類似的開源嵌入模型處理 3800 萬行數據，成本僅需約 2 到 3 美元。

目前，該功能已支持超過 1.3 萬個 Hugging Face 文本嵌入模型和超過 17 萬個文本生成模型，涵蓋了 Meta 的 Llama 系列和 Google 的 Gemma 家族。需要注意的是，所選模型必須符合 Vertex AI Model Garden 的部署要求，包括區域可用性和配額限制。

Virinchi T 強調了這一變革對不同角色的意義：

對于數據分析師而言，你現在可以無需離開 SQL 環境，也不必等待工程資源支持，就能直接實驗 ML 模型。對于數據工程師而言，構建由機器學習驅動的數據管道變得極其簡單，再也不用維護獨立的 ML 基礎設施。

此次發布標志著 BigQuery 將與 Snowflake 的 Cortex AI 以及 Databricks 的 Model Serving 展開直接競爭，后兩者同樣提供基于 SQL 的 ML 推理能力。而 BigQuery 的競爭優勢可能在于其與 Hugging Face 龐大模型庫在數據倉庫內的深度集成，這對于已經在 Google Cloud 上運行業務的用戶具有極強的吸引力。

目前，關于 Gemma 模型的文本生成以及嵌入生成的相關文檔和教程已正式上線。

https://www.infoq.com/news/2026/01/bigquery-sql-huggingface-managed/

聲明：本文為 InfoQ 翻譯，未經許可禁止轉載。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.