![]()
去年Gemma 3發布時,作者飛去巴黎看了現場演示。回來自己跑測試,發現演示沒騙人——這是第一個真正追上商業大模型的開源模型。然后他干了一件蠢事:周末在Vertex AI上部署測試,忘了關,回來賬單教他重新做人。
這次Gemma 4發布,作者選了Cloud Run。這玩意兒不用的時候自動縮到零,忘了關?隨便你,一分錢不收。
26B參數的"障眼法"
Gemma 4這次發了四個型號,不是四個版本,是四個完全不同的模型。兩個小的(E2B、E4B),兩個大的(E9B、E26B)。
26B那個值得細說。它用了MoE(混合專家)架構:硬盤里存著260億參數,推理時每個token只激活40億。像醫院會診,不是全院醫生都跑來,只叫相關科室。能力接近26B模型,算力成本跟4B差不多。
作者測了推理開銷。同樣任務,全量26B和MoE 26B的差距,體現在賬單上是倍數關系。
多模態這次也補上了。圖片、音頻、視頻都能進,出的是文字。小模型帶音視頻理解,大模型搞長上下文圖像。但對做Agent的人來說,真正值錢的是后面兩個:推理能力和函數調用。
Agent管道的兩塊拼圖
推理能力指模型先拆解問題、一步步想,再出答案。以前這種活只能找GPT-4級別的模型,現在Gemma 4能干了,成本差一個數量級。函數調用改進更實在——模型能穩定返回結構化工具調用,這是Agent編排多步驟的前提。
這兩個能力湊一塊,Gemma 4才能塞進自動化流程里當齒輪用,而不是當個聊天框。
作者把部署拆成兩部分:先講Gemma 4是什么、為什么自己跑模型能改變你能做什么、技術棧怎么搭、他自己的性能數據。第二部分是純實操:前置條件、VPC配置、模型上傳、四個尺寸的部署命令、清理步驟。
Cloud Run的"自動關機"邏輯
重點在Cloud Run的"縮放到零"。傳統部署模型,實例跑著你就在燒錢,不管有沒有請求。Cloud Run沒流量時實例數降到零,重新有請求時冷啟動。對推理服務來說,冷啟動時間決定了這方案能不能用。
作者測了。Gemma 4的冷啟動在可接受范圍內——具體數字他沒在導讀里放,但暗示了"比你想的快"。
四個模型的部署命令略有不同,主要是內存和CPU配置。E2B最小,E26B需要顯存規劃。VPC setup是為了模型文件的安全傳輸,不上公網。
清理步驟他寫得特別細。顯然去年的賬單創傷還沒好。
文章最后沒給總結,停在一個問題上:當你的模型能自動關機、按需喚醒,你會把它用在什么以前不敢想的地方?
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.