網易首頁 > 網易號 > 正文申請入駐

Google把26B模型壓成4B算力，開發者賬單直接砍了80%

2026-04-05 03:51:06　來源: 字節漫游指南

北京舉報

分享至

去年Google請我去巴黎參加Gemma 3發布會。現場demo很炫，但真正的價值是我在工位上跑完測試才確認的——演示沒騙人。

Gemma 3是第一個真正追上商業大模型的開源版本。沒打贏Gemini，但達到了Gemini一年前的水平。對一個能私有化部署的模型來說，這個跨越足夠讓產品經理們重新評估技術棧。

然后我踩了個坑。

周末在Vertex AI Model Garden部署Gemma 3測試，忘關機。周一賬單一出，我和云基礎設施的關系需要重新談判。我專門做了期YouTube視頻，防止別人重蹈覆轍。

這篇文章是贖罪。

Gemma 4剛發布，跳躍幅度比Gemma 3更大。這次我選Cloud Run部署——不用時自動縮容到零。忘關機？隨便你。一分錢不用付。

四個模型，四種活法

Gemma 4不是單模型，是四個獨立變體。兩小兩大，各有取舍。

26B版本值得細看。它用MoE（混合專家）架構：磁盤上存260億參數，推理時每token只激活40億。像一家大公司，遇到問題只叫相關專家，全員不待命。能力接近260億模型，算力成本只有40億級別。推理環節的賬單差異，下面數據會說清楚。

除了尺寸，Gemma 4加了多模態輸入。圖像、音頻、視頻都能喂，輸出純文本。小模型（E2B、E4B）能處理帶音頻的視頻；大模型處理圖像+超長上下文。

但對搭agent流水線的人來說，真正改規則的是兩項升級：推理能力和函數調用。

推理能力讓模型先拆解問題再回答，不是直接跳結論。以前必須上前沿模型的復雜任務，現在Gemma 4能以幾分之一成本搞定。函數調用也大幅改進，模型能穩定返回結構化工具調用——這是agent編排多步驟的核心前提。

這兩項加起來，開源模型第一次能在agent場景里和閉源產品掰手腕。

Cloud Run的零賬單邏輯

為什么選Cloud Run？

傳統模型托管是租機器。開一小時，付一小時。睡著也計費。Cloud Run是事件驅動：有請求就啟動容器，沒請求就縮到零實例。冷啟動時間對Gemma 4的較小模型在可接受范圍，26B大模型需要預熱策略，但非高頻場景下成本曲線依然碾壓常駐實例。

我的測試配置：2 vCPU、8GB內存、NVIDIA L4 GPU（24GB顯存）。Gemma 4的E4B（40億激活參數）在這個環境下跑得很順。26B MoE模型需要更精細的批次策略，但單用戶交互場景下延遲可控。

關鍵數字：同等調用量下，Cloud Run方案比我去年Vertex AI的"忘關機"賬單低了約80%。具體比例取決于你的流量模式——波動越大，優勢越明顯。

部署棧的實際結構

整個流水線分四層。

存儲層用Cloud Storage放模型權重。Gemma 4的完整套件從Hugging Face拉取后轉存，26B模型約50GB，E4B約9GB。建議開對象版本控制，方便回滾。

容器層用自定義Docker鏡像。基礎鏡像選Google的深度學習容器，疊加上vLLM（一個開源推理引擎）和Gemma 4的特定優化分支。vLLM的PagedAttention機制對MoE模型的內存效率很關鍵。

服務層是Cloud Run本身。關鍵參數：--gpu=1 --max-instances=1 --concurrency=1。concurrency設1是為了避免GPU內存爭用，多用戶場景需要隊列層或升配到A100。

網絡層建議綁VPC。模型文件走內部IP從Cloud Storage拉取，不走公網。出口流量只留給實際API響應。

我的測試數據

跑了兩組基準：單輪問答和多輪agent任務。

E4B在GSM8K（數學推理數據集）上準確率71%，接近Gemma 3的27B版本。延遲方面，首token生成時間（TTFT）約800ms，吞吐約45 tokens/秒。對非實時agent足夠用。

26B MoE模型同數據集準確率沖到82%，但TTFT漲到2.3秒——MoE的路由計算有開銷。批量推理時效率反超，單條請求建議加緩存層。

函數調用測試用我自己設計的工具集：查日歷、發郵件、調內部API。Gemma 4的結構化輸出穩定性比Gemma 3提升明顯，錯誤格式率從12%降到3%以下。這個指標對生產環境是生死線。

多模態部分只測了圖像描述。E4B對截圖文字識別準確率夠用，但復雜圖表需要上26B。視頻理解我暫時沒跑，官方說E2B/E4B支持，實際效果待驗證。

誰該現在動手

三類場景匹配度最高。

內部工具團隊：已有數據不出域的合規要求，Gemma 4+Cloud Run比買閉源API+簽數據處理協議快兩周落地。成本模型也透明，沒有"用量暴漲后重新談判"的隱憂。

低頻高價值任務：比如月度財務對賬、季度合規審查。這類任務不需要常駐模型，Cloud Run的零縮容特性完美契合。

agent原型驗證：函數調用+推理能力的組合，讓Gemma 4成為測試多步驟agent的最便宜選項。驗證完邏輯再決定是否上更大的閉源模型。

不適合的場景也明確：實時對話（延遲敏感）、超高并發（Cloud Run的實例上限和冷啟動是瓶頸）、需要最強多模態能力的場景（Gemini 1.5 Pro still wins）。

那臺忘關機的機器教會我的

去年那筆賬單有個細節：Vertex AI的計費粒度是分鐘級，但最低收費一小時。我周五晚上11點部署，周一早上9點發現，按72小時計費。實際調用時間可能只有測試的20分鐘。

Cloud Run的計費粒度是100毫秒。縮到零后，只有存儲費用——模型文件存在Cloud Storage，標準存儲約$0.02/GB/月。26B模型50GB，月存成本1美元。

這個對比本身說明了基礎設施選擇的權重。模型能力差距在縮小，但部署成本的結構性差異，可能直接決定一個項目能不能活到下一輪融資。

Google這次把Gemma 4的權重同時推到了Hugging Face、Kaggle和Vertex AI Model Garden。我選Cloud Run是因為需要那個"忘關機也不心疼"的安全感。你的安全感來自哪里？

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

“Claude Code更新廢了”！思考深度降67%，無法勝任復雜工程任務

量子位 2026-04-07 14:07:07
0 跟貼 0
Claude Code一周份額，一天燒完一半？有人逆向工程發現了7個bug

機器之心Pro 2026-04-07 17:34:08
0 跟貼 0

鬼手想點誰就點誰？LaSM讓GUI智能體把注意力「收回來」

機器之心Pro 2026-04-07 14:27:35
0 跟貼 0

PMDformer：一個簡單減法實現長時序預測注意力機制糾偏

機器之心Pro 2026-04-07 13:31:21
0 跟貼 0
谷歌創始人布林：當年發完Transformer論文，我們太不當回事了

機器之心Pro 2025-12-15 10:18:00
49 跟貼 49

谷歌用一堆不賺錢的AI小玩意，給科技圈上了一課

機器之心Pro 2026-01-26 14:47:02
43 跟貼 43

完球了，GPT-4o之母宣布離職OpenAI

量子位 2026-04-07 17:19:50
5 跟貼 5
免費無限用！谷歌上線了一款AI語音轉寫神器

智東西 2026-04-07 19:09:17
1 跟貼 1

【美股盤前】布油突破110美元/桶；Anthropic與谷歌和博通達成千億美元芯片交易；SpaceX計劃6月初進行IPO路演；折疊屏iPhone遭遇工程

每日經濟新聞 2026-04-07 17:38:09
0 跟貼 0
「龍蝦之父」吐槽人類互聯網后，終于有人把這當個事兒辦了

機器之心Pro 2026-03-31 11:09:26
0 跟貼 0
他們全員6點下班，卻讓硅谷脊背發涼

獸樓處 2026-04-06 17:12:07
0 跟貼 0
DeepSeek推理分裂出多重人格，越社交越聰明

量子位 2026-02-04 03:32:03
0 跟貼 0
河南小伙，被中東大佬下300輛戰車模型，全村都上了！

乘風笑浪 2026-04-06 14:56:09
1 跟貼 1
模仿學習如何賦能靈巧操作？這有一份「2021-2025」全景技術圖譜

機器之心Pro 2026-04-07 13:23:01
0 跟貼 0
毛新宇攜家人到楊開慧烈士陵園祭掃

政知新媒體 2026-04-05 08:48:13
2612 跟貼 2612
讓多模態檢索超越SOTA！ReCALL框架化解生成式與判別式的范式沖突

量子位 2026-04-06 23:28:00
0 跟貼 0
“祖先給的特權”，河南網友稱祖墳在景區祭祖免票，景區回應：沒過檢票口，一般是附近住戶的祖墳

大風新聞 2026-04-06 15:06:12
2008 跟貼 2008
2026企業AI大考：別秀PPT，亮出你的「用蝦」真功夫

36氪 2026-04-07 20:54:15
0 跟貼 0
楊元慶，捐贈2億元！

證券時報 2026-04-06 22:44:23
901 跟貼 901
AI邪修時刻！Meta聯手MIT投毒，左腳踩右腳強行升天

新智元 2026-04-07 09:43:43
0 跟貼 0
美情報局：中國AI衛星圖像成伊朗“開山斧”，幾分鐘鎖定美軍

子桑說 2026-04-07 17:27:32
0 跟貼 0
風箏-鄭耀先被催婚了！一套邏輯下來，說的徐百川啞口無言

龍耀影視 2026-04-03 09:03:13
3 跟貼 3
飛向月球不到48小時 "阿耳忒彌斯2號"廁所先撐不住了

澎湃新聞 2026-04-06 22:05:04
312 跟貼 312
廣汽憋了3年的電子架構，終于舍得拿出來見人

爬蟲飼養員 2026-04-07 21:09:52
0 跟貼 0
“虧大了”？浙江多個小區物業主動撤場，業主卻稱：錢花得冤，背后有筆算不攏的賬

環球網資訊 2026-04-07 14:42:45
3 跟貼 3
紫牛頭條｜對話張雪師父“牙哥：賽車夢想托付張雪，我的夢想是為中國飛機出份力

揚子晚報 2026-04-06 22:26:58
182 跟貼 182
伊朗媒體發布被擊落美軍機圖像

星晨視頻 2026-04-05 17:18:15
1004 跟貼 1004
趙心童創“三冠”新紀錄，英媒直呼：其統治力“令對手膽寒”

環球網資訊 2026-04-07 06:56:17
125 跟貼 125
美媒：“無法無天的世界代價高昂”

參考消息 2026-04-07 16:50:06
11 跟貼 11
不止055！神秘水泥模型曝光，中國2萬噸巨艦要來了？

因果 2026-04-06 20:39:40
0 跟貼 0
風箏-交通員叛變，竟帶著機密文件投誠，看鄭耀先如何應對

龍耀影視 2026-04-07 08:15:51
1 跟貼 1
7個頂級AI集體撒謊，為救“同伴”篡改文件、偷運數據

鈦媒體APP 2026-04-07 11:01:25
0 跟貼 0
廣州外賣騎手去年平均薪酬15萬，快遞員、貨車司機收入下降

南方都市報 2026-04-07 18:12:09
11 跟貼 11
挪威專家：美國已贏且還會繼續贏，但只有東大駐軍，中東才會太平

阿龍聊軍事 2026-04-07 20:27:41
0 跟貼 0
蒸餾同事skill火了，我想蒸餾老板，可以嗎？

混沌學園官方 2026-04-07 20:18:44
0 跟貼 0
浙江仙通：2025年度凈利潤約2.22億元，同比增加29.22%

每日經濟新聞 2026-04-07 21:11:09
0 跟貼 0
英特爾盤前拉升一度漲超3%，現漲超2%

每日經濟新聞 2026-04-07 21:33:29
0 跟貼 0
Claude爆火研究漏引華人團隊成果，已挨打立正道歉

量子位 2026-04-07 17:03:51
0 跟貼 0
上海一公園內，游客爬上櫻花樹拍照，結果整棵樹倒下！網友：不堪重婦！

上觀新聞 2026-04-07 16:33:38
35 跟貼 35
伊朗媒體發布被擊落美軍機圖像，擊中兩架“黑鷹”直升機和一架C-130軍事運輸機

現代快報 2026-04-06 05:27:36
0 跟貼 0

字節漫游指南

有態度網友ytd

1200文章數 14關注度

往期回顧全部

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

手機

房產

游戲

公開課

軍事航空

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
13個毀掉你生活的不良習慣
李彥宏：百度離破產30天

手機 / 數碼

房產 / 家居

Google把26B模型壓成4B算力，開發者賬單直接砍了80%

四個模型，四種活法

Cloud Run的零賬單邏輯

部署棧的實際結構

我的測試數據

誰該現在動手

那臺忘關機的機器教會我的

滿嘴謊言！OpenAI奧特曼黑料大起底

臺灣一些人被指準備"潤" 賴清德曾稱兒子在美"學功夫"

臺灣一些人被指準備"潤" 賴清德曾稱兒子在美"學功夫"

官宣簽約“AI球員”，這支球隊被罵慘了...

女首富陳麗華離世 被曝生前已分好遺產

10萬億財政轉移支付，被誰拿走了？

不止是大 極狐首款MPV問道V9靜態體驗

態度原創

4月21日的手機圈，不敢想象會有多刺激

重磅！三亞擬出安居房新政！

模組救場還是官方重做?GTA4重制版引發玩家激烈爭論

美軍營救飛行員出動155架飛機

女首富陳麗華離世被曝生前已分好遺產

不止是大極狐首款MPV問道V9靜態體驗