網易首頁 > 網易號 > 正文申請入駐

Google把26B模型壓成4B算力，開發者實測賬單直接歸零

2026-04-05 03:30:57　來源: 碳基打工人

北京舉報

分享至

去年Gemma 3發布時，Google把作者 flown 到巴黎。現場演示很炫，但真正重要的發現發生在回酒店后——他跑了自己的測試，確認演示沒騙人。這是開源模型第一次逼近商業大模型的性能邊界。

然后他就栽了。周末把Gemma 3部署在Vertex AI Model Garden測試，忘關機，回來收到一張足以重塑云信仰賬單。他專門做了期YouTube視頻，防止后人重蹈覆轍。

這次Gemma 4發布，作者選了Cloud Run——不用時自動縮容到零。忘關機？隨便你，賬單為零。

四張牌，兩種打法

Gemma 4不是單一模型，是四個。E2B、E4B兩個小的，I9B、I27B兩個大的，各自對應不同取舍。

26B參數那個（I27B）用了混合專家架構（MoE，Mixture of Experts）。磁盤上存26B，推理時只激活4B。像大醫院里的會診制度——不是全院醫生圍著一張床轉，而是按癥狀叫對應科室。能力接近26B，算力成本按4B算。下文實測數據會展示這個差距有多夸張。

多模態是另一塊增量。圖像、音頻、視頻都能進，文本出。小模型（E2B、E4B）能處理帶音頻的視頻；大模型專攻圖像，支持更長上下文。

但對做Agent流水線的人來說，真正改規則的是推理能力和函數調用。

推理+工具調用：Agent的門檻被拆了

推理意味著模型先拆解問題、逐步推導，再輸出答案。以前這種活必須 frontier 模型才干得了，現在Gemma 4能以幾分之一成本接手。函數調用也大幅改進，結構化工具調用的可靠性提升，讓它能被編排進多步驟Agent里當組件用。

這兩個能力疊加，開源模型第一次具備了搭建復雜自動化流程的完整工具箱。

作者把Gemma 4四個尺寸全跑了一遍Cloud Run部署。核心發現：I27B在推理任務上的延遲表現，接近某些專有API的中小模型，成本卻是按秒計費的函數級開銷。

部署棧：從VPC到模型上傳的完整路徑

技術棧分三層。底層是Cloud Run的GPU實例，支持按需啟停；中間是vLLM推理引擎，負責把模型權重轉成可調用服務；頂層是Google Cloud Storage，存模型文件。

關鍵配置在VPC聯網。模型文件通常幾十GB，走公網下載既慢又貴。作者建議開VPC Connector，讓Cloud Run實例通過私有網絡直連云存儲，內網帶寬不計費。

四個尺寸的部署命令差異主要在資源配額。E2B/E4B用單張L4 GPU即可；I9B需要A100 40GB；I27B得A100 80GB或多卡L4。Cloud Run的并發設置建議調到1，避免多請求擠爆顯存。

縮容到零的冷卻時間默認5分鐘，可手動調短。作者測下來，冷啟動加載I27B大約需要90秒——對非實時場景可接受，實時場景建議保持最小實例數為1。

清理環節比部署更重要。Cloud Run服務刪除后，關聯的GPU配額和VPC Connector不會自動釋放，需要手動掃一遍。作者第一次測試時漏了VPC Connector，月底賬單多了17美元閑置費。

性能數據方面，I27B在GSM8K數學推理基準上得分72.4，接近Gemma 3的27B全量版本；但推理成本按激活參數4B算，實際GPU占用只有同規模密集模型的15%-20%。

函數調用的準確率，作者用ToolBench子集測了200輪，結構化輸出合規率91%，失敗案例主要集中在嵌套工具調用超過三層時。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

“Claude Code更新廢了”！思考深度降67%，無法勝任復雜工程任務

量子位 2026-04-07 14:07:07
0 跟貼 0
Claude Code一周份額，一天燒完一半？有人逆向工程發現了7個bug

機器之心Pro 2026-04-07 17:34:08
0 跟貼 0

PMDformer：一個簡單減法實現長時序預測注意力機制糾偏

機器之心Pro 2026-04-07 13:31:21
0 跟貼 0

鬼手想點誰就點誰？LaSM讓GUI智能體把注意力「收回來」

機器之心Pro 2026-04-07 14:27:35
0 跟貼 0
谷歌創始人布林：當年發完Transformer論文，我們太不當回事了

機器之心Pro 2025-12-15 10:18:00
49 跟貼 49

谷歌用一堆不賺錢的AI小玩意，給科技圈上了一課

機器之心Pro 2026-01-26 14:47:02
43 跟貼 43

完球了，GPT-4o之母宣布離職OpenAI

量子位 2026-04-07 17:19:50
2 跟貼 2
免費無限用！谷歌上線了一款AI語音轉寫神器

智東西 2026-04-07 19:09:17
0 跟貼 0

哈薩比斯傳記里講了好多八卦啊

量子位 2026-04-07 16:45:21
0 跟貼 0
「龍蝦之父」吐槽人類互聯網后，終于有人把這當個事兒辦了

機器之心Pro 2026-03-31 11:09:26
0 跟貼 0
【美股盤前】布油突破110美元/桶；Anthropic與谷歌和博通達成千億美元芯片交易；SpaceX計劃6月初進行IPO路演；折疊屏iPhone遭遇工程

每日經濟新聞 2026-04-07 17:38:09
0 跟貼 0
他們全員6點下班，卻讓硅谷脊背發涼

獸樓處 2026-04-06 17:12:07
0 跟貼 0
摩托車事故真實案例，速度危險需注意

白雪不是胖 2026-04-03 17:01:33
4526 跟貼 4526
DeepSeek推理分裂出多重人格，越社交越聰明

量子位 2026-02-04 03:32:03
0 跟貼 0
逼AI當山頂洞人！Claude防話癆插件爆火，網友：受夠了AI廢話

新智元 2026-04-06 17:13:12
1 跟貼 1
羅福莉：Claude訂閱封殺龍蝦背后，真正的出路不是更便宜的token

機器之心Pro 2026-04-07 10:48:02
3 跟貼 3
讓多模態檢索超越SOTA！ReCALL框架化解生成式與判別式的范式沖突

量子位 2026-04-06 23:28:00
0 跟貼 0
易中天，獲獎勵20萬元

極目新聞 2026-04-06 21:04:19
26151 跟貼 26151
告別昂貴賬單，Token直降68%，多智能體動態協作編程來了

機器之心Pro 2026-04-07 13:16:40
0 跟貼 0
AI邪修時刻！Meta聯手MIT投毒，左腳踩右腳強行升天

新智元 2026-04-07 09:43:43
0 跟貼 0
046中考數學真題，求一個令分數表達式為整數的參數值，整除問題

我服子佩 2026-04-06 13:39:49
1 跟貼 1
獨家丨2026款樂道L90將搭載蔚來5nm自研芯片

雷峰網 2026-04-07 18:37:17
0 跟貼 0
模仿學習如何賦能靈巧操作？這有一份「2021-2025」全景技術圖譜

機器之心Pro 2026-04-07 13:23:01
0 跟貼 0
楊元慶，捐贈2億元！

證券時報 2026-04-06 22:44:23
882 跟貼 882
河南小伙，被中東大佬下300輛戰車模型，全村都上了！

乘風笑浪 2026-04-06 14:56:09
3 跟貼 3
7個頂級AI集體撒謊，為救“同伴”篡改文件、偷運數據

鈦媒體APP 2026-04-07 11:01:25
0 跟貼 0
ST諾泰：預計2026年第一季度凈利潤為1.2億元到1.4億元

每日經濟新聞 2026-04-07 19:35:07
0 跟貼 0
“虧大了”？浙江多個小區物業主動撤場，業主卻稱：錢花得冤，背后有筆算不攏的賬

環球網資訊 2026-04-07 14:42:45
1 跟貼 1
趙心童創“三冠”新紀錄，英媒直呼：其統治力“令對手膽寒”

環球網資訊 2026-04-07 06:56:17
125 跟貼 125
毛新宇攜家人到楊開慧烈士陵園祭掃

政知新媒體 2026-04-05 08:48:13
2676 跟貼 2676
南海對決規則變了，美軍飛行員，在萬米高空瑟瑟發抖

小魚搞笑家 2026-04-07 09:28:24
1 跟貼 1
廣州外賣騎手去年平均薪酬15萬，快遞員、貨車司機收入下降

南方都市報 2026-04-07 18:12:09
16 跟貼 16
不止055！神秘水泥模型曝光，中國2萬噸巨艦要來了？

因果 2026-04-06 20:39:40
0 跟貼 0
“祖先給的特權”，河南網友稱祖墳在景區祭祖免票，景區回應：沒過檢票口，一般是附近住戶的祖墳

大風新聞 2026-04-06 15:06:12
2008 跟貼 2008
風箏-交通員叛變，竟帶著機密文件投誠，看鄭耀先如何應對

龍耀影視 2026-04-07 08:15:51
1 跟貼 1
這就是跑高速的反面案例，別再犯這種低級錯誤了，真的害人害己

江峰聊情感 2026-04-05 08:36:33
2 跟貼 2
狗狗跟主人出門,自己知道去到車上,也是很遵守規則!

愛耍酷的喵 2026-04-06 14:14:13
1 跟貼 1
力控與運控的融合，共話具身智能“小腦”進化的破局之道

鈦媒體APP 2026-04-07 16:50:38
0 跟貼 0
燒Token成KPI，8.5萬Meta員工狂刷60萬億Token，爭榜一大哥

機器之心Pro 2026-04-07 13:24:24
0 跟貼 0
Claude爆火研究漏引華人團隊成果，已挨打立正道歉

量子位 2026-04-07 17:03:51
0 跟貼 0

手機 / 數碼

房產 / 家居

Google把26B模型壓成4B算力，開發者實測賬單直接歸零

四張牌，兩種打法

推理+工具調用：Agent的門檻被拆了

部署棧：從VPC到模型上傳的完整路徑

滿嘴謊言！OpenAI奧特曼黑料大起底

英媒：伊朗最高領袖病重昏迷 無法參與任何國家決策

英媒：伊朗最高領袖病重昏迷 無法參與任何國家決策

官宣簽約“AI球員”，這支球隊被罵慘了...

女首富陳麗華離世 被曝生前已分好遺產

10萬億財政轉移支付，被誰拿走了？

不止是大 極狐首款MPV問道V9靜態體驗

態度原創

雅致愜意 感知生活之美

大話西游手游通用套裝哪個好用？仙族首選容止，變身卡不再被克

高校官宣：教師，沒有“非升即走”！

美軍營救飛行員出動155架飛機

英媒：伊朗最高領袖病重昏迷無法參與任何國家決策

英媒：伊朗最高領袖病重昏迷無法參與任何國家決策

女首富陳麗華離世被曝生前已分好遺產

不止是大極狐首款MPV問道V9靜態體驗

雅致愜意感知生活之美