![]()
凌晨兩點,谷歌把Gemma 4扔了出來,號稱"史上最聰明的開放模型"。
這話聽著像例行公關,但看完參數表你會發現,他們這次玩的是"縮骨功"——四種規格里,最小的E2B和E4B專門給手機、樹莓派這類"弱雞"設備準備的,推理時只激活20億和40億參數,延遲壓到接近零。翻譯成人話:你的舊手機終于能離線跑正經AI了,不用每次問個問題都先給云端磕一個。
真正有意思的是26B那個MoE模型。谷歌說它在推理任務里只激活38億參數,卻能保持大模型的知識儲備。這就像一個號稱26人的專家團隊,實際干活時只叫醒4個人,但活兒干得比真·4人團隊漂亮。代價是顯存,26B參數得全塞進內存候著,所以別想拿它當4B用。
![]()
31B版本目前在開源榜單排第三。谷歌還補了一刀:某些測試里,它比參數大20倍的對手還能打。不過網友很快翻出Qwen3.5-27B的跑分,說其實略勝一籌——開源社區的打臉速度永遠比發布會快。
這次四個型號全帶"思考"模式、全支持函數調用、全給140多種語言。最被開發者惦記的是原生system role支持——以前調Gemma得像哄小孩,現在終于能正經寫系統提示詞了。
一位網友的評論被頂得很高:"我們一直在喊,要那種思考不用傳回云端的模型。他們終于聽進去了,而且給的比預期多。"
![]()
Apache 2.0許可證,商用隨便改。谷歌的算盤很清楚:你們不是擔心數據主權嗎?不是嫌云端延遲高嗎?拿走,全在本地跑。分析師說這叫"主導本地AI產業",說白了就是把開發者圈進自己的硬件生態——從Jetson Nano到Blackwell,從高通到聯發科,全給你適配好了。
不過官方給的內存數字只算靜態權重,實際跑起來,框架開銷、KV Cache、上下文窗口都是隱形刺客。想微調的話,顯存需求還得再往上躥一截。
模型已上架Hugging Face、Kaggle、Ollama。Android開發者可以去AICore里摸原型了。
那位網友的后半句其實更值得記住:"現在他們終于聽進去了"——開源社區喊了三年的本地優先,谷歌這次把回應寫進了產品定義里。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.