![]()
谷歌上周剛發Gemma 4,號稱"單卡跑27B"的輕量化模型。我本地部署完,風扇轉得像直升機——48GB顯存直接吃滿,這哪是輕量化,分明是顯存刺客。
官方文檔藏著一句小字:INT4量化版才能單卡跑。但默認推的是BF16精度,完整版需要雙卡A100。換句話說,普通玩家看到的"本地可跑",和實際能用的版本,中間差著兩萬塊錢硬件。
更微妙的是速度。27B在RTX 4090上每秒8個token,寫段郵件要等半分鐘。作為對比,同顯存占用下,Llama 3.1 70B的量化版能跑到15token/s。谷歌這刀法,精準砍在"能跑"和"能用"的縫隙里。
社區里有人翻出Gemma 4的技術報告腳注:「INT4精度下部分數學任務準確率下降12%」。這才是沒人說的真相——你要么買雙卡,要么接受一個"不太聰明"的版本。輕量化敘事,從來都是硬件廠商的共謀。
目前Hugging Face評論區最高贊是:"感謝谷歌,讓我意識到云端API其實挺便宜的。"
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.