![]()
2026年,AI行業(yè)的賬單終于來了。不是模型訓(xùn)練成本,是推理成本——每生成一個token,真金白銀往外流。
「intelligence-per-token」,這個詞最近在硅谷圈子里傳開了。翻譯成人話:每花1美元,模型能給你多少有用的輸出。聽起來很無趣?這就是關(guān)鍵。前幾年大家追著跑分刷榜,現(xiàn)在實驗室們被逼著回答一個更扎心的問題:你造出來的東西,經(jīng)濟上能持續(xù)運營嗎?
Google的解法:把壓縮算法塞進注意力層
Google給出的答案是TurboQuant。這是個專門針對長上下文推理的壓縮算法。
喂給模型10萬token以上的提示詞——正經(jīng)的文檔分析都得這么干——從來都是內(nèi)存殺手。規(guī)模一上來,服務(wù)成本飆得飛快。
量化(quantization)本身不新鮮。把模型權(quán)重的數(shù)值精度降下來,省內(nèi)存、省算力,行業(yè)標配了。Google這次的不同之處在于,TurboQuant直接把壓縮懟進了注意力層(attention layer)——長上下文處理時內(nèi)存暴漲的罪魁禍首。
這是定點爆破,不是大面積拆遷。
他們宣稱的邊際收益能不能在生產(chǎn)環(huán)境兌現(xiàn),另說。但方向上,至少打在了正確的靶子上。
Sora的撤退:每天1500萬美元燒不動了
更難看的劇本是Sora。OpenAI在2026年3月 reportedly 下線了這個視頻生成工具,日燒算力成本約1500萬美元,收入根本蓋不住。
一個帶著真·興奮感上線的產(chǎn)品,落到這個數(shù),很難撐。
視頻生成天生比文本貴。每秒鐘輸出都要在推理階段吃掉大量算力,文本模型那套降本增效的玩法,搬到視頻上水土不服。你能壓縮,能蒸餾,但說到底,生成幾秒畫面還是要搬動天量數(shù)據(jù)。
Sora的退出讓整個視頻生成賽道都坐不住。Runway、Pika這些同行在觀望。有個問題沒人敢大聲問:按現(xiàn)在的算力成本,消費級視頻生成到底算不算得過來賬?還是說只能賭有人愿意先虧幾年,等硬件追上來?
兩條路,同一個壓力源
TurboQuant和Sora關(guān)停,是同一道壓力題的兩個解法。一個賭更聰明的壓縮能讓貴模型變得起。另一個證明,壓縮不夠用時,只能砍產(chǎn)品。
這會加速什么?投資流向更小、更專的模型——不是因為它們更驚艷,是因為跑得便宜、生意好做。
能力競賽不會消失。但頭一次,它要和另一個無聊得多的問題共享舞臺:你服務(wù)得起嗎?
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.