3月24日,谷歌研究院發(fā)布了一篇論文。
3月25日,全球存儲(chǔ)芯片板塊集體崩盤。
美光股價(jià)暴跌4.5%,SK海力士在韓國市場一度重挫6.2%,三星、西部數(shù)據(jù)、閃迪無一幸免。粗略估算,僅僅一天時(shí)間,這些存儲(chǔ)巨頭的市值蒸發(fā)了超過6200億人民幣。
3月26日,三星、海力士繼續(xù)下跌行情……
![]()
而這一切的導(dǎo)火索,就是谷歌那篇看似平平無奇的論文——TurboQuant。
說實(shí)話,第一次看到這個(gè)新聞的時(shí)候,我也是一臉懵。一個(gè)算法而已,至于嗎?
但當(dāng)我深入了解之后,不由得拍案大呼:這哪是什么算法,這分明是一顆投向存儲(chǔ)芯片行業(yè)的核彈。
今天,我們就來聊聊這個(gè)讓全球內(nèi)存巨頭們徹夜難眠的TurboQuant,到底是什么來頭。
一、先搞清楚一個(gè)問題:KV緩存是什么?
要講清楚TurboQuant,得先了解一個(gè)基本概念——KV緩存。
簡單的說,當(dāng)你和AI聊天的時(shí)候,它之所以能"記住"你們之前的對話,靠的就是KV緩存(Key-Value Cache)。
每次你發(fā)送的消息,大模型都會(huì)把這條消息的"關(guān)鍵信息"(Key)和"具體內(nèi)容"(Value)保存下來。這樣一來當(dāng)你繼續(xù)提問時(shí),它就能準(zhǔn)確定位之前的對話,直接調(diào)用緩存就行。
這就像一個(gè)筆記本,幫你記住之前聊過的所有內(nèi)容。
但問題來了——這個(gè)"筆記本"越記越多,占用的內(nèi)存也越來越大。
假如你和AI聊了一萬字的長文,KV緩存可能就占用幾GB的顯存。對于ChatGPT這種每天處理數(shù)億次對話的系統(tǒng)來說,存儲(chǔ)成本無疑是個(gè)天文數(shù)字。
這就是為什么AI推理這么貴的核心原因。不是算力不夠,是內(nèi)存不夠。
二、TurboQuant到底做了什么?
谷歌的TurboQuant,本質(zhì)上就是一套"壓縮算法"。
但它厲害的地方在于:它把KV緩存壓縮到了3比特,而且零精度損失。
傳統(tǒng)的KV緩存通常用16比特來存儲(chǔ)。TurboQuant直接把緩存砍到3比特,壓縮率超過80%。
更夸張的是,壓縮后的模型性能絲毫不打折扣。在英偉達(dá)H100 GPU上,推理速度最高提升了8倍。
內(nèi)存占用減少6倍,推理速度提升8倍。這就是TurboQuant交出的成績單。
![]()
用谷歌自己的話說,這是"逼近理論極限"的壓縮技術(shù)”。
三、為什么存儲(chǔ)芯片行業(yè)慌了?
現(xiàn)在你可以理解,為什么存儲(chǔ)芯片股價(jià)會(huì)跌跌不休了。
過去兩年,AI產(chǎn)業(yè)的爆發(fā)帶火了一整條產(chǎn)業(yè)鏈。英偉達(dá)的GPU賣瘋了,存儲(chǔ)芯片也跟著水漲船高。為了搶占AI算力,各家都斥巨資搶購高帶寬內(nèi)存,美光、SK海力士、三星的內(nèi)存產(chǎn)能早早就被它們瓜分干凈,連帶著股價(jià)都翻了幾倍(可憐下游被動(dòng)漲價(jià)的手機(jī)廠商,錢沒掙到還被罵得狗血淋頭)。
市場的邏輯很簡單:AI越火,需要的算力越多,需要的內(nèi)存也越多,尤其是高帶寬的HBM內(nèi)存,市場需求旺盛,價(jià)格自然上漲(一箱標(biāo)準(zhǔn)HBM內(nèi)存,其價(jià)值堪比一線城市一套房)。
但TurboQuant的出現(xiàn),直接打破了這個(gè)邏輯。
如果A用更少的資源能夠完成同樣的任務(wù),那存儲(chǔ)芯片的需求還會(huì)那么旺盛嗎?
華爾街最怕的,不是競爭,而是"不再需要"。
谷歌用一篇論文告訴市場:你們之前押注的"AI必須配大內(nèi)存",現(xiàn)在不需要了。
這項(xiàng)顛覆性技術(shù)的提出,證明了deepseek技術(shù)路線的可行性:用更少的內(nèi)存,也能跑同樣質(zhì)量的推理。
![]()
四、但故事還沒結(jié)束:技術(shù)突破≠行業(yè)終結(jié)
看到這里,你可能會(huì)覺得存儲(chǔ)芯片行業(yè)要完蛋了。
但事情沒那么簡單。
首先,TurboQuant目前還只是停留在研究階段,距離大規(guī)模商用還有很大一段距離。技術(shù)落地需要時(shí)間,存儲(chǔ)芯片的短期需求不會(huì)立刻消失。
其次,更高效的AI可能會(huì)催生更多應(yīng)用場景。就像5G提速催生了短視頻一樣,AI推理成本的大幅降低,可能會(huì)帶來新的爆發(fā)式增長點(diǎn)。到時(shí)候,存儲(chǔ)芯片的總需求或許會(huì)不降反升。
而且這項(xiàng)技術(shù)目前只解決了推理階段的內(nèi)存問題,更加消耗算力的AI算力環(huán)節(jié)還沒有受到影響。
歷史總是驚人地相似。
20年前,JPEG壓縮技術(shù)讓圖片文件縮小了10倍,但存儲(chǔ)需求反而爆炸式增長——因?yàn)榇蠹议_始瘋狂拍照了。
10年前,視頻壓縮技術(shù)讓一部電影從幾GB降到幾百M(fèi)B,但存儲(chǔ)需求反而繼續(xù)飆升——因?yàn)榇蠹议_始刷短視頻了。
因此,TurboQuant可能不是存儲(chǔ)芯片的終結(jié)者,而是AI迅速普及的催化劑。
五、對我們普通人意味著什么?
聊完行業(yè),說說對我們普通人的影響。
第一,AI可能會(huì)變得更便宜。
現(xiàn)在用一次GPT-4,背后可能是幾美分的成本,對于高頻使用者來說,成本還是太高了。如果TurboQuant能讓推理成本降低6倍,那AI服務(wù)的價(jià)格也會(huì)跟著大幅下降。說不定以后用AI就是白菜價(jià)了。
第二,手機(jī)AI可能會(huì)更強(qiáng)大。
現(xiàn)在的手機(jī)AI大多依賴云端,因?yàn)楸镜貎?nèi)存不夠用。若是應(yīng)用TurboQuant技術(shù)將壓縮后的模型塞進(jìn)手機(jī),那就意味著未來的Siri、小愛同學(xué)可能真的會(huì)變聰明。
第三,創(chuàng)業(yè)門檻會(huì)降低。
做AI應(yīng)用最大的成本就是算力。如果推理成本大幅降低,更多小公司也能玩轉(zhuǎn)AI,行業(yè)創(chuàng)新會(huì)加速。
![]()
TurboQuant的故事,其實(shí)是科技行業(yè)的縮影。
存儲(chǔ)芯片行業(yè)享受了兩年AI紅利,現(xiàn)在谷歌一篇論文就讓他們市值蒸發(fā)幾千億。這不是谷歌有多狠,而是技術(shù)迭代的必然。
但換個(gè)角度想,TurboQuant本身也是因?yàn)橛辛薃I推理成本高企不下的需求。沒有Transformer架構(gòu),沒有大語言模型,沒有GPU算力,這個(gè)節(jié)約算力的算法也無從談起。
科技行業(yè)就是這樣,一環(huán)扣一環(huán),顛覆與被顛覆往復(fù)不斷循環(huán)。
作為普通人,我們或許無法預(yù)測下一個(gè)技術(shù)突破是什么,但我們可以保持敏感,保持學(xué)習(xí)。
因?yàn)樵谶@個(gè)時(shí)代,唯一不變的就是變化本身。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.