如果在兩年前問(wèn)一家大模型公司最需要什么?答案是“有沒(méi)有卡”。但如果今天再問(wèn)同樣的問(wèn)題,答案也許會(huì)變成“好不好用”。
![]()
算力通脹之下
都用不起了
“我們正在制造大量的垃圾算力。”
一位負(fù)責(zé)大模型訓(xùn)練集群的架構(gòu)師曾這樣抱怨。他的焦慮并不是沒(méi)有風(fēng)聲。過(guò)去十年是算力野蠻增長(zhǎng)的十年,規(guī)模的快速擴(kuò)張確實(shí)帶來(lái)了階段性的產(chǎn)業(yè)繁榮。但繁榮背后,是難以忽視的效率困局。
為了追趕GPT-4乃至GPT-5的能力,國(guó)內(nèi)企業(yè)陷入了一場(chǎng)瘋狂的參數(shù)競(jìng)賽。數(shù)以萬(wàn)計(jì)的GPU被高度集成化塞進(jìn)數(shù)據(jù)中心,它們?nèi)找罐Z鳴,但產(chǎn)出的智能效益卻并未如預(yù)期般線性增長(zhǎng)。
這是一種典型的“算力通脹”。行業(yè)習(xí)慣用芯片的理論峰值(Peak Performance)來(lái)衡量?jī)r(jià)值,但在現(xiàn)實(shí)的復(fù)雜的訓(xùn)練任務(wù)中,這些昂貴的芯片往往“有力使不出”。
數(shù)據(jù)顯示,在許多大規(guī)模訓(xùn)練集群中,算力的有效利用率(MFU)僅能維持在40%左右,而在推理場(chǎng)景下,大量的算力更是處于閑置狀態(tài),利用率甚至不足20%。
算法迭代與硬件僵化之間的錯(cuò)位也在加劇這種浪費(fèi),模型架構(gòu)每六個(gè)月就發(fā)生一次巨變,從Transformer到MoE,再到各種稀疏化注意力機(jī)制,而硬件研發(fā)周期長(zhǎng)達(dá)兩年以上。
大量針對(duì)上一代模型優(yōu)化的專用芯片,在交付的那一刻即面臨淘汰。這種“刻舟求劍”式的硬件設(shè)計(jì)模式,讓原本就昂貴的算力折舊變得更加迅速。
在上述背景下,天數(shù)智芯此次發(fā)布的戰(zhàn)略,似乎是有意在回答這個(gè)行業(yè)痛點(diǎn)。他們不再單純強(qiáng)調(diào)單一芯片的峰值參數(shù),而是開(kāi)始談?wù)摗案哔|(zhì)量算力”。
![]()
尋找算力的“有效匯率”
什么是“高質(zhì)量算力”?天數(shù)智芯對(duì)此的定義是:高效率、可預(yù)期、可持續(xù)。
在1月26日的發(fā)布會(huì)上,AI與加速計(jì)算技術(shù)負(fù)責(zé)人單天逸展示了一張略顯復(fù)雜的架構(gòu)路線圖。與以往發(fā)布會(huì)只盯著TFLOPS(每秒浮點(diǎn)運(yùn)算次數(shù))數(shù)值不同,這次他們花了大量篇幅講“利用率”和“兼容性”。
![]()
天數(shù)智芯給出的架構(gòu)路線圖:2025年的天數(shù)天樞架構(gòu),超越英偉達(dá)Hopper,重點(diǎn)解決多精度混合訓(xùn)練的效率;2026年天數(shù)天璇、天數(shù)天璣實(shí)現(xiàn)對(duì)標(biāo)和超越英偉達(dá)Blackwell;而計(jì)劃于2027年面世的天數(shù)天權(quán),則將矛頭直指英偉達(dá)下一代旗艦架構(gòu)Rubin。
這不是一紙空談,而是現(xiàn)實(shí)中已經(jīng)部分實(shí)現(xiàn)的作戰(zhàn)計(jì)劃:2025年推出的天數(shù)天樞架構(gòu),通過(guò)TPC BroadCast(計(jì)算組廣播機(jī)制)Instruction Co-Exec(多指令并行處理系統(tǒng))Dynamic Warp Scheduling(動(dòng)態(tài)線程組調(diào)度系統(tǒng))等自研核心技術(shù),調(diào)用了每一比特算力,實(shí)現(xiàn)算力效率較行業(yè)平均提升60%,在DeepSeek V3場(chǎng)景性能比英偉達(dá)Hopper架構(gòu)高20%。
![]()
同樣的“精打細(xì)算”也延伸到了對(duì)存儲(chǔ)成本的控制上。面對(duì)DDR存儲(chǔ)價(jià)格高企給AI推理環(huán)節(jié)帶來(lái)的顯著壓力,天數(shù)智芯給出了一套“軟硬兼施”的解法:底層依靠kv cache(關(guān)鍵值緩存)量化與無(wú)損反量化技術(shù),將模型推理的實(shí)際內(nèi)存占用直接削減50%以上,從根本上降低對(duì)昂貴存儲(chǔ)資源的依賴;上層則利用自研的IX-SIMU軟件系統(tǒng),像精算師一樣實(shí)時(shí)追蹤存儲(chǔ)市場(chǎng)價(jià)格,為客戶推算出性價(jià)比最高的硬件組合。在波動(dòng)的市場(chǎng)中鎖定“性能與成本最優(yōu)解”的能力,是其技術(shù)護(hù)城河的另一塊拼圖。
![]()
把云端折疊進(jìn)方寸之間
隨著物理A的“ChatGPT 時(shí)刻”到來(lái),這一能實(shí)現(xiàn)物理世界“感知-推理-行動(dòng)”閉環(huán)的技術(shù),成為AI突破數(shù)字邊界的新方向,推動(dòng)智能從虛擬走向現(xiàn)實(shí)。
這次發(fā)布會(huì)上,最讓現(xiàn)場(chǎng)觀眾感到意外的,不是巨大的服務(wù)器機(jī)柜,而是一系列可以塞進(jìn)衣服口袋的小盒子。
天數(shù)智芯副總裁郭為從兜里掏出了那塊名為“彤央TY1000”的算力模組。這個(gè)僅有手掌大小的模塊,采用了699pin接口,卻擁有媲美云端級(jí)別的大算力。
![]()
尺寸的縮小之外,算力形態(tài)的下沉是重中之重。彤央系列包括了集成ARM v9 12核CPU的TY1100,以及被戲稱為“小鋼炮”的TY1100_NX,還有算力高達(dá)300TOPS的TY1200。這些名字聽(tīng)起來(lái)有些枯燥的硬件,實(shí)則承載了國(guó)產(chǎn)GPU突圍的另一條路徑:走出恒溫恒濕的數(shù)據(jù)中心,進(jìn)入物理世界。
天數(shù)智芯給出的對(duì)比數(shù)據(jù)頗具一較高下的火藥味:在近期火爆的DeepSeek 32B大語(yǔ)言模型以及計(jì)算機(jī)視覺(jué)場(chǎng)景下,彤央TY1000的實(shí)測(cè)性能全面優(yōu)于英偉達(dá)的AGX Orin。特別是在自然語(yǔ)言處理上,它讓邊緣設(shè)備不拘泥于執(zhí)行預(yù)設(shè)指令,變成了能理解復(fù)雜邏輯的智能體。
在過(guò)去,具身智能(EmbodiedAI)和工業(yè)機(jī)器人往往受限于端側(cè)算力的貧乏,只能執(zhí)行簡(jiǎn)單的預(yù)設(shè)指令。而現(xiàn)在,隨著端側(cè)算力達(dá)到300TOPS級(jí)別,大模型開(kāi)始真正有機(jī)會(huì)住進(jìn)機(jī)器人的身體里。從智慧門(mén)店到車(chē)路協(xié)同,從軌道交通到工業(yè)制造,算力的觸角正在無(wú)限延伸。
![]()
算力困局:
卡越堆越多,錢(qián)越燒越快
對(duì)于互聯(lián)網(wǎng)大廠和創(chuàng)業(yè)公司來(lái)說(shuō),每一秒鐘的生成都在燃燒經(jīng)費(fèi)。“AI應(yīng)用現(xiàn)在已經(jīng)普及了,Chatbot、文生圖大家每天都在用。但行業(yè)真正的瓶頸只有一個(gè):Token成本太高。”天數(shù)智芯副總裁鄒翾一針見(jiàn)血地指出了問(wèn)題的核心。
鄒翾分享的一組數(shù)據(jù)引起了在場(chǎng)的全體注意。在某頭部互聯(lián)網(wǎng)客戶的Chatbot場(chǎng)景中,天數(shù)智芯的單機(jī)性能比國(guó)際方案提升了一倍以上,而每Token的成本下降了二分之一。
這意味著,同樣的預(yù)算,企業(yè)可以服務(wù)兩倍的用戶,或者讓模型思考得更久一點(diǎn)。
除了成本,另一個(gè)阻礙國(guó)產(chǎn)GPU普及的攔路虎是“遷移門(mén)檻”。長(zhǎng)久以來(lái),CUDA生態(tài)構(gòu)建的高墻讓無(wú)數(shù)開(kāi)發(fā)者望而卻步。天數(shù)智芯沒(méi)有選擇硬碰硬地去推翻現(xiàn)有生態(tài),而是選擇了“兼容”與“好用”。通過(guò)提供與xLLM等主流框架兼容的接口,客戶只需花費(fèi)其他產(chǎn)品1/3的精力即可完成開(kāi)發(fā)調(diào)優(yōu)。
“好用”的哲學(xué)也延伸到了科研領(lǐng)域。從基因分析到海洋地質(zhì)勘探,科學(xué)家們不再需要成為硬件工程師。天數(shù)智芯幫助研究人員從繁復(fù)的底層調(diào)試中解放出來(lái),專注于科學(xué)發(fā)現(xiàn)本身。
在金融領(lǐng)域,研報(bào)生成效率提升70%;在醫(yī)療領(lǐng)域,結(jié)構(gòu)化病歷生成縮短至30秒。這些數(shù)字的背后,是算力真正轉(zhuǎn)化為生產(chǎn)力的過(guò)程。
2026年,對(duì)于中國(guó)GPU行業(yè)注定是不平凡的一年。
隨著天數(shù)智芯在香港鳴鑼,國(guó)產(chǎn)通用GPU四小龍已集齊IPO。但上市從來(lái)不是終點(diǎn),而是更為殘酷的淘汰賽的起點(diǎn)。
資本市場(chǎng)不會(huì)永遠(yuǎn)為“國(guó)產(chǎn)替代”的情懷買(mǎi)單,也不會(huì)一直容忍巨額的研發(fā)虧損。投資人最終關(guān)心的,是有多少客戶真的把業(yè)務(wù)跑在了芯片上,商業(yè)化的成長(zhǎng)是否可以持續(xù)。
天數(shù)智芯交出的答卷是300多家行業(yè)客戶與1000多次實(shí)際部署,是數(shù)千卡集群穩(wěn)定運(yùn)行超1000天,是瑞幸數(shù)千家門(mén)店的智能運(yùn)營(yíng)、太平金科信貸風(fēng)控的提效,以及視源科技打造的數(shù)萬(wàn)間智慧課堂,這些真實(shí)的業(yè)務(wù)負(fù)載,共同構(gòu)成了招股書(shū)中的底色。
![]()
而在算力生態(tài)的主動(dòng)建設(shè)上,天數(shù)聯(lián)手了多家硬件廠商和解決方案提供商,目標(biāo)是讓千行百業(yè)以更高性能、更便捷方式使用AI,實(shí)現(xiàn)算力普惠。
在這場(chǎng)漫長(zhǎng)的算力馬拉松中,領(lǐng)跑者或許會(huì)換了一波又一波。但可以確定的是,那個(gè)靠堆砌參數(shù)、講故事就能融資的草莽時(shí)代,已經(jīng)徹底結(jié)束了。接下來(lái)的競(jìng)爭(zhēng),將屬于那些真正能讓客戶好用的企業(yè)。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.