![]()
文|戴菁
2025年是AI游戲規(guī)則被改寫的一年。
在DeepSeek以中式務(wù)實震驚全球之前,AI大模型競賽是一條由資本和GPU所主導(dǎo)的不計成本之路,參賽者的技術(shù)信仰只有一個Scaling Law,大力出奇跡。DeepSeek-R1掀起的AI普及浪潮,相當于在大路旁邊開辟了一個分岔,它迫使主要參與者開始反思,讓更多人把AI用起來的前提不僅是技術(shù)領(lǐng)先,還要有足夠低的成本、超預(yù)期的體驗。
最直觀的例子是,ChatGPT-o1雖然與DeepSeek能力相當,但一個月200美元的訂閱費已經(jīng)將大多數(shù)普通人拒之門外。幡然醒悟的OpenAI,將1月31日上線的推理模型o3-mini設(shè)置為免費用戶也可使用。
目之所及,AI大模型的花式降本將成為2025年的主線之一。抵達方式有很多,比如高效算力,又或者算法和工程創(chuàng)新。具體到中國,在DeepSeek的激勵之下,BAT、字節(jié)、華為等國內(nèi)AI大廠已經(jīng)加緊在上述方向你追我趕。
2月5日,業(yè)內(nèi)再傳新進展——首個國產(chǎn)芯片萬卡集群正式點亮,本土化AI在高效算力上向前一步。
01
本土自研萬卡集群正式點亮
在宣布低價接入DeepSeek模型兩天后,百度再公布算力降本新進展。
2月5日,百度智能云宣布點亮昆侖芯三代萬卡集群。這也是國內(nèi)首個正式點亮的自研萬卡集群。
從全球范圍來看,以合理成本獲得可靠的算力,在當前的AI競爭中至關(guān)重要。谷歌、Meta、亞馬遜、特斯拉等公司都在加快自研芯片的進程,希望以此打破算力瓶頸、降低模型成本。與微軟因為GPU供應(yīng)問題而貌合神離的OpenAI,也屢被傳出計劃自研AI芯片。
![]()
不過,擁有自研芯片只是實現(xiàn)萬卡集群的第一步。要訓(xùn)練基礎(chǔ)大模型,需要將一萬張以上的加速卡(如GPU、TPU或其他專用AI芯片)組成一個高性能的「超級計算機」,工程難度極高。
中國工程院院士、清華大學(xué)計算機系教授鄭緯民此前表示,當下構(gòu)建國產(chǎn)自主萬卡系統(tǒng)充滿挑戰(zhàn),但「至關(guān)重要」。
以百度自研萬卡集群為例,它不僅為百度帶來堅實的算力支持,也有望推動模型降本趨勢,成為中國科技界在人工智能領(lǐng)域的又一次突破。
客觀而言,國產(chǎn)芯片早期頂多相當于AI大廠基礎(chǔ)設(shè)施的一個「副本」,更多是作為算力供應(yīng)的一個補充而存在,主要滿足單任務(wù)算力消耗。而在算力空前緊張、技術(shù)追求自主可控的趨勢下,國產(chǎn)智算開始承受更多期待,集群效能最大化成為核心目標。
這個核心目標受市場需求驅(qū)動。目前國內(nèi)客戶對大模型的關(guān)鍵訴求至少有兩個:一是縮短訓(xùn)練時間。百度智能云事業(yè)群總裁沈抖此前提到,由于大模型行業(yè)的發(fā)展日新月異,客戶普遍希望能在兩周內(nèi)完成訓(xùn)練,最晚也應(yīng)在一個月內(nèi)完成。
二是降本。從信息時代到AI時代,降低技術(shù)成本曲線是科技行業(yè)永恒的主題。按照目前的硅谷規(guī)律,模型訓(xùn)練成本每年大約能降低四分之一,但這遠不及市場期待。否則DeepSeek也不會在美國引發(fā)「強震」。據(jù)多方測算,DeepSeek-R1的整體成本約為OpenAI o1模型的1/30。
![]()
DeepSeek已經(jīng)讓全世界看到中國AI花小錢辦大事的務(wù)實能力。《華爾街日報》稱之為「夠用就好」策略,英國《金融時報》則直言,「并不是每個司機都需要一輛法拉利。」而百度點亮國產(chǎn)萬卡集群,則屬于中國AI從算力層面尋求成本突破的一個解法。
理論上,超大規(guī)模并行計算能力可實現(xiàn)訓(xùn)練效率躍升,萬卡集群可將千億參數(shù)模型的訓(xùn)練周期大幅降低,滿足AI原生應(yīng)用快速迭代的需求;同時也能支持更大模型與復(fù)雜任務(wù)和多模態(tài)數(shù)據(jù),支撐Sora類應(yīng)用的開發(fā)。
另一方面,萬卡集群能夠支持多任務(wù)并發(fā)能力,通過動態(tài)資源切分,單集群可同時訓(xùn)練多個輕量化模型,通過通信優(yōu)化與容錯機制,提升集群綜合利用率,實現(xiàn)訓(xùn)練成本指數(shù)級下降。
![]()
不過在實踐中,超大規(guī)模集群的調(diào)度效率至關(guān)重要。比如怎么做模型的拆分,如何將訓(xùn)練、微調(diào)、推理任務(wù)混合部署,都會影響算力的有效發(fā)揮。
百度能率先點亮自研萬卡集群,其實背后離不開百舸AI異構(gòu)計算平臺4.0等超前基礎(chǔ)設(shè)施的支撐。
2024年9月升級的百舸4.0屬于大模型降本的「全能型選手」。僅降低通信瓶頸一項,便將帶寬有效性提升到90%以上。在提供容錯與穩(wěn)定性機制上,通過避免由于單卡故障率隨規(guī)模指數(shù)上升而造成的集群有效性大幅下降,保障有效訓(xùn)練率達到98%。
![]()
據(jù)了解,在百舸4.0的支撐下,百度自研3萬卡集群也已經(jīng)在路上。
從行業(yè)發(fā)展角度來看,百度通過自研大規(guī)模集群的建設(shè),不僅解決了自身算力供應(yīng)的問題,也為整個行業(yè)提供了新的思路和方向。
02
AI應(yīng)用爆發(fā)的杰文斯悖論
中外科技公司狂卷AI成本,行業(yè)影響深遠。
如果沒有DeepSeek「上線20天日活2000萬」的現(xiàn)場教學(xué),科技界或許很難將大模型降本帶來的變量具像化。盡管業(yè)界領(lǐng)袖都認為這一天早晚會到來。
比如微軟CEO納德拉,在DeepSeek爆發(fā)前夕,他還在社交媒體上布道,「隨著人工智能變得更加高效和普及,我們將看到它的使用量猛增,成為一種永遠無法滿足的商品」,經(jīng)濟學(xué)中的「杰文斯悖論」會在AI領(lǐng)域復(fù)現(xiàn)。
![]()
AI芯片初創(chuàng)公司Groq的首席執(zhí)行官此前直言,運行AI模型的成本越低,AI能力顯然就越強,「如果推理成本太高,人們就不會太多使用」,而更高的使用率才能催生更好的模型。
翻譯過來,英偉達的軟肋,未嘗不是AI開發(fā)者以及整個AI生態(tài)的幸事。
在移動互聯(lián)網(wǎng)時代,從應(yīng)用層到基礎(chǔ)設(shè)施的倒三角型利益分配,催生了數(shù)量眾多的超級應(yīng)用和明星獨角獸,支撐了移動生態(tài)的長久繁榮。而在生成式AI時代初期,絕大多數(shù)AI投資最終流向了基礎(chǔ)設(shè)施層企業(yè)——強如微軟,其AI基礎(chǔ)設(shè)施投資中約有一半的錢也要用來買卡。
這一客觀現(xiàn)實無形中抬高了AI應(yīng)用開發(fā)的門檻。
DeepSeek的崛起,意味著AI行業(yè)的發(fā)展正從硬件基礎(chǔ)設(shè)施層向軟件應(yīng)用層轉(zhuǎn)移。花旗在最新產(chǎn)業(yè)研報中預(yù)測:DeepSeek、百度等中國模型的高效低成本將有助于加速全球AI應(yīng)用開發(fā),可能在全球引發(fā)更多技術(shù)創(chuàng)新,并推動2025年人工智能應(yīng)用的拐點。
舉個例子,百度自研萬卡集群所代表的低成本算力,可以支撐Sora類多模態(tài)應(yīng)用的開發(fā)。目前海外視頻生成的成本并不算低。Runway生成一條5秒視頻的價格為1.2美元,Sora生成一個5秒480P視頻成本約為0.5美元,如果多模態(tài)模型成本繼續(xù)下探,理論上會有更多的多模態(tài)應(yīng)用出現(xiàn)。
而DeepSeek-R1的高效推理能力,可能會直接帶來企業(yè)智能體領(lǐng)域的突破性進展。企業(yè)智能體的目標是處理工作任務(wù),如果能以更低的推理成本擁有智能體類的AI員工,企業(yè)客戶的盈利能力也將間接得到提升。
為了加速AI應(yīng)用開發(fā)的繁榮,在DeepSeek出圈以來,百度智能云、華為云、阿里云、騰訊云、火山引擎等也在爭相接入DeepSeek模型,并以優(yōu)惠條件吸引更多的企業(yè)客戶和開發(fā)者。
這其中,百度在「砍門檻」上算是比較激進的一家。2月3日百度智能云直接宣布打折——千帆ModelBuilder平臺上的DeepSeek-R1僅為官方刊例價的5折,DeepSeek-V3僅為官方刊例價的3折,并提供限時免費服務(wù)。
「砍門檻」的背后,是百度智能云在推理引擎性能優(yōu)化技術(shù)、推理服務(wù)工程架構(gòu)創(chuàng)新以及推理服務(wù)全鏈路安全保障上的深度融合。
在推理引擎性能上,針對DeepSeek模型MLA結(jié)構(gòu)的計算進行了極致的性能優(yōu)化,并通過計算、通信、內(nèi)存不同資源類型算子的有效重疊及高效的Prefill/Decode分離式推理架構(gòu)等,在核心延遲指標TTFT/TPOT滿足SLA的條件下,實現(xiàn)模型吞吐的大幅度提升。
在推理服務(wù)的工程架構(gòu)上,百度智能云做了嚴格的推/拉模式的性能對比。為了進一步提升系統(tǒng)的穩(wěn)定性和用戶體驗,設(shè)計了請求失敗的續(xù)推機制,這顯著增強了系統(tǒng)的容錯能力和服務(wù)SLA達標率。同時針對多輪對話和system設(shè)定等場景中存在重復(fù)Prompt前綴的情況,實現(xiàn)了主流的KV-Cache復(fù)用技術(shù),并輔以全局Cache感知的流量調(diào)度策略。
在穩(wěn)定安全保障上,集成了百度智能云獨家內(nèi)容安全算子,實現(xiàn)模型安全增強與企業(yè)級高可用保障,基于大模型全生命周期數(shù)據(jù)安全與模型保護機制,在千帆平臺上的模型均擁有使用安全的安全保障。
DeepSeek模型上線首日,已有超1.5萬家客戶通過千帆平臺進行模型調(diào)用。
![]()
「價格戰(zhàn)」背后,本質(zhì)還是一個由于AI應(yīng)用所主導(dǎo)的AI生態(tài)之爭。
在這個過程中,對沖基金橋水判斷,AI對算力的需求不會放緩,反而可能加速。「杰文斯悖論」似乎永不過時。
這也是為什么微軟、Meta、谷歌、百度、字節(jié)今年都在算力上加大投入。根據(jù)目前的公開信息,微軟計劃在截至今年6月份的財年對AI數(shù)據(jù)中心投資800億美元,Meta今年計劃在AI基礎(chǔ)設(shè)施等領(lǐng)域投入650億美元。用谷歌CEO皮查伊的話說,大家都想擁抱更多的發(fā)展機會。
![]()
在納德拉宣布微軟在 AI 和云基礎(chǔ)設(shè)施方面的800 億美元后,馬斯克轉(zhuǎn)發(fā)了這一消息
縱觀全球AI競爭,擁有更高性能、更低成本的算力,始終是AI巨頭保證領(lǐng)先地位的重要抓手。
國內(nèi)頭部企業(yè)如百度,除了已經(jīng)路上的3萬卡集群,百舸4.0設(shè)計之初可支持10萬卡用量,這一「留白」為中國AI企業(yè)更低門檻的創(chuàng)新突破積蓄了一定的空間。
憑借其強大的算力優(yōu)勢、成本效益以及百舸平臺的全方位賦能,百度等國內(nèi)AI公司有望為人工智能的發(fā)展注入新的活力。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.