低價接入DeepSeek后，百度再掀算力接力賽

2025-02-07 17:02:49　來源: 降噪

北京舉報

分享至

文｜戴菁

2025年是AI游戲規(guī)則被改寫的一年。

在DeepSeek以中式務(wù)實震驚全球之前，AI大模型競賽是一條由資本和GPU所主導(dǎo)的不計成本之路，參賽者的技術(shù)信仰只有一個Scaling Law，大力出奇跡。DeepSeek-R1掀起的AI普及浪潮，相當于在大路旁邊開辟了一個分岔，它迫使主要參與者開始反思，讓更多人把AI用起來的前提不僅是技術(shù)領(lǐng)先，還要有足夠低的成本、超預(yù)期的體驗。

最直觀的例子是，ChatGPT-o1雖然與DeepSeek能力相當，但一個月200美元的訂閱費已經(jīng)將大多數(shù)普通人拒之門外。幡然醒悟的OpenAI，將1月31日上線的推理模型o3-mini設(shè)置為免費用戶也可使用。

目之所及，AI大模型的花式降本將成為2025年的主線之一。抵達方式有很多，比如高效算力，又或者算法和工程創(chuàng)新。具體到中國，在DeepSeek的激勵之下，BAT、字節(jié)、華為等國內(nèi)AI大廠已經(jīng)加緊在上述方向你追我趕。

2月5日，業(yè)內(nèi)再傳新進展——首個國產(chǎn)芯片萬卡集群正式點亮，本土化AI在高效算力上向前一步。

本土自研萬卡集群正式點亮

在宣布低價接入DeepSeek模型兩天后，百度再公布算力降本新進展。

2月5日，百度智能云宣布點亮昆侖芯三代萬卡集群。這也是國內(nèi)首個正式點亮的自研萬卡集群。

從全球范圍來看，以合理成本獲得可靠的算力，在當前的AI競爭中至關(guān)重要。谷歌、Meta、亞馬遜、特斯拉等公司都在加快自研芯片的進程，希望以此打破算力瓶頸、降低模型成本。與微軟因為GPU供應(yīng)問題而貌合神離的OpenAI，也屢被傳出計劃自研AI芯片。

不過，擁有自研芯片只是實現(xiàn)萬卡集群的第一步。要訓(xùn)練基礎(chǔ)大模型，需要將一萬張以上的加速卡（如GPU、TPU或其他專用AI芯片）組成一個高性能的「超級計算機」，工程難度極高。

中國工程院院士、清華大學(xué)計算機系教授鄭緯民此前表示，當下構(gòu)建國產(chǎn)自主萬卡系統(tǒng)充滿挑戰(zhàn)，但「至關(guān)重要」。

以百度自研萬卡集群為例，它不僅為百度帶來堅實的算力支持，也有望推動模型降本趨勢，成為中國科技界在人工智能領(lǐng)域的又一次突破。

客觀而言，國產(chǎn)芯片早期頂多相當于AI大廠基礎(chǔ)設(shè)施的一個「副本」，更多是作為算力供應(yīng)的一個補充而存在，主要滿足單任務(wù)算力消耗。而在算力空前緊張、技術(shù)追求自主可控的趨勢下，國產(chǎn)智算開始承受更多期待，集群效能最大化成為核心目標。

這個核心目標受市場需求驅(qū)動。目前國內(nèi)客戶對大模型的關(guān)鍵訴求至少有兩個：一是縮短訓(xùn)練時間。百度智能云事業(yè)群總裁沈抖此前提到，由于大模型行業(yè)的發(fā)展日新月異，客戶普遍希望能在兩周內(nèi)完成訓(xùn)練，最晚也應(yīng)在一個月內(nèi)完成。

二是降本。從信息時代到AI時代，降低技術(shù)成本曲線是科技行業(yè)永恒的主題。按照目前的硅谷規(guī)律，模型訓(xùn)練成本每年大約能降低四分之一，但這遠不及市場期待。否則DeepSeek也不會在美國引發(fā)「強震」。據(jù)多方測算，DeepSeek-R1的整體成本約為OpenAI o1模型的1/30。

DeepSeek已經(jīng)讓全世界看到中國AI花小錢辦大事的務(wù)實能力。《華爾街日報》稱之為「夠用就好」策略，英國《金融時報》則直言，「并不是每個司機都需要一輛法拉利。」而百度點亮國產(chǎn)萬卡集群，則屬于中國AI從算力層面尋求成本突破的一個解法。

理論上，超大規(guī)模并行計算能力可實現(xiàn)訓(xùn)練效率躍升，萬卡集群可將千億參數(shù)模型的訓(xùn)練周期大幅降低，滿足AI原生應(yīng)用快速迭代的需求；同時也能支持更大模型與復(fù)雜任務(wù)和多模態(tài)數(shù)據(jù)，支撐Sora類應(yīng)用的開發(fā)。

另一方面，萬卡集群能夠支持多任務(wù)并發(fā)能力，通過動態(tài)資源切分，單集群可同時訓(xùn)練多個輕量化模型，通過通信優(yōu)化與容錯機制，提升集群綜合利用率，實現(xiàn)訓(xùn)練成本指數(shù)級下降。

不過在實踐中，超大規(guī)模集群的調(diào)度效率至關(guān)重要。比如怎么做模型的拆分，如何將訓(xùn)練、微調(diào)、推理任務(wù)混合部署，都會影響算力的有效發(fā)揮。

百度能率先點亮自研萬卡集群，其實背后離不開百舸AI異構(gòu)計算平臺4.0等超前基礎(chǔ)設(shè)施的支撐。

2024年9月升級的百舸4.0屬于大模型降本的「全能型選手」。僅降低通信瓶頸一項，便將帶寬有效性提升到90%以上。在提供容錯與穩(wěn)定性機制上，通過避免由于單卡故障率隨規(guī)模指數(shù)上升而造成的集群有效性大幅下降，保障有效訓(xùn)練率達到98%。

據(jù)了解，在百舸4.0的支撐下，百度自研3萬卡集群也已經(jīng)在路上。

從行業(yè)發(fā)展角度來看，百度通過自研大規(guī)模集群的建設(shè)，不僅解決了自身算力供應(yīng)的問題，也為整個行業(yè)提供了新的思路和方向。

AI應(yīng)用爆發(fā)的杰文斯悖論

中外科技公司狂卷AI成本，行業(yè)影響深遠。

如果沒有DeepSeek「上線20天日活2000萬」的現(xiàn)場教學(xué)，科技界或許很難將大模型降本帶來的變量具像化。盡管業(yè)界領(lǐng)袖都認為這一天早晚會到來。

比如微軟CEO納德拉，在DeepSeek爆發(fā)前夕，他還在社交媒體上布道，「隨著人工智能變得更加高效和普及，我們將看到它的使用量猛增，成為一種永遠無法滿足的商品」，經(jīng)濟學(xué)中的「杰文斯悖論」會在AI領(lǐng)域復(fù)現(xiàn)。

AI芯片初創(chuàng)公司Groq的首席執(zhí)行官此前直言，運行AI模型的成本越低，AI能力顯然就越強，「如果推理成本太高，人們就不會太多使用」，而更高的使用率才能催生更好的模型。

翻譯過來，英偉達的軟肋，未嘗不是AI開發(fā)者以及整個AI生態(tài)的幸事。

在移動互聯(lián)網(wǎng)時代，從應(yīng)用層到基礎(chǔ)設(shè)施的倒三角型利益分配，催生了數(shù)量眾多的超級應(yīng)用和明星獨角獸，支撐了移動生態(tài)的長久繁榮。而在生成式AI時代初期，絕大多數(shù)AI投資最終流向了基礎(chǔ)設(shè)施層企業(yè)——強如微軟，其AI基礎(chǔ)設(shè)施投資中約有一半的錢也要用來買卡。

這一客觀現(xiàn)實無形中抬高了AI應(yīng)用開發(fā)的門檻。

DeepSeek的崛起，意味著AI行業(yè)的發(fā)展正從硬件基礎(chǔ)設(shè)施層向軟件應(yīng)用層轉(zhuǎn)移。花旗在最新產(chǎn)業(yè)研報中預(yù)測：DeepSeek、百度等中國模型的高效低成本將有助于加速全球AI應(yīng)用開發(fā)，可能在全球引發(fā)更多技術(shù)創(chuàng)新，并推動2025年人工智能應(yīng)用的拐點。

舉個例子，百度自研萬卡集群所代表的低成本算力，可以支撐Sora類多模態(tài)應(yīng)用的開發(fā)。目前海外視頻生成的成本并不算低。Runway生成一條5秒視頻的價格為1.2美元，Sora生成一個5秒480P視頻成本約為0.5美元，如果多模態(tài)模型成本繼續(xù)下探，理論上會有更多的多模態(tài)應(yīng)用出現(xiàn)。

而DeepSeek-R1的高效推理能力，可能會直接帶來企業(yè)智能體領(lǐng)域的突破性進展。企業(yè)智能體的目標是處理工作任務(wù)，如果能以更低的推理成本擁有智能體類的AI員工，企業(yè)客戶的盈利能力也將間接得到提升。

為了加速AI應(yīng)用開發(fā)的繁榮，在DeepSeek出圈以來，百度智能云、華為云、阿里云、騰訊云、火山引擎等也在爭相接入DeepSeek模型，并以優(yōu)惠條件吸引更多的企業(yè)客戶和開發(fā)者。

這其中，百度在「砍門檻」上算是比較激進的一家。2月3日百度智能云直接宣布打折——千帆ModelBuilder平臺上的DeepSeek-R1僅為官方刊例價的5折，DeepSeek-V3僅為官方刊例價的3折，并提供限時免費服務(wù)。

「砍門檻」的背后，是百度智能云在推理引擎性能優(yōu)化技術(shù)、推理服務(wù)工程架構(gòu)創(chuàng)新以及推理服務(wù)全鏈路安全保障上的深度融合。

在推理引擎性能上，針對DeepSeek模型MLA結(jié)構(gòu)的計算進行了極致的性能優(yōu)化，并通過計算、通信、內(nèi)存不同資源類型算子的有效重疊及高效的Prefill/Decode分離式推理架構(gòu)等，在核心延遲指標TTFT/TPOT滿足SLA的條件下，實現(xiàn)模型吞吐的大幅度提升。

在推理服務(wù)的工程架構(gòu)上，百度智能云做了嚴格的推/拉模式的性能對比。為了進一步提升系統(tǒng)的穩(wěn)定性和用戶體驗，設(shè)計了請求失敗的續(xù)推機制，這顯著增強了系統(tǒng)的容錯能力和服務(wù)SLA達標率。同時針對多輪對話和system設(shè)定等場景中存在重復(fù)Prompt前綴的情況，實現(xiàn)了主流的KV-Cache復(fù)用技術(shù)，并輔以全局Cache感知的流量調(diào)度策略。

在穩(wěn)定安全保障上，集成了百度智能云獨家內(nèi)容安全算子，實現(xiàn)模型安全增強與企業(yè)級高可用保障，基于大模型全生命周期數(shù)據(jù)安全與模型保護機制，在千帆平臺上的模型均擁有使用安全的安全保障。

DeepSeek模型上線首日，已有超1.5萬家客戶通過千帆平臺進行模型調(diào)用。

「價格戰(zhàn)」背后，本質(zhì)還是一個由于AI應(yīng)用所主導(dǎo)的AI生態(tài)之爭。

在這個過程中，對沖基金橋水判斷，AI對算力的需求不會放緩，反而可能加速。「杰文斯悖論」似乎永不過時。

這也是為什么微軟、Meta、谷歌、百度、字節(jié)今年都在算力上加大投入。根據(jù)目前的公開信息，微軟計劃在截至今年6月份的財年對AI數(shù)據(jù)中心投資800億美元，Meta今年計劃在AI基礎(chǔ)設(shè)施等領(lǐng)域投入650億美元。用谷歌CEO皮查伊的話說，大家都想擁抱更多的發(fā)展機會。

在納德拉宣布微軟在 AI 和云基礎(chǔ)設(shè)施方面的800 億美元后，馬斯克轉(zhuǎn)發(fā)了這一消息

縱觀全球AI競爭，擁有更高性能、更低成本的算力，始終是AI巨頭保證領(lǐng)先地位的重要抓手。

國內(nèi)頭部企業(yè)如百度，除了已經(jīng)路上的3萬卡集群，百舸4.0設(shè)計之初可支持10萬卡用量，這一「留白」為中國AI企業(yè)更低門檻的創(chuàng)新突破積蓄了一定的空間。

憑借其強大的算力優(yōu)勢、成本效益以及百舸平臺的全方位賦能，百度等國內(nèi)AI公司有望為人工智能的發(fā)展注入新的活力。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.