今年年初DeepSeek突破性亮相,無疑正在釋放出強大的“蝴蝶效應”,驅動行業大模型從“規模競賽”向“價值創造”的轉型。
背后的原因在于,DeepSeek驗證了模型性能與算力成本的“可解耦性”,不但為行業提供了降本增效的新范式,也加速了大模型從實驗室走向產業端,更帶動了行業智能化的進一步“走深向實”。
![]()
也正因此,近期包括醫療、交通、制造、教育等千行萬業都在通過DeepSeek一體機等各種方式,全方位接入DeepSeek。但值得注意的是,已部署DeepSeek的企業在短時間內就迅速跨越了“試水”階段,其應用場景也從單一模塊測試轉向全業務流的貫通,但因業務系統對接后用戶量的激增,也導致了其算力需求也呈現出“指數級”增長,而傳統的線性擴容模式難以應對大模型高并發、低時延場景下的推理需求,算力底座升級迭代壓力驟增,新的難題由此而生。
換句話說,如何將DeepSeek的能力實實在在的落地到行業場景中,仍然是擺在許多企業面前的一道難題,在DeepSeek與行業大模型之間,還需要架設一座全新的“橋梁”。
在此背景下,近期昇騰宣布推出大EP推理解決方案,以更高性能、更高并發以及更優體驗等優勢,為大模型底座加裝了“新引擎”,在不斷降低DeepSeek應用門檻的同時,也大幅縮短行業客戶邁向大模型應用的周期,可以說真正讓大模型應用融入千行萬業駛入了“快車道”。
01.
DeepSeek爆火背后,
看大模型進化的趨勢與挑戰
事實上,DeepSeek爆火背后,更以其超低的訓練成本和堪比頂尖閉源模型的效果引起了業界的轟動。除此之外,DeepSeek此前在開源周上公布的一系列推理和訓練架構的方案,以及推理成本和盈利空間,其超高的利潤同樣也引起了業界廣泛的討論——那就是大模型底座從底層技術到基礎設施乃至生態體系的接下來發展和進化趨勢是什么?未來又會出現哪些新的挑戰呢?
![]()
一是,從產業趨勢上看,未來大模型將會分化成“兩派”,并引發新一輪的“百模千態”,其中一派是技術摸高,即頭部企業將會持續突破模型能力邊界,但伴隨而來的是算力需求激增,比如當前一些國外科技巨頭就持續推進模型規模擴張,如Grok3需調用20萬張H100 GPU,單次訓練成本高達數億美元。
另一派是工程創新,即更關注便捷、易用,具備性價比的平臺。最為典型的就是DeepSeek通過工程創新,打造出了一套兼顧成本與性能的蒸餾/微調方案,就極大地降低了大模型的部署門檻,促進了大模型應用的普及。
二是,從技術演進看,未來大模型向大量小專家方向演進將成為趨勢所在。具體來看,少量大專家模式會走向性能摸高,而大量小專家模式會走向創新普及,且兩種方案會長期共存。
大量小專家模式也被稱之為大規模跨節點專家并行(Expert Parallelism / EP)路線,其技術特點是將專家Expert分布到更多的卡上,可以減少每張卡權重加載的時延,減少權重的顯存占用,能夠顯著的提升單卡并行的路數(batch size)。同時,每個專家計算路數的提升還可以提高矩陣乘的效率,從而實現更大的吞吐和更低的時延。
打個比方,比如醫院過去采用的是“全科專家制”,資源集中導致檢查冗余、患者耗時費錢且掛號難,而此后改為“專科專家制”,通過各科室配備專屬團隊(如眼科5人、耳鼻喉科10人、外科20人),通過專業化分工和專家團隊擴容,由此實現精準診療與高效分流,這就能顯著降低患者候診難度。
三是,從具體挑戰看,盡管大規模專家并行EP將成為主流趨勢,但專家的增多也讓如何優化負載均衡、降低通信開銷、并充分利用底層資源也成為了技術的難點,同樣以醫院為例,當醫院的某個科室中擁有5個專家,但如果都是1號專家特別忙,其他專家特別閑,這就是專家的“負載不均”;同樣,當多科會診時,專家數量的激增也會導致意見互達的溝通耗時,反而會超過診療時長,由此化解通信耗時占比高的挑戰也十分重要。
另一個需要“直面”的難題,就是目前國內只能購買所謂“定制版”的芯片H20,但其本質上只是H100的“閹割版本”,它的AI算力僅為H100的15%,這也意味著其單卡算力瓶頸會迫使大規模集群部署時性能不穩定,而高昂成本與低效產出之間也會形成“剪刀差”,且其設計也難以適配當前的MoE架構,同時高“batch size”還會讓系統的時延暴增,更無法發揮大EP路線所獨有的高性能、高吞吐、大并發的技術優勢,最終導致越來越多的行業和企業錯失自主創新的“窗口期”,因此尋找替代方案可謂“箭在弦上”。
毫無疑問,DeepSeek帶來的最大的啟示在于,它重構了行業競爭邏輯,讓基座模型的競爭從參數規模轉向價值密度,同時也使得大EP路線成為了未來大模型的技術進化趨勢,但與此同時如何進一步打破大模型技術門檻高、部署復雜、算力受限、成本高昂等多重挑戰,同樣對整個行業而言也是“迫在眉睫”。
02.
五大技術“組合拳”,
深度解讀昇騰大EP方案
昇騰大EP推理解決方案就此“應運而生”,該方案通過多專家負載均衡和極致通信優化,實現了更高吞吐和更低時延;此外,通過降低單卡顯存占用,也使得其單卡性能提升到3倍,在支持更高并發的同時,也顯著降低了客戶的部署成本,更優化了客戶的應用體驗,可以說為大模型底座加裝了一套“新引擎”,不僅為DeepSeek的部署落地搭建了一座全新橋梁,也讓更多的大模型應用從“遙不可及”變為“觸手可及”。
![]()
那么,昇騰大EP推理解決方案究竟有何關鍵的技術“組合拳”呢?我們可以從五個維度做更加深入的“解讀”。
“組合拳”之一:MoE負載均衡,通過自動尋優、自動配比、自動預測、自動降解,實現了備份節點和副本專家的靈活可擴展、高可用和極致均衡。其中,靈活可擴展指的是路由專家與共享專家隔離部署,實現更大的靈活性;高可用,是能夠支持定時遷移和動態遷移;而極致均衡,主要體現在支持專家熱度在線感知和熱度預測,還支持專家間、卡間以及機間的負載均衡。
“組合拳”之二: PD分離部署,基于多種創新技術,提升系統有效吞吐50%。對比傳統部署方案,由于PD同節點部署,導致計算訪存資源競爭“加劇”,而目前也有友商推出PD靜態分離方案,能提升系統資源利用率,但不夠靈活,無法適應動態調整的場景,而華為創新autoPD的“自適應”PD分離部署方案,能夠自動感知負載變化,無需人工介入,自動伸縮P、D實例,結合多級緩存內存資源池化,能夠實現系統有效吞吐50%+。
“組合拳”之三: 雙流/多維混合并行,能夠使系統平均性能提升30%。其中,Prefill micro-batch雙流并行,在Prefill階段,通過拆分Batch成兩組更細粒度的Batch,實現計算和通信相互掩蓋;而MoE expert專家雙流并行,則是讓共享專家和路由專家實現計算獨立,并利用Cube和Vector計算單元,實現兩條Stream并行計算;Weight預取雙流并行,利用L2 Cache大容量,通信和權重加載采用兩條Stream并行,在降低權重加載時間的同時,也有效提升了matmul算子性能。
“組合拳”之四: MLAPO融合算子,能夠有效降低計算耗時70%。目前在MLA前處理階段,傳統方案往往采用多算子串行,導致頻繁占用內存、通信等資源,整體計算耗時占比高;而昇騰MLAPO融合算子,則是將小算子融合成單一算子,實現Vector和Cube計算并行處理,大大減少了開銷,也降低計算耗時。
“組合拳”之五:適配MTP,通過自研解碼算法,大幅提升推理效率與性能。在MTP推理場景下,通過支持MTP并優化,讓模型的推理效率提升了最大1.8倍;而通過自研的DraftDecoding算法,能夠實現一次生成多個token并行校驗,不僅采用率提升,且冗余計算減少,多用戶并發提高了2倍。
值得一提的是,昇騰大EP解決方案,除了能夠滿足互聯網、金融、電力、通信等行業頭部客戶大規模實現集群部署之外,同樣還為客戶采用一體機場景向大EP推理場景的“平滑”擴容升級開辟了新路徑——通過交換機實現參數面互聯,基于現有組網架構軟件升級,就能使集群規模從8卡、16卡靈活拓展至百卡乃至千卡級別,真正讓企業能夠以最小的成本突破算力底座瓶頸,實現AI大模型集群規模化部署落地的“躍遷”。
由此可見,在五大關鍵技術創新“組合拳”的加持下,AI大模型系統猶如一臺搭載了“渦輪增壓”的賽車,無論是在吞吐、延時、并發等性能上都全面得以“拉滿”,為千行萬業的用戶帶來了AI大模型應用的全新體驗。
03.
降低大模型應用門檻,
按下行業智能化“快進鍵”
站在當下看未來,如果說DeepSeek通過“輕量化訓練+高效推理”開辟的創新范式,使其在數千卡算力約束下打造出了對標全球頭部的高性能大模型,一改往日大模型訓練“大力出奇跡”的畫風,不僅打破了業內對于單卡性能的盲目崇拜,更徹底顛覆了全球基座大模型市場的傳統格局。
那么,在當前算力受到“桎梏”,自主創新刻不容緩的大背景下,昇騰AI通過基礎軟硬件持續進化,以及多年來在“方案+性能+生態+落地”方面形成的體系性優勢,也讓其成為了未來加速大模型技術和應用創新落地的“最優解”,在為行業提供更多可參考和借鑒的大模型底座創新方案的同時,也真正為行業智能化的加速按下了“快進鍵”。
![]()
首先,方案最全。從預訓練到微調到強化學習,從一體機到大EP推理集群,昇騰AI都能提供大模型全流程方案的覆蓋,同時昇騰也是目前業界首個可以復現DeepSeek R1強化學習流程,并沉淀到套件,能夠助力客戶快速完成后訓練,這種端到端的能力以及服務,無疑能夠最大化的滿足客戶多樣化的場景需求。
其次,性能最優。基于MTP、MLA、大EP并行等技術打造出來的軟硬件協同親和的昇騰架構,還能充分利用底層資源,最大化釋放大模型底座的極致性能,而這也讓昇騰成為了國內唯一能夠與DeepSeek團隊進行深度適配并實現“Day 0”發布的平臺。更為重要的是,昇騰絕對算力與能效比也顯著領先,非常適合大并發高密度的計算場景,且性價比更高,長期運維成本更低,也能夠提升客戶綜合性價比,進一步滿足落地經濟性的要求。
再有,生態最好。昇騰平臺打造了Atlas系列硬件、異構計算架構CANN、全場景AI框架昇思MindSpore、昇騰應用使能以及一站式開發平臺ModelArts等產品體系,同時軟件開源開放,并兼容業界主流框架及推理引擎,也能更好地使能業界高效自主創新,也讓越來越多的行業和企業可快速獲取基于昇騰的開發能力和場景化的解決方案,實現高效業務“閉環”。
最后,落地最快。依托本地化服務與團隊布局,昇騰還構建了國內大模型應用落地的全周期支撐體系,能夠實現大模型應用的快速驗證與商用化落地。例如,就在近日,科大訊飛就率先宣布了其基于昇騰算力大規模跨節點專家并行集群推理的落地,而這也是繼DeepSeek公布其MoE模型訓練推理方案后,業界首個基于自研算力的全新解決方案。不僅如此,自DeepSeek問世之后,超過100+的合作伙伴也迅速基于昇騰打造了DeepSeek方案、超過25+人工智能中心也實現了DeepSeek的部署上線,真正打通大模型應用落地的“最后一公里”。
總的來說,無論是昇騰大EP推理解決方案的“應運而生”,還是昇騰AI在行業中的創新實踐,都驗證了這種基于“方案最全+性能最優+生態最好+落地最快”的體系化優勢,將會進一步釋放出自主算力巨大的“乘數效應”,并讓“自主算力+模型開源”的組合創新在中國大模型技術和應用創新落地中占據更多的“一席之地”,由此降低大模型應用門檻,讓千行萬業能夠加速邁向智能化新進程。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.