網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

幻方DeepSeek成功震驚硅谷：富則火力覆蓋，窮則戰(zhàn)術(shù)穿插

2025-01-26 21:41:56　來(lái)源: 上林院

浙江舉報(bào)

分享至

這兩天全網(wǎng)都在談幻方DeepSeek，來(lái)自中國(guó)的AI大模型震驚了硅谷，給中國(guó)人長(zhǎng)了臉。所以幻方老板梁文峰馬上就被邀請(qǐng)參加了總理座談會(huì)。

其他搞AI大模型的人都是互聯(lián)網(wǎng)行業(yè)出來(lái)的，梁文峰則是搞金融發(fā)家的，2015年成立幻方量化，基金規(guī)模從零開(kāi)始幾年時(shí)間就跨上百億、千億門(mén)檻。

但梁文峰賺了錢(qián)，卻把錢(qián)砸到了AI上。之前媒體報(bào)道幻方數(shù)據(jù)中心有上萬(wàn)張英偉達(dá)顯卡，人們還奇怪一家金融行業(yè)投資公司要這么多顯卡干什么，在股市割韭菜不用這么夸張吧。誰(shuí)能想到幻方在AI時(shí)代，把國(guó)內(nèi)互聯(lián)網(wǎng)大廠們按在地上摩擦。

DeepSeek的成功，意義在于在有限算力的條件下挖掘算法潛力。美國(guó)有條件所以大力出奇跡，大廠們瘋狂建AI數(shù)據(jù)中心，都搞出來(lái)5000億美元的星際之門(mén)計(jì)劃，中國(guó)買(mǎi)不到最先進(jìn)的英偉達(dá)芯片只能在算法、推理上下功夫。

幻方DeepSeek的成功驚醒了整個(gè)AI行業(yè)，任何時(shí)候算法、推理都是基礎(chǔ)，算法模型好事半功倍。但是DeepSeek是開(kāi)源模型，美國(guó)人馬上又會(huì)把DeepSeek成功的算法吸收過(guò)去，繼續(xù)砸算力。用軍迷的話來(lái)說(shuō)，中美一貫都是富則火力覆蓋，窮則戰(zhàn)術(shù)穿插。

據(jù)說(shuō)DeepSeek現(xiàn)在已經(jīng)實(shí)現(xiàn)盈利，而且沒(méi)有進(jìn)行過(guò)對(duì)外融資。不知道會(huì)不會(huì)借勢(shì)開(kāi)啟融資，畢竟幻方再賺錢(qián)，也不可能靠自身實(shí)力支持DeepSeek和美國(guó)硅谷巨頭們競(jìng)爭(zhēng)。美國(guó)那邊頭部AI公司動(dòng)不動(dòng)融資幾十億、上百億美元的，沒(méi)有芯片算力、沒(méi)有頂尖人才根本沒(méi)法在這場(chǎng)競(jìng)賽中卷下去。
甲骨文老板埃里森說(shuō)未來(lái)4到5年內(nèi)，任何想?yún)⑴c這場(chǎng)大模型競(jìng)賽的企業(yè)，前沿模型門(mén)檻將高達(dá)1000億美金，而且這場(chǎng)算力軍備競(jìng)賽將永遠(yuǎn)進(jìn)行下去。

DeepSeek的成功可能把這個(gè)門(mén)檻拉下來(lái)不少，但長(zhǎng)遠(yuǎn)來(lái)說(shuō)，大模型競(jìng)賽還是一項(xiàng)巨額投資的領(lǐng)域。這兩天也有消息稱(chēng)，字節(jié)跳動(dòng)2025年資本支出將高達(dá)1500億，主要就在AI領(lǐng)域，雖然字節(jié)予以否認(rèn)，但投資肯定在千億級(jí)別。

最近網(wǎng)上有杭州科技六小龍的說(shuō)法，連杭州市長(zhǎng)、浙江發(fā)改委主任都在媒體面前公開(kāi)做了回應(yīng)。這六家公司是游戲科學(xué)、深度求索（DeepSeek）、宇樹(shù)科技、云深處科技、強(qiáng)腦科技和群核科技。它們都是“互聯(lián)網(wǎng)之都”杭州近年來(lái)崛起的處于新技術(shù)領(lǐng)域前沿、在業(yè)內(nèi)具有影響力的“科技新貴”。在阿里巴巴光芒略微黯淡后，杭州的新生力量成功補(bǔ)位。

深度求索的創(chuàng)始人是80后年輕人梁文峰，他擁有浙江大學(xué)信息與電子工程學(xué)系本科和碩士學(xué)位。2008年起，梁文鋒就開(kāi)始帶領(lǐng)團(tuán)隊(duì)使用機(jī)器學(xué)習(xí)等技術(shù)探索全自動(dòng)量化交易。2015年，幻方量化正式成立，2019年，幻方資金管理規(guī)模就突破百億元。

2021年，幻方量化成為國(guó)內(nèi)首家突破千億規(guī)模的量化私募公司。不過(guò)由于近幾年國(guó)內(nèi)股市的低迷，和監(jiān)管部門(mén)對(duì)量化的限制，幻方量化逐漸降低其資金管理規(guī)模，目前資金管理規(guī)模在數(shù)百億。

由于公司創(chuàng)始人都是計(jì)算機(jī)相關(guān)專(zhuān)業(yè)，而不是金融專(zhuān)業(yè)出身。他們對(duì)投資并不是那么執(zhí)著，目前公司重心已經(jīng)轉(zhuǎn)向AI。早在2016年10月21日，幻方量化就推出第一個(gè)AI模型，第一份由深度學(xué)習(xí)生成的交易倉(cāng)位上線執(zhí)行，使用GPU進(jìn)行計(jì)算。2017年，幻方量化宣稱(chēng)實(shí)現(xiàn)投資策略全面AI化。幻方量化也在2018年就確立以AI為公司的主要發(fā)展方向。

2020年開(kāi)始，幻方累計(jì)投資超億元、占地面積相當(dāng)于一個(gè)籃球場(chǎng)的AI超級(jí)計(jì)算機(jī)“螢火一號(hào)”正式投入運(yùn)作，號(hào)稱(chēng)可以匹敵4萬(wàn)臺(tái)個(gè)人電腦的超級(jí)算力。

2021年，幻方投入10億建設(shè)“螢火二號(hào)”，“配備了1萬(wàn)張A100GPU芯片”，在性能上接近DGX-A100但成本降低了一半，同時(shí)能耗減少了40%。當(dāng)時(shí)國(guó)內(nèi)擁有上萬(wàn)枚GPU的企業(yè)，除了幻方量化外，其他4家都是互聯(lián)網(wǎng)大廠。

2023年7月，幻方量化成立大模型公司DeepSeek，正式進(jìn)軍通用人工智能領(lǐng)域。DeepSeek包括創(chuàng)始人梁文鋒在內(nèi)，僅有139名工程師和研究人員。相比之下，OpenAI有1200名研究人員，Anthropic則有500多名研究人員。

2024年5月，DeepSeek發(fā)布了DeepSeek V2。DeepSeek-V2的API定價(jià)為每百萬(wàn)tokens輸入1元、輸出2元，價(jià)格僅為GPT-4 Turbo的百分之一。

DeepSeek-V2采用了注意力機(jī)制方面的MLA和前饋網(wǎng)絡(luò)方面的DeepSeekMoE架構(gòu)等，實(shí)現(xiàn)了更高經(jīng)濟(jì)性的訓(xùn)練效果和更高效的推理。因?yàn)榇蠓档土薃PI價(jià)格，DeepSeek也被稱(chēng)為“AI界的拼多多”，引發(fā)了國(guó)內(nèi)字節(jié)、阿里、百度等大廠的大模型價(jià)格戰(zhàn)。

2024年12月27日，DeepSeek V3更是橫空出世，火爆全球。V3評(píng)測(cè)成績(jī)不僅超越了阿里巴巴的Qwen2.5-72B和臉書(shū)的Llama 3.1-405B等頂級(jí)開(kāi)源模型，甚至能和GPT-4o、Claude 3.5-Sonnet等頂級(jí)閉源模型一較高下。

更令人震驚的是，DeepSeek V3整個(gè)訓(xùn)練僅花費(fèi)了557.6萬(wàn)美元，在2048塊英偉達(dá)H800 GPU集群上運(yùn)行55天完成，只是OpenAI GPT-4o模型訓(xùn)練成本的不到十分之一。

而2025年1月20日， DeepSeek又發(fā)布了DeepSeek-R1模型。該模型在數(shù)學(xué)、代碼、自然語(yǔ)言推理等任務(wù)上，性能比肩OpenAI o1正式版。R1在后訓(xùn)練階段大規(guī)模使用了強(qiáng)化學(xué)習(xí)技術(shù)，在僅有極少標(biāo)注數(shù)據(jù)的情況下，極大提升了模型推理能力。

幻方的成功代表的是開(kāi)源相對(duì)閉源的一次勝利。早期OpenAI也是開(kāi)源的，但大規(guī)模融資后逐漸選擇了閉源，這也是馬斯克和openAI的鬧翻的原因。現(xiàn)在主流的開(kāi)源模型是Meta的Llama，幻方DeepSeek成功后，大模型的開(kāi)源力量將進(jìn)一步增強(qiáng)。

幻方對(duì)推理成本的消減，比訓(xùn)練更加震撼。DeepSeek架構(gòu)厲害的地方在于，和標(biāo)準(zhǔn)的transformer架構(gòu)相比，并沒(méi)有引入特殊的算子，理論上對(duì)GPU的要求會(huì)降低很多。

推理成本的降低，必將帶來(lái)應(yīng)用的繁榮，豐富當(dāng)前大模型領(lǐng)域的生態(tài)。DeepSeek支持私有部署和自主微調(diào)，為下游應(yīng)用提供了遠(yuǎn)大于閉源模型的發(fā)展空間。

有人說(shuō)DeepSeek的成功，會(huì)利空英偉達(dá)。因?yàn)椴挥媚敲炊郍PU、不用最先進(jìn)的GPU也能實(shí)現(xiàn)性能一流的大模型。甚至還有人說(shuō)這會(huì)刺破美股當(dāng)前由AI革命過(guò)分吹大的泡沫。這其實(shí)有點(diǎn)夸大了。

DeepSeek使用的也是英偉達(dá)的芯片，Scale AI創(chuàng)始人Alexandr Wang稱(chēng)DeepSeek目前擁有約5萬(wàn)臺(tái)英偉達(dá)H100顯卡。而且2024年國(guó)內(nèi)字節(jié)和騰訊分別都訂購(gòu)了23萬(wàn)顆英偉達(dá)芯片，購(gòu)買(mǎi)量位列全球第二和第三，僅次于微軟。

網(wǎng)上也都說(shuō)雖然美國(guó)政府有所限制，但國(guó)內(nèi)企業(yè)還是可以通過(guò)各種渠道購(gòu)買(mǎi)到英偉達(dá)的芯片。所以國(guó)內(nèi)大模型年底對(duì)美國(guó)AI巨頭們的這一波追趕，有可能促使美國(guó)進(jìn)一步加強(qiáng)對(duì)英偉達(dá)芯片出口的限制。長(zhǎng)期來(lái)說(shuō)，中國(guó)AI企業(yè)需要逐步適應(yīng)英偉達(dá)芯片的短缺，或者用華為等其他性能較低的AI芯片來(lái)進(jìn)行替代。

由于在算力上中國(guó)和美國(guó)的差距，短期內(nèi)只會(huì)繼續(xù)加大。中美兩國(guó)在通用人工智能（AGI）的進(jìn)化方向上也會(huì)逐漸分野，中國(guó)企業(yè)重算法、推理，美國(guó)企業(yè)重算力。

DeepSeek的成功，更重要的是打破了國(guó)內(nèi)AI行業(yè)對(duì)美國(guó)巨頭的神話，打破了美國(guó)的算力霸權(quán)，讓中國(guó)企業(yè)更有信心參與AI競(jìng)爭(zhēng)。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.