<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      DeepSeek-V3橫空出世,GPT-4時代終結(jié)?

      0
      分享至

      眾所周知,過去一年間,大語言模型(LLM)領(lǐng)域經(jīng)歷了翻天覆地的變化...

      回望2023年底,OpenAI的GPT-4還是一座難以逾越的高峰,其他AI實驗室都在思考同一個問題:OpenAI究竟掌握了哪些獨特的技術(shù)秘密?
      一年后的今天,形勢已發(fā)生根本性轉(zhuǎn)變,據(jù)Chatbot Arena排行榜顯示,原始版本的GPT-4(GPT-4-0314)已跌至第70位左右。目前,已有18家機構(gòu)的70個模型在性能上超越了這個曾經(jīng)的標桿。


      圖源:Chatbot Arena

      隨著2025年的嶄新啟航,是否意味著AI圈的一顆“王炸”已悄然“引爆”?

      近日,國產(chǎn)大模型DeepSeek推出DeepSeek-V3,一個強大的混合專家(Mixture-of-Experts, MoE)語言模型,DeepSeek-V3擁有高達6710億的參數(shù)規(guī)模,但每次推理僅激活370億參數(shù)。
      尤其,當o1、Claude、Gemini和Llama 3等模型還在為數(shù)億美元的訓(xùn)練成本苦惱時, DeepSeek-V3用557.6萬美元的預(yù)算,在2048個H800 GPU集群上僅花費3.7天/萬億tokens的訓(xùn)練時間,就達到了足以與它們比肩的性能 。

      與此同時,DeepSeek-V3相比其他前沿大模型,性能卻足以比肩乃至更優(yōu)。


      DeepSeek-V3與其他大模型性能對比

      其中,這種設(shè)計使得模型在性能和效率上實現(xiàn)了完美平衡,在多項模型測評中,DeepSeek-V3不僅超越了Llama 3.1 405B等頂級開源模型,更在代碼、數(shù)學(xué)、長文本處理等領(lǐng)域,與GPT-4o和Claude 3.5 Sonnet等閉源模型分庭抗禮。
      其次,通過671B的總參數(shù)量,在每個token激活37B參數(shù)的精準控制下,DeepSeek-V3用14.8萬億高質(zhì)量多樣化token,構(gòu)建出了一個能夠超越所有開源模型,直逼GPT-4和Claude-3.5的AI巨人。
      另外,在基礎(chǔ)理解能力測試中,DeepSeek-V3與Claude-3.5模型面對中文腦筋急轉(zhuǎn)彎“小明的媽媽有三個孩子”的問題,DeepSeek V3表現(xiàn)出色,不僅答對還進行了自我驗證。但在英文雙關(guān)語“April Fool's Day”的測試中則略顯不足,未能理解其中的語言巧思,而Claude3.5Sonnet則輕松應(yīng)對。


      DeepSeek-V3與Claude-3.5實測對比

      除此之外,DeepSeek自言,這得益于采用了Multi-head Latent Attention (MLA)和DeepSeek MoE架構(gòu),實現(xiàn)了高效的推理和經(jīng)濟高效的訓(xùn)練。

      Multi-head Latent Attention (MLA):MLA 通過對注意力鍵和值進行低秩聯(lián)合壓縮,減少了推理時的 KV 緩存,同時保持了與標準多頭注意力(MHA)相當?shù)男阅堋?br/>


      DeepSeek-V3 的核心亮點

      DeepSeekMoE:DeepSeekMoE 采用了更細粒度的專家分配策略,每個 MoE 層包含 1 個共享專家和 256 個路由專家,每個令牌激活 8 個專家,確保了計算的高效性。

      因此,在系統(tǒng)架構(gòu)層面,DeepSeek就使用了專家并行訓(xùn)練技術(shù),通過將不同的專家模塊分配到不同的計算設(shè)備上同時進行訓(xùn)練,提升了訓(xùn)練過程中的計算效率。

      DeepSeek探索出一個精妙的解決策略,不等到最后再算總和,而是每加128個數(shù)就把當前結(jié)果轉(zhuǎn)移到科學(xué)計算器上繼續(xù)計算。其過程不影響速度,此技術(shù)利用了H800 GPU的特點:就像有兩個收銀員,當一個在結(jié)算購物籃的同時,另一個便可繼續(xù)掃描新商品。
      這一策略使得模型訓(xùn)練速度大幅提升,畢竟核心計算能提升100%的速度,而顯存使用減少也非常明顯,并且模型最終的效果精度損失能做到小于0.25%,幾乎無損。


      DeepSeek 提出的誤差積累解決方法

      但由于DeepSeek“大方”開源,Open AI水靈靈地被網(wǎng)友cue進行橫向?qū)Ρ龋幸环N被push的支配感。

      Scale AI創(chuàng)始人亞歷山大·王 (Alexander Wang)更表示,DeepSeek-V3帶來的辛酸教訓(xùn)是:當美國休息時,中國在工作,以更低的成本、更快的速度迎頭趕上,變得更強。


      圖源:X平臺

      簡言之,這種變深刻折射出AI領(lǐng)域的變革。在2023年,超越GPT-4還是一個值得載入史冊的重大突破,轉(zhuǎn)眼至2024年,這一成就已然演變?yōu)楹饬宽敿堿I模型的基準線。

      而剛到來的2025年,DeepSeek用行動說明,中國大模型創(chuàng)業(yè)者,共同參與這場全球創(chuàng)新AI競賽中。

      由于篇幅受限,本次的DeepSeek V3就先介紹這么多......

      想了解更多半導(dǎo)體行業(yè)動態(tài),請您持續(xù)關(guān)注我們。

      奇普樂將在每周,不定時更新~



      最后的最后,借由彼得·德魯克的一句名言:

      預(yù)測未來的最好方法就是創(chuàng)造未來。

      愿每一位半導(dǎo)體從業(yè)者可以——

      化危為機,開創(chuàng)未來!

      聲明:個人原創(chuàng),僅供參考

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點推薦
      世界第一為何不如第二受歡迎?

      世界第一為何不如第二受歡迎?

      體育硬核說
      2026-04-17 09:27:23
      孫儷在上海花展被人拍了,就一張側(cè)臉,沒開美顏,也沒找角度

      孫儷在上海花展被人拍了,就一張側(cè)臉,沒開美顏,也沒找角度

      去山野間追風(fēng)
      2026-04-15 12:19:04
      五一航班大規(guī)模取消!上海旅客猝不及防,航班取消率還將攀升

      五一航班大規(guī)模取消!上海旅客猝不及防,航班取消率還將攀升

      復(fù)轉(zhuǎn)這些年
      2026-04-17 11:54:54
      “跨考計算機,就是這下場”,武大復(fù)試:1/3的考生機試0分被斬殺

      “跨考計算機,就是這下場”,武大復(fù)試:1/3的考生機試0分被斬殺

      妍妍教育日記
      2026-04-16 08:30:09
      沒得商量了,中國軍工訂單被搶,馬國找到新賣家,將再購5艘軍艦

      沒得商量了,中國軍工訂單被搶,馬國找到新賣家,將再購5艘軍艦

      泠泠說史
      2026-04-16 19:29:38
      男子因缺鎂不幸離世!醫(yī)生提醒:平時寧愿少吃點肉,要多吃9物

      男子因缺鎂不幸離世!醫(yī)生提醒:平時寧愿少吃點肉,要多吃9物

      新時代的兩性情感
      2026-04-17 09:07:42
      新兵擦炮時,擅自朝山包開一炮,連長發(fā)火時接到團部來電:二等功

      新兵擦炮時,擅自朝山包開一炮,連長發(fā)火時接到團部來電:二等功

      芊芊子吟
      2026-04-11 20:30:03
      A股;今天行情有點詭異,做好準備,不出意外,下午很可能這樣走

      A股;今天行情有點詭異,做好準備,不出意外,下午很可能這樣走

      虎哥閑聊
      2026-04-17 11:31:11
      匈牙利偷走的錢,不僅應(yīng)交還給烏克蘭,還必須受到懲罰

      匈牙利偷走的錢,不僅應(yīng)交還給烏克蘭,還必須受到懲罰

      走進烏克蘭2022
      2026-04-17 12:51:23
      維尼修斯轉(zhuǎn)會曼城:一場提前劇透的豪門遷徙

      維尼修斯轉(zhuǎn)會曼城:一場提前劇透的豪門遷徙

      綠茵狂熱者
      2026-04-17 11:40:51
      昨天柳州多路被封,雙沖橋底堵了很多車,今凌晨5點才解封

      昨天柳州多路被封,雙沖橋底堵了很多車,今凌晨5點才解封

      星河也燦爛
      2026-04-17 10:35:40
      林徽因后人現(xiàn)狀,子孫都不愿姓梁,女兒仍健在,曾孫女家喻戶曉

      林徽因后人現(xiàn)狀,子孫都不愿姓梁,女兒仍健在,曾孫女家喻戶曉

      云霄紀史觀
      2026-04-16 02:39:48
      巴基斯坦出兵沙特,特朗普急忙下令,中方通告全球,不懼美國威脅

      巴基斯坦出兵沙特,特朗普急忙下令,中方通告全球,不懼美國威脅

      小曙說娛
      2026-04-17 11:30:48
      新買凱迪拉克“爬滿白斑”?相關(guān)部門介入調(diào)查,滬上4S店又被質(zhì)疑“簽名造假”

      新買凱迪拉克“爬滿白斑”?相關(guān)部門介入調(diào)查,滬上4S店又被質(zhì)疑“簽名造假”

      山西經(jīng)濟日報
      2026-04-17 10:16:30
      人老了,想多活幾年,先管住自己這10點:1、不摔倒,2、不勞累…

      人老了,想多活幾年,先管住自己這10點:1、不摔倒,2、不勞累…

      荷蘭豆愛健康
      2026-03-28 09:28:48
      不想訪華了?特朗普召回美駐華大使,貝森特放話:中國“不可靠”

      不想訪華了?特朗普召回美駐華大使,貝森特放話:中國“不可靠”

      攢一兜星星
      2026-04-16 07:09:15
      俞敏洪:如果拼了命,英年早逝的話,和不那么拼命,而活到八九十歲,是一件更加合算的事

      俞敏洪:如果拼了命,英年早逝的話,和不那么拼命,而活到八九十歲,是一件更加合算的事

      南京擇校
      2026-03-29 22:42:47
      中方耐心耗盡,對巴拿馬港口兩家公司下逐客令,再不走后果自負

      中方耐心耗盡,對巴拿馬港口兩家公司下逐客令,再不走后果自負

      石江月
      2026-04-17 13:11:46
      曝臺灣省歌手費玉清現(xiàn)狀曝光!無兒無女,和女閨蜜互相解決需求

      曝臺灣省歌手費玉清現(xiàn)狀曝光!無兒無女,和女閨蜜互相解決需求

      小徐講八卦
      2026-04-02 07:51:08
      一天之內(nèi)攔截6艘中國油輪,特朗普想給中國一個下馬威?

      一天之內(nèi)攔截6艘中國油輪,特朗普想給中國一個下馬威?

      丁鸊驚悚影視解說
      2026-04-17 12:36:31
      2026-04-17 14:24:49
      奇普樂芯片技術(shù)
      奇普樂芯片技術(shù)
      從硅基上實現(xiàn)Chiplet自動化異構(gòu)集成方案的先行者!讓芯片的誕生,成為一件簡單的事!
      115文章數(shù) 37關(guān)注度
      往期回顧 全部

      科技要聞

      Anthropic推出Opus 4.7,坦言依不及Mythos

      頭條要聞

      特朗普強推后被迫對黎巴嫩停火 以色列被指成"犧牲品"

      頭條要聞

      特朗普強推后被迫對黎巴嫩停火 以色列被指成"犧牲品"

      體育要聞

      贏下快船,這場很庫里,很格林,很科爾

      娛樂要聞

      劉德華摯友潘宏彬離世 曾一起租房住

      財經(jīng)要聞

      海爾與醫(yī)美女王互撕 換血抗衰誰的生意?

      汽車要聞

      又快又穩(wěn)的開掛動力! 阿維塔06T全系搭分布式電驅(qū)

      態(tài)度原創(chuàng)

      旅游
      房產(chǎn)
      手機
      公開課
      軍事航空

      旅游要聞

      美到失語!20年才開一大叢的崖壁“奇葩”,開花了

      房產(chǎn)要聞

      人人人人!封關(guān)后首屆消博會,擠爆了!

      手機要聞

      SellCell:美國蘋果iPhone用戶忠誠度96.4%創(chuàng)歷史新高

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      美宣布黎以停火10天 以方稱不會撤軍

      無障礙瀏覽 進入關(guān)懷版