<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      海外評測DeepSeek-V4:智能體任務(wù)排名開源第一,幻覺率上升,Token消耗大

      0
      分享至

      4月24日, DeepSeek-V4預(yù)覽版正式發(fā)布并同步開源,號稱在Agent能力、世界知識與推理性能三大維度達到國內(nèi)及開源領(lǐng)域領(lǐng)先水平。

      DeepSeek-V4分為Pro與Flash兩個版本,均支持百萬(1M)token超長上下文。

      兩個版本均大幅降低了對計算和顯存的需求,將每個標(biāo)記的推理FLOP降低 73%,并將KV緩存內(nèi)存占用降低90%。


      4月24日,全球最大AI模型應(yīng)用程序編程接口聚合平臺OpenRouter的數(shù)據(jù)顯示,V4-Flash的調(diào)用量達270億Token,V4-Pro為47.9億Token,但沒有登上排行榜。


      DeepSeek-V4發(fā)布后,主流評測平臺進行了能力測試和排名。

      Artificial Analysis對DeepSeek-V4進行了推理能力專項測評。結(jié)果顯示,V4-Pro在人工分析智能指數(shù)中斬獲52分,相較V3.2版本的42分實現(xiàn)10分躍升,成為僅次于Kimi K2.6的全球第二大開源推理模型。

      V4-Flash得分47分,性能弱于V4-Pro,但顯著超越DeepSeek-V3.2,綜合智能水平對標(biāo)Claude Sonnet 4.6(全力版),介于頂尖閉源模型與主流中端模型之間。


      在智能體任務(wù)表現(xiàn)方面,V4-Pro在真實場景智能體工作任務(wù)中,性能位居所有開源權(quán)重模型首位,得分1554,超越Kimi K2.6(1484)、GLM-5.1(1535)、GLM-5(1402)以及MiniMax-M2.7(1514)。


      DeepSeek-V4知識儲備升級,但幻覺發(fā)生率上升。V4-Pro在全知綜合評測指標(biāo)(AA-Omniscience)中得分為-10,較V3.2推理版提升11分,核心得益于知識回答準(zhǔn)確率的顯著優(yōu)化。V4-Flash得分為-23,整體水平與V3.2基本持平。


      相較于V3.2的幻覺率(82%),V4兩款模型的幻覺問題突出:V4-Pro幻覺率為94%、V4-Flash幻覺率為96%,意味著模型在未知問題場景下,幾乎都會強行生成答案。


      DeepSeek-V4的運行成本低于頂級閉源模型,高于主流開源模型,較前代大幅上漲。完成全套人工分析智能指數(shù)測評,V4-Pro的運行成本為1071美元,僅不到Claude Opus 4.7(4811 美元)的四分之一;但對比同類開源模型仍偏高,高于Kimi K2.6(948 美元)、GLM-5.1(544美元)、DeepSeek-V3.2(71美元)、gpt-oss-120B(67 美元)。DeepSeek-V4-Flash運行成本僅約113美元,成本優(yōu)勢顯著。


      完成標(biāo)準(zhǔn)測評流程,V4-Pro輸出Token消耗量達1.9億,屬于本次測評中Token消耗最高的模型之一;V4-Flash消耗進一步攀升至2.4億Token。即便定價偏低,高額的Token消耗仍是V4-Pro綜合使用成本高于其他開源模型的核心原因。


      在其他評測中,大模型競技場Arena.ai將DeepSeek-V4-Pro定性為“相較DeepSeek-V3.2的重大飛躍”,在其代碼競技場中位列開源模型第3位、綜合第14位。DeepSeek-V4-Pro在智能體網(wǎng)頁開發(fā)任務(wù)中與GPT-5.4-high和Gemini-3.1-Pro處于同一水平。在其文本競技場中,DeepSeek-V4-Pro位列開源模型排名第2、綜合第14,與Kimi-2.6持平。DeepSeek-V4-Flash位列開源模型排名第10、綜合第14。


      另一家測評方Vals AI稱,DeepSeek-V4在其Vibe Code Benchmark(氛圍代碼基準(zhǔn))中以“壓倒性優(yōu)勢”拿下開源權(quán)重模型榜首,較上代V3.2實現(xiàn)約10倍性能躍升,甚至擊敗了像Gemini 3.1 Pro這樣的頂尖閉源模型。DeepSeek-V4也是唯一一個在Vibe Code Benchmar上突破40%的開源權(quán)重模型。


      相較于DeepSeek-V4的能力,海外更加關(guān)注DeepSeek與華為的合作。

      在DeepSeek-V4公布API價格信息的最下方,官方特別標(biāo)注指出:“受限于高端算力,目前Pro的服務(wù)吞吐量十分有限,預(yù)計下半年昇騰(Ascend)950超節(jié)點批量上市后,Pro的價格會大幅下調(diào)。”


      DeepSeek在技術(shù)報告中稱,V4已在NVIDIA GPU和華為昇騰NPUs平臺上驗證了精細粒度的EP(專家并行)方案,相較于強大的非融合基線,其在通用推理任務(wù)上可實現(xiàn)1.50~1.73倍的加速效果,而在對時延敏感的場景(如RL推演和高速代理服務(wù))中則可達到1.96倍的加速效果。

      而在V4發(fā)布后,華為昇騰也同步宣布“超節(jié)點全系列產(chǎn)品支持DeepSeek-V4系列模型”。據(jù)悉,昇騰950通過融合kernel和多流并行技術(shù)降低Attention計算和訪存開銷,大幅提升推理性能,結(jié)合多種量化算法,實現(xiàn)了高吞吐、低時延的DeepSeek-V4模型推理部署。

      對于DeepSeek此次與華為合作,市場研究機構(gòu)Omdia半導(dǎo)體研究主管何輝表示:“這對中國人工智能行業(yè)而言意義重大。”

      他進一步說道:“華為昇騰芯片是中國自研水平最高、可替代英偉達的產(chǎn)品。DeepSeek-V4大模型適配搭載華為芯片,標(biāo)志著中國頂級大模型如今已能夠?qū)崿F(xiàn)國產(chǎn)化硬件落地運行。

      高盛分析師Christopher Moniz點評稱,DeepSeek-V4預(yù)覽版發(fā)布后,GPU及國產(chǎn)芯片板塊應(yīng)聲走強。核心關(guān)注點之一是支撐V4模型的芯片底層架構(gòu):包括模型訓(xùn)練所使用的芯片,以及推理階段搭載的硬件設(shè)備。華為搭載昇騰AI處理器的新一代人工智能計算集群,可適配運行DeepSeek-V4模型。這也意味著,中國自研AI硬件生態(tài),正在為DeepSeek持續(xù)迭代前沿大模型提供算力支撐。

      DeepSeek此次技術(shù)路線轉(zhuǎn)向,也印證了英偉達首席執(zhí)行官黃仁勛此前的擔(dān)憂:英偉達正面臨失去中國開發(fā)者生態(tài)的風(fēng)險。

      本月上旬,英偉達創(chuàng)始人黃仁勛在接受Dwarkesh Patel專訪時曾言:“如果DeepSeek先在華為平臺上發(fā)布,那對美國來說將是災(zāi)難性的。”在黃仁勛看來,雖然DeepSeek是一款開源模型,同樣可被用于英偉達產(chǎn)品上,但如果DeepSeek專門針對華為算力進行優(yōu)化,在高端算力采購受限等局限下,英偉達將處于劣勢。

      與DeepSeek-R1不同,DeepSeek-V4并沒有引發(fā)美國科技股大跌。晨星高級股票分析師Ivan Su表示,DeepSeek-V4很難復(fù)刻推理模型R1當(dāng)初的市場影響力,因為交易市場早已充分消化了預(yù)期:中國人工智能技術(shù)具備競爭力,且使用成本更低。

      Ivan Su還稱,DeepSeek此次全新的產(chǎn)品定位,將國內(nèi)其他開源大模型直接劃入競品行列。

      布魯金斯學(xué)會研究員Kyle Chan表示,DeepSeek-V4令人印象深刻,因為它是一個接近最先進水平的模型,具有高效的100萬Token上下文長度,并且可以在華為的新芯片上運行。DeepSeek-V4沒有復(fù)制“DeepSeek-R1時刻”,因為外界對中國AI能力的期望值要比以往高得多。

      免責(zé)聲明:本文內(nèi)容與數(shù)據(jù)僅供參考,不構(gòu)成投資建議,使用前請核實。據(jù)此操作,風(fēng)險自擔(dān)。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點推薦
      22個省級政府主要負責(zé)人擔(dān)任省級責(zé)任人!這一名單對外公布

      22個省級政府主要負責(zé)人擔(dān)任省級責(zé)任人!這一名單對外公布

      知知貴陽
      2026-04-26 18:02:26
      曝楊子新女友已產(chǎn)子!與黃圣依婚姻存續(xù)期疑云重重,去年否定關(guān)系

      曝楊子新女友已產(chǎn)子!與黃圣依婚姻存續(xù)期疑云重重,去年否定關(guān)系

      一盅情懷
      2026-04-27 14:27:14
      馬拉松迎來歷史性突破,肯尼亞選手薩維實現(xiàn)“破2”

      馬拉松迎來歷史性突破,肯尼亞選手薩維實現(xiàn)“破2”

      澎湃新聞
      2026-04-26 18:46:26
      上人民日報了:父母不懂英語,外商壓價,12歲女兒,全英語反殺!

      上人民日報了:父母不懂英語,外商壓價,12歲女兒,全英語反殺!

      川渝視覺
      2026-04-26 22:58:13
      世錦賽最新戰(zhàn)報:吳宜澤10-6壓制塞爾比,世界排名前二領(lǐng)先

      世錦賽最新戰(zhàn)報:吳宜澤10-6壓制塞爾比,世界排名前二領(lǐng)先

      港灣無船
      2026-04-27 12:53:49
      疑似國產(chǎn)垂直起降戰(zhàn)機被曝光,或是基于殲20衍生而來

      疑似國產(chǎn)垂直起降戰(zhàn)機被曝光,或是基于殲20衍生而來

      烽火觀天下
      2026-04-27 11:06:43
      浙江又一家銀行正式解散,年內(nèi)超70家村鎮(zhèn)銀行退出市場

      浙江又一家銀行正式解散,年內(nèi)超70家村鎮(zhèn)銀行退出市場

      經(jīng)理人雜志
      2026-04-27 14:37:45
      湯姆斯杯:石宇奇退賽!李詩灃2-0橫掃楊燦,國羽2-1加拿大奪賽點

      湯姆斯杯:石宇奇退賽!李詩灃2-0橫掃楊燦,國羽2-1加拿大奪賽點

      釘釘陌上花開
      2026-04-27 16:28:02
      泡泡瑪特推出Labubu冰箱,售價5999元,上千人預(yù)約

      泡泡瑪特推出Labubu冰箱,售價5999元,上千人預(yù)約

      大象新聞
      2026-04-26 13:01:02
      吉林伊通驚現(xiàn)200萬豪華住宅式墓地,獨門獨戶地上地下兩層

      吉林伊通驚現(xiàn)200萬豪華住宅式墓地,獨門獨戶地上地下兩層

      大象新聞
      2026-04-27 13:41:32
      美媒:以色列總統(tǒng)暫不赦免內(nèi)塔尼亞胡,尋求促成認罪協(xié)議

      美媒:以色列總統(tǒng)暫不赦免內(nèi)塔尼亞胡,尋求促成認罪協(xié)議

      澎湃新聞
      2026-04-27 15:06:07
      33+30!再見了,布克!人家才是太陽第一核心

      33+30!再見了,布克!人家才是太陽第一核心

      籃球?qū)崙?zhàn)寶典
      2026-04-26 18:56:07
      海軍宣傳片暗藏004核航母舷號19,命名或為浙江廣東

      海軍宣傳片暗藏004核航母舷號19,命名或為浙江廣東

      浮光驚掠影
      2026-04-26 22:44:54
      重磅!中國DDR5價格大跌!

      重磅!中國DDR5價格大跌!

      EETOP半導(dǎo)體社區(qū)
      2026-04-27 08:09:41
      我入住養(yǎng)老院6年,勸告想來養(yǎng)老的老人,要先看自己能否做到這4點

      我入住養(yǎng)老院6年,勸告想來養(yǎng)老的老人,要先看自己能否做到這4點

      小馬達情感故事
      2026-04-26 18:50:03
      雷克薩斯全新一代ES:依然ES,超「躍」ES

      雷克薩斯全新一代ES:依然ES,超「躍」ES

      汽車公社
      2026-04-27 08:33:46
      浙江公開對紹興地鐵處罰結(jié)果

      浙江公開對紹興地鐵處罰結(jié)果

      極目新聞
      2026-04-27 15:16:59
      遭Steam下架的日本美女影游回歸 7月發(fā)售!

      遭Steam下架的日本美女影游回歸 7月發(fā)售!

      3DM游戲
      2026-04-27 10:46:09
      林志玲抱4歲兒子吃早餐,日本老公悠閑坐著吃,家庭地位卑微傳統(tǒng)

      林志玲抱4歲兒子吃早餐,日本老公悠閑坐著吃,家庭地位卑微傳統(tǒng)

      椰黃娛樂
      2026-04-27 14:02:11
      中國拋得太及時,8500億美債沒人接盤。

      中國拋得太及時,8500億美債沒人接盤。

      流蘇晚晴
      2026-04-26 18:32:23
      2026-04-27 17:47:00
      每日經(jīng)濟新聞 incentive-icons
      每日經(jīng)濟新聞
      中國主流財經(jīng)全媒體平臺。
      1552113文章數(shù) 2725556關(guān)注度
      往期回顧 全部

      科技要聞

      DeepSeek V4上線三天,第一批實測出來了

      頭條要聞

      伊朗:發(fā)現(xiàn)15枚美軍未爆重型導(dǎo)彈 逆向研發(fā)仿制

      頭條要聞

      伊朗:發(fā)現(xiàn)15枚美軍未爆重型導(dǎo)彈 逆向研發(fā)仿制

      體育要聞

      最抽象的天才,正在改變瓜迪奧拉

      娛樂要聞

      黃楊鈿甜為“耳環(huán)風(fēng)波”出鏡道歉:謠言已澄清

      財經(jīng)要聞

      國家發(fā)改委:依法禁止外資收購Manus

      汽車要聞

      不那么小眾也可以 smart的路會越走越寬

      態(tài)度原創(chuàng)

      數(shù)碼
      游戲
      本地
      旅游
      時尚

      數(shù)碼要聞

      REDMI 7英寸巨屏旗艦開案:10000mAh大電池+2K屏 平板殺手來了

      《漫威蜘蛛俠3》發(fā)售前 失眠組將給玩家?guī)眢@喜新作

      本地新聞

      云游中國|逛世界風(fēng)箏都 留學(xué)生探秘中國傳統(tǒng)文化

      旅游要聞

      上海迪士尼游客勸阻吸煙被毆打,警方介入!樂園吸煙區(qū)外禁煙

      春天衣服別只穿黑色,看看下面這些彩色穿搭,亮眼還有感染力

      無障礙瀏覽 進入關(guān)懷版 主站蜘蛛池模板: 欧美成人亚洲综合精品欧美激情 | 影音先锋成人网站| 3p无码视频| 性男女做视频观看网站| 肉色丝袜足j视频国产| chinese性内射高清国产| 成在线人视频免费视频| 国产精品国产三级国产专播| 国产真人性做爰久久网站| 欧美精品亚洲精品日韩专| 人人看成人在线| 女人与公拘交酡全过女免费| 国模小黎自慰gogo人体| 国产精品久久久久久人妻精品动漫| 中文字幕无码无码专区| 欧美午夜福利| 精久国产av一区二区三区孕妇 | а√天堂8资源中文在线| 无码人妻一区二区三区线| 无码偷拍| 亚洲国产成人麻豆精品| 无码午夜福利片| 色婷婷av久久久久久久| 国产一区二区三区内射高清| 岛国无码精品| 欧美人与动牲交欧美精品| 国内精品久久人妻无码大片高| JIZZJIZZJIZZ亚洲日本| 性欧美丰满熟妇xxxx性| 亚洲区1区3区4区中文字幕码| 无码人妻精品一区二区三区蜜臀百度| 泸西县| 国产乱论视频| 国产成人精品无码一区二区 | 亚洲日韩日本中文在线| 亚洲资源av无码日韩av无码| 国产微拍一区二区三区四区| 欧美人妖性爱| 尹人香蕉久久99天天拍| 精品亚洲国产成人a片app| 久久久无码精品午夜|