<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      Kimi-K2-Thinking 開源大模型新王,權威測試結果公布

      0
      分享至


      K2 Thinking 前情回顧

      大家好,我是 Ai 學習的老章

      Kimi K2 Thinking 我已經介紹過很多

      K2 Thinking 是迄今最大的開放權重模型之一,也是 K2 模型家族的首個推理模型,總參數量 1T,激活 32B。


      最近看了一些市面上比較權威的測評結果,可以更全面的看看 K2 Thinking 的水平,看是否真就到了開源新王水平。


      聯(lián)合創(chuàng)始人兼首席執(zhí)行官 @HuggingFace Artificial Analysis——智能水平逼近閉源大模型

      Artificial Analysis 用官方 API 做了一系列測試


      結論:開源大模型在智能水平已逼近閉源模型


      Kimi K2 Thinking 在 Artificial Analysis Intelligence Index 中得分 67,創(chuàng)下開放權重模型最高分。這使其明顯領先于所有其他開源權重模型,包括近期發(fā)布的 MiniMax-M2 和 DeepSeek-V3.2-Exp,在專有模型中也僅次于 GPT-5。

      人工智能分析指數 v3.0 包含 10 項評估:MMLU-Pro、GPQA Diamond、人類終極考試、LiveCodeBench、SciCode、2025 年美國數學邀請賽、IFBench、AA-LCR、Terminal-Bench Hard、2-Bench Telecom

      具體得分如下:


      ? 開源權重代碼模型第一,但仍落后閉源模型:K2 Thinking 在任何代碼評測中均未奪冠——Terminal-Bench Hard 第 6、SciCode 第 7、LiveCodeBench 第 2。若僅對比開源權重模型,它在三項評測中均排名第一或并列第一,因此在 Artificial Analysis Coding Index 中超越此前的開源權重榜首 DeepSeek V3.2

      ? 開放權重在 Humanity’s Last Exam 上的最大飛躍:K2 Thinking 的最強成績之一是在 Humanity’s Last Exam 上取得 22.3% 的得分(無工具),創(chuàng)下開放權重模型歷史新高,僅次于 GPT-5 與 Grok 4

      ? 強勁的代理性能:Kimi K2 Thinking 在代理場景中表現尤為突出,在 Artificial Analysis Agentic Index 中位列第 2,僅次于 GPT-5。這主要得益于 K2 Thinking 在 2-Bench Telecom(一個讓模型充當客服代理的代理工具使用基準)中取得 93% 的成績,這是 Artificial Analysis 獨立測得的最高分。在需要長期規(guī)劃的代理場景下,Kimi K2 Instruct 的工具使用能力本就出色,而新的 Thinking 版本顯然又實現了顯著提升

      但是 Kimi K2 Thinking 缺點也很明顯——太耗 Token 了,它在 Artificial Analysis Intelligence Index 評估中使用了史無前例的 1.4 億 token,約為 DeepSeek V3.2 的 2.5 倍、GPT-5 的 2 倍。


      好在定價比閉源模型便宜不少,但 Turbo 模式很貴

      按 MoonShot 官方 API 定價,整體運行Intelligence Index 的成本低于主流前沿模型。Moonshot 還提供更快的 turbo API,此模式下運行Intelligence Index 的成本僅次于 Grok 4,成為第二昂貴的模型。


      第二個缺點就是它的上下文窗口了,最大 256K,一眾大佬面前還排不上號。。。


      最后就是生成速度了,與平均水平相比,Kimi K2 Thinking 的速度較慢,每秒 80 Tokens 的樣子。好在延遲還行,接收第一個 Token(TTFT)僅需 0.75 秒。


      IUMB——領先所有開、閉源模型

      IUMB(Introductory Undergraduate Mathematics Benchmark)是一個用于評估模型在解決本科數學問題上的表現的基準。它旨在較為全面地體現普通本科院校數學專業(yè)大一和大二水平的數學能力。

      目前 K2 Thinking 在這個榜當上都可以碾壓開、閉源所有模型了


      https://pellaml.github.io/iumb/

      即便如此,得分也僅 54,大模型搞本科數學通通不及格


      PMPP-Eval ——最優(yōu)開源模型

      PMPP-Eval 是一個以編碼為重點的評估基準,用于評估大型語言模型的性能。它專門在“編碼子集”上對模型進行評估,并根據模型在編程任務(如與 CUDA 相關的任務)中的表現對其進行排名。

      根據 cuda 任務的結果,K2-Thinking 現在是可用的最優(yōu)開源模型。


      個人用戶的測評——褒貶不一BinduReddy 測評:Kimi-K2 在代理編碼方面非常出色,但整體上仍落后于 DeepSeek Kimi-K2 是不斷增長的優(yōu)秀開源模型列表中的又一個優(yōu)秀模型。 - 與 GLM 4.6 一樣,在代理編碼方面表現最佳 - DeepSeek 3.2 是世界上最好的開源模型

      但是他使用的非官方 API,其實其他網友也對他的測試結果表示過質疑


      Kimi 回應

      Kimi 官方也注意到,不同提供商的基準結果存在差異——部分第三方端點出現顯著準確率下降(例如超過 20 個百分點),這對 LiveBench 等重推理任務的得分產生負面影響。

      然后 Kimi 官方給出了建議

      • 使用我們的官方 API 端點 kimi-k2-thinking-turbo

      • 啟用 stream = True

      • 設置 temperature = 1.0

      • 建議的 max_token:推理 128k | 編碼 256k | 其他 ≥64k

      • 在腳本中添加重試邏輯

      Kimi 也給出完整的基準測試設置指南, https://platform.moonshot.ai/docs/guide/benchmark-best-practice

      最后總結:Kimi K2 Thinking 綜合實力很強,在多個權威測評中展現了逼近甚至超越閉源模型的潛力,暫居開源新王的寶座。但諸多基準測試、上下文窗口和生成速度與業(yè)界頂級大模型相比,還有差距。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      別大意!長期戴口罩,這7種不適正在悄悄傷害你

      別大意!長期戴口罩,這7種不適正在悄悄傷害你

      孟大夫之家1
      2025-12-25 11:57:04
      內部人士:勇士隊若想達成庫明加的重磅交易,格林或將被送走

      內部人士:勇士隊若想達成庫明加的重磅交易,格林或將被送走

      好火子
      2025-12-27 03:58:07
      李關定辭去寧波市副市長職務

      李關定辭去寧波市副市長職務

      澎湃新聞
      2025-12-26 21:32:21
      真當中國不敢動手?中方向全世界宣布,退出5000億大項目,菲慌了

      真當中國不敢動手?中方向全世界宣布,退出5000億大項目,菲慌了

      瞳哥視界
      2025-12-25 20:48:12
      不尋常!拜登發(fā)布了一張全家福圣誕賀照片,大部分身體被妻子遮擋

      不尋常!拜登發(fā)布了一張全家福圣誕賀照片,大部分身體被妻子遮擋

      我是盲流
      2025-12-26 08:31:25
      歐盟很惱火:我只是給中國電車加了點稅,中國干嘛對我發(fā)起反制?

      歐盟很惱火:我只是給中國電車加了點稅,中國干嘛對我發(fā)起反制?

      回京歷史夢
      2025-12-26 11:24:08
      離譜!唐僧師徒直播取經,直播間擠爆上萬人,化緣直接日入過萬!

      離譜!唐僧師徒直播取經,直播間擠爆上萬人,化緣直接日入過萬!

      可樂談情感
      2025-12-26 00:54:17
      洪瑪奈沒想到,中國反制來得這么快,泰軍不留手,繼續(xù)轟炸柬邊境

      洪瑪奈沒想到,中國反制來得這么快,泰軍不留手,繼續(xù)轟炸柬邊境

      我是盲流
      2025-12-27 02:15:41
      慘勝也是勝!廣東6連勝!不得不承認廣東不能缺少三人!頑疾難克

      慘勝也是勝!廣東6連勝!不得不承認廣東不能缺少三人!頑疾難克

      老牛體育解說
      2025-12-26 22:53:02
      我國超2億人有頸動脈斑塊!研究證實:斑塊可以消退!有4點建議

      我國超2億人有頸動脈斑塊!研究證實:斑塊可以消退!有4點建議

      展望云霄
      2025-12-23 21:03:05
      理發(fā)店陷入生存危機,沒有電商沖擊,卻紛紛倒閉,原因很扎心

      理發(fā)店陷入生存危機,沒有電商沖擊,卻紛紛倒閉,原因很扎心

      老范談史
      2025-12-12 23:06:41
      410次開房記錄流出:央企“女老虎”陶荔芳,背后還有多少同伙

      410次開房記錄流出:央企“女老虎”陶荔芳,背后還有多少同伙

      深度報
      2025-12-14 22:36:54
      美女白色露臍T恤配藍色瑜伽褲,性感值拉滿,簡直是行走的 荷爾蒙

      美女白色露臍T恤配藍色瑜伽褲,性感值拉滿,簡直是行走的 荷爾蒙

      小喬古裝漢服
      2025-09-24 07:20:03
      2026年看病新規(guī)來了,這3類人報銷可達95%!

      2026年看病新規(guī)來了,這3類人報銷可達95%!

      復轉這些年
      2025-12-25 23:28:36
      賈磊:高詩巖防守CBA第一,貼身緊逼,只讓徐杰得到22分5板8助

      賈磊:高詩巖防守CBA第一,貼身緊逼,只讓徐杰得到22分5板8助

      體育哲人
      2025-12-27 00:01:22
      全球最精確預言家:2026,歷史性的一年, 能說的都在這里

      全球最精確預言家:2026,歷史性的一年, 能說的都在這里

      神奇故事
      2025-12-24 23:34:15
      您有洗屁股的習慣嗎?提醒:天天洗肛門的人,能收獲4個驚人好處

      您有洗屁股的習慣嗎?提醒:天天洗肛門的人,能收獲4個驚人好處

      39健康網
      2025-12-13 20:50:34
      王青山,被查!

      王青山,被查!

      中國基金報
      2025-12-26 16:53:47
      原以為第六代戰(zhàn)機只是趕超歐美,沒想到早已進入“自由王國”!

      原以為第六代戰(zhàn)機只是趕超歐美,沒想到早已進入“自由王國”!

      南權先生
      2025-12-26 16:58:13
      前館長拿了:聞鈞天捐獻書畫失蹤案已有回音

      前館長拿了:聞鈞天捐獻書畫失蹤案已有回音

      呦呦鹿鳴
      2025-12-25 22:19:24
      2025-12-27 05:32:49
      機器學習與Python社區(qū) incentive-icons
      機器學習與Python社區(qū)
      機器學習算法與Python
      3235文章數 11081關注度
      往期回顧 全部

      科技要聞

      收割3000億!拼多多"土辦法"熬死所有巨頭

      頭條要聞

      老人婚宴上被提醒孫女非親生 做鑒定后忍3年忍不了了

      頭條要聞

      老人婚宴上被提醒孫女非親生 做鑒定后忍3年忍不了了

      體育要聞

      開翻航母之后,他決定親手造一艘航母

      娛樂要聞

      王傳君生病后近照變化大,面部浮腫

      財經要聞

      投資巨鱷羅杰斯最新持倉:只留四種資產

      汽車要聞

      兩大CEO試駕 華為乾崑*啟境開啟首款獵裝轎跑路測

      態(tài)度原創(chuàng)

      藝術
      本地
      房產
      公開課
      軍事航空

      藝術要聞

      你絕對想不到,佛陀微笑隱藏的秘密竟然是!

      本地新聞

      云游安徽|踏訪池州,讀懂山水間的萬年史書

      房產要聞

      炸裂,三亞360億超級清單發(fā)布,又一批重大配套要來了!

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      烏最新20點俄烏和平草案遞交莫斯科 俄方拒絕

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 一本大道东京热无码aⅴ| 新民市| 国产精品特级毛片一区二区三区 | 无码人妻毛片丰满熟妇精品区| 国产国语老龄妇女a片| 玩弄丰满少妇xxxxx性多毛| 精品一区二区三区四区五区| 一区777| 亚东县| 亚洲国产欧美在线观看| 一区二区三区内射美女毛片| 精品日韩亚洲av无码| 日本99视频| 日韩精品资源| 欧洲熟妇色xxxx欧美老妇多毛网站| 国产系列丝袜熟女精品视频| 制服.丝袜.亚洲.中文.综合| 利津县| 国产区图片区小说区亚洲区| 蜜臂AV| 奇米久久| 欧美日韩变态| 亚洲色大成网站www久久九九 | 91人妻丰满熟妇Aⅴ无码| 91在线观看| 鹤山市| 国产69精品久久久久人妻刘玥| 91视频网站入口| 91精品久久久无码中文字幕少妇 | 人妻少妇嫩草被猛烈进入无码蜜桃| 三原县| 亚洲国产成人精品无码一区二区| 午夜福利精品国产二区| 2024男人天堂| 欧美X0X0| 亚洲成亚洲成网| 久久久精品人妻一区二区三区| 国模吧视频| 国产乱子伦视频在线播放| 无码中文av有码中文av| 最新亚洲av日韩av二区|