![]()
根據著名AI分析機構Artificial Analysis的評估,Kimi K2 Thinking在智能體(agentic)相關任務中表現非常突出,但在完成評測時生成了所有模型中最多的token,表現出非常“話癆”的特性
以下是其核心要點:
智能指數67分,登頂開源榜首
Kimi K2 Thinking在Artificial Analysis智能指數中獲得67分。
這一成績使其明確領先于所有其他開源權重模型,包括最近發布的MiniMax-M2(61分)和DeepSeek-V3.2-Exp(57分),在所有模型中僅次于GPT-5
![]()
Agent能力突出,推理表現強勁
Kimi K2 Thinking在智能體應用場景中展現出強大實力,在Artificial Analysis智能體指數中排名第二,僅次于GPT-5
其優異表現主要得益于在2-Bench Telecom基準測試中取得了93%的成績。這是一個智能體工具使用評測。這是該機構獨立測量到的最高分
![]()
此外,在Humanity’s Last Exam(人類終極考試)評測中,Kimi K2 Thinking在無工具情況下的得分為22.3%,創下開源模型歷史新高,僅次于GPT-5和Grok 4
![]()
成為新晉開源代碼模型冠軍
盡管Kimi K2 Thinking并未在任何一項代碼評測中奪得總冠軍,但相較于其他開源模型,它在各項評測中均排名第一或并列第一
具體排名為:Terminal-Bench Hard第6名,SciCode第7名,LiveCodeBench第2名
因此,它在Artificial Analysis代碼指數中超越了先前的開源領導者DeepSeek V3.2
更多排名:
![]()
模型細節:1萬億參數,INT4原生精度
模型規格:總參數量1萬億,激活參數320億(約594GB),僅支持文本輸入,擁有256K上下文窗口
模型定位:該模型是Kimi K2 Instruct的推理變體,擁有相同的架構和參數數量
INT4精度:與此前Kimi K2 Instruct發布的FP8精度不同,該模型原生以INT4精度發布。月之暗面在后訓練階段使用了量化感知訓練來實現這一點。這使得模型大小僅為約594GB,相比K2 Instruct的1TB以上大幅縮小,從而提升了推理和訓練效率
代價:高冗余度、成本與延遲
Kimi K2 Thinking表現得非常“話癆”。在完成智能指數評測時,它總共使用了1.4億個token,約為DeepSeek V3.2的2.5倍,GPT-5的2倍。
![]()
高冗余度直接影響了成本和延遲
基礎版API:
定價:輸入 百 萬 , 輸 出 2.5/百萬token。
評測總成本:$356,比頂尖前沿模型便宜(比GPT-5(高)便宜2.5倍),但比DeepSeek V3.2貴9倍
速度:非常慢,約8個輸出token/秒
Turbo版API:
定價:輸入 百 萬 , 輸 出 8/百萬token。
評測總成本:$1172,是第二昂貴的模型,僅次于Grok 4。
速度:相對較快,約50個輸出token/秒
報告指出,此次發布再次凸顯了一個持續的趨勢:后訓練,特別是強化學習(RL),正在推動推理模型和涉及工具調用的長程任務性能實現增長
參考:
https://artificialanalysis.ai/models/kimi-k2-thinking
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.