著名獨立評測機構Artificial Analysis最新模型排名來了,Kimi K2.5總體排名第五,GPT5.2high=51,Claude opus 4.5=50,GPT5.2codexhigh=49,Gemini3 prohigh=48,Kimi k2.5=47
要點總結:
?在智能體任務上表現出色:
Kimi K2.5 在GDPval-AA 評估中取得了 1309 的 Elo 評分,僅次于 OpenAI 和 Anthropic 的模型。Kimi K2.5 的表現遠超 GLM-4.7、DeepSeek V3.2 和 Gemini 3 Pro。GDPval-AA 是衡量通用智能體性能的主要指標,用于評估模型在實際知識工作任務(例如準備演示文稿和進行分析)上的表現。模型通過我們名為 Stirrup 的參考智能體框架,在一個智能體循環中獲得了 shell 訪問權限和網頁瀏覽功能。
?原生多模態首次實現:Kimi K2.5 是 Moonshot 首款支持多模態(圖像和視頻)輸入的旗艦模型。這是領先的開源權重模型首次支持圖像輸入,消除了開源權重模型相對于前沿實驗室專有模型應用的關鍵障礙。與其他領先的開源權重模型(例如 DeepSeek V3.2、GLM-4.7、MiniMax M2.1 和 MiMo-V2-Flash)相比,Kimi K2.5 的這一特性使其脫穎而出。Kimi K2.5 在 MMMU Pro 視覺推理基準測試中得分 75%,略低于 Gemini 3 Pro,但與 GPT-5.2 和 Claude Opus 4.5 持平。
?運行人工智能分析智能指數的中等成本:
Kimi K2.5 在運行人工智能分析智能指數中得分為 371 美元,比 Claude Opus 4.5 和 GPT-5.2 便宜 4 倍以上,但比 DeepSeek V3.2 和 gpt-oss-120b 貴 5 倍以上。
?適中的令牌使用量:
Kimi K2.5 的token使用量與其他同智能級別的模型相當,在人工智能分析智能指數評估套件中使用了約 8200 萬個推理token。這略低于 Kimi K2 Thinking(約 9500 萬個推理令牌),遠低于 GLM 4.7(約 1.6 億個推理令牌)。
?混合推理:
Kimi K2.5 將 Moonshot 的推理模型和非推理模型統一到一個模型中。已經對開啟推理功能的 K2.5 進行了評估(并將很快分享關閉推理功能后的結果)。
?低幻覺率:
Kimi K2.5 在 AA 全知指數(我們的知識評估指標,同時衡量準確性和幻覺率)中得分為 -11。這一分數主要源于其相對較低的幻覺率,僅為 64%(低于 Kimi K2 Thinking 的 74% %) ,表明當模型不確定時,Kimi K2.5 更傾向于回避而非捏造知識。
![]()
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.