網易首頁 > 網易號 > 正文申請入駐

Kimi K2.5 深度實測：變強了，但尚未「封神」｜AI 上新

2026-01-31 13:06:12　來源: 極客公園

北京舉報

分享至

人人可用的 AI Agent，應該是什么樣的？

作者｜徐珊

編輯｜靖宇

三天，四款模型，N 個產品。這就是 2026 年開年，大模型行業展現出的態勢。

沉寂了小半年，Kimi 顯然不想將 2026 年的第一個有關通用大模型的話題權交給其他人。

這次，Kimi 終于將產品線補齊，無論是視覺感知，還是 Agent 能力，又或者編程能力，Kimi 都用 Kimi K2.5 這款萬億大模型證明自己在通用領域的實力。

Kimi K2.5 在多個領域的最新評分｜圖源：Kimi

簡單來說，Kimi K2.5 在推理能力、認知圖譜上都更強了。

基于 Kimi K2.5 的能力，Kimi 現在能夠提供單個性能的 Kimi Agent 和多個 Agent 協作的 Agent Swarm（多智能體集群），允許多個 AI Agent 并行協作處理復雜任務的架構。

此外，Kimi K2.5 還打造了 Kimi Code 平臺，它能接入本地開發環境，可閱讀項目文件、分析代碼結構，并據此自動生成或修改代碼、執行測試與命令。

整體產品線來說，Kimi K2.5 是針對普通人的，相當于模型性能迭代提高。Kimi Code 和 Kimi Agent 功能都是面向程序員的，開源代碼放在 GitHub 上了，有算力都可以嘗試使用，但對普通人來說，使用門檻仍然較高。

不知道是實際體驗的用戶真的變多了，還是 Kimi 想要用戶付費訂閱的意愿變得更強了，在我們體驗的過程中，Kimi 官網常常跳出正在「和很多人溝通，加入訂閱能夠優先排隊喲」的提示界面，一時間幻視打開某些視頻平臺，觀看 3 分鐘開始付費。并且，Kimi Code 和 Kimi Agent Swarm 暫時沒有免費體驗機會。

整體體驗下來，Kimi K2.5 本身在長文本理解、思考維度以及「通人性」變得更強了，一些文本深度分析能力也有了不小的進步。尤其是在視覺理解能力上，效果超出預期。

基于 Kimi K2.5 的 Agent 功能，我們在測試了網頁制作、行業報告撰寫以及新聞圖表等多個維度。在網頁制作的程序上，Agent 表現的效果很好，但是在專業性的內容制作，以及帶有審美感的新聞圖表上展現出來的能力都比較一般，沒有特別驚艷。

此外，在調用相關 Agent 能力時，模型運轉的流暢程度也比較一般，偶爾會出現停止運轉的情況，常常一個復雜 Agent 指令需要運行 30 分鐘左右才能看到結果。而且對于有明顯矛盾的指令也會直接響應，沒有反饋或者詢問環節。

2026 剛開年，這場有關 AI 自動化執行的火已經開始燒得越來越旺了。Kimi 作為作為較早推出 Agent 產品的通用大模型廠商，也借著 Kimi K2.5 表明了自己在通用領域的站位和思考，Kimi K2.5 也算是給正在急著嘗試玩轉 Agent 的中國開發者們，一個值得選擇的工具。

欄目作者召集

極客公園的新欄目「AI 上新」，將帶大家體驗最新的 AI 應用和硬件，讓你成為 AI 時代「最靚的仔」！

現在，我們也向所有喜歡嘗鮮和體驗 AI 的同學發出召集，只要你發現并體驗了新的 AI 應用或者功能，按照格式（參考案例：）向欄目投稿，在極客公園公眾號發布，不僅能獲得相應稿費，且會為你「報銷」AI 應用的訂閱費用。

同時，優秀作者還有機會進入極客公園 AI 體驗群，獲得最新 AI 應用和工具的內測資格，參加極客公園專屬相關 AI 活動，和 AI 應用創始人一對一溝通。

AGI 太久，只爭朝夕，讓一部分人先 AI 起來吧！投稿、進群請掃描下方二維碼添加極客小助手微信

Kimi K2.5，變強了，

但未必變得更聰明了？

為驗證 Kimi K2.5 的實際能力邊界，我們選取了三個關鍵維度進行實測：通過長文本理解考驗基礎能力，通過視覺分析考驗多模態能力，再通過創意設計考驗審美與執行。

首個測試聚焦其最擅長的長文本處理。我們分別喂了一篇 40 萬字的長篇小說給 Kimi K2.5 和 Qwen3-Max，讓其分析主要關系人物圖以及梳理主角成長路線。

Qwen3-Max 的分析速度非常快，但是給出的關系圖也比較簡單，包括人物成長經歷分析上理解比較淺層，但框架正確。Kimi K2.5 則是給出較為詳盡的關系圖譜，并且對于小說中出現的其他人物均能夠按照勢力、關系遠近進行梳理。從小說內容理解上，比 Qwen3-Max 要更深一步，并且大多數小說暗線也能夠理解，對于人物身份走向的揣測也基本正確。

Qwen3-Max 分析結果圖源｜極客公園

Kimi K2.5 分析結果圖源｜極客公園

隨后，我們追問了一個開放性回答，有關對主人公最重要的人是誰？Qwen3-Max 則給出了多個角度，避開唯一性，而 Kimi K2.5 則選擇多種角度分析，還能夠從多維度上比較后，給出最終答案，從思考能力、推理方向以及理解能力上都有比較明顯的進步。

Qwen3-Max 分析結果圖源｜極客公園

Kimi K2.5 分析結果圖源｜極客公園

其次，我們測試了 Kimi K2.5 的視覺理解能力，將其與 Gemini 模型對比。我們上傳了一張 3 頁 PDF 的指令集，并且附有分析例圖，讓 Kimi K2.5 來分析一段 30 秒的網球動作，并給出錯誤姿勢糾正。首先在視頻格式上，Kimi K2.5 能夠支持蘋果 MOV 模式，形式更加多樣化。但是，其單段視頻內存限制仍在 100MB 以內，也就是大約 3 分鐘以內。

這次結果比較意外，Kimi K2.5 能夠讀懂復雜的長指令，并且給出合適的指導建議，并且非常詳細，也相對專業。

Kimi K2.5 測試結果圖源｜極客公園

我們之前曾用 Gemini 做過相似的測試，得出結果圖如下，整體看來兩者對圖片分析能力不分上下，但 Kimi K2.5 對指令理解相對更優。

Gemini 測試結果圖源｜極客公園

最后，我們來考驗 Kimi K2.5 的審美能力，同樣將其與 Qwen3-Max 進行比較。我們上傳了一段復雜指令，讓其基于《中國城市公共充電樁空間公平性報告》打造一個數據新聞，最終考驗其數據新聞是否能夠達到專業媒體水準。

但最后呈現效果，并不如預期，呈現的效果比較簡陋。但對于整體復雜涉及到多模態的任務，完成得比較仔細。但數據來源并沒有調用真實參考信息，圖表設計也比較基礎，沒有太多審美感。

Kimi K2.5 測試結果圖源｜極客公園

為了再給 Kimi K2.5 一次機會，我們還嘗試給出一張素材圖，和一段非常詳盡的指令集，讓其給我們設計一張新聞頭圖以考驗其審美能力。但是輸出的結果來看，PPT 感非常濃。

Kimi K2.5 測試結果圖源｜極客公園

不過，Kimi K2.5 也算交出了一份答卷出來。我們帶著同樣的問題問了問 Qwen3-Max，Qwen3-Max 直接婉拒了回答。

Qwen3-Max 測試結果圖源｜極客公園

從目前的測試效果來看，審美或許還是一個主觀的視角，在多類不同領域的審美訓練下，大模型對于「美」的定義和認知仍有一定差距。

上新 Skills 案例庫，

Kimi 開始學會多想一步

打開 Kimi 官網，我們能看到 Kimi 官網的對話框內已經添加了 Agent 選項框，用戶可以隨時調用 Agent 程序。并且，對話框中還新添了一欄，可以讓用戶儲存常用指令。

在對話框下，Kimi 提供了不少智能 Agent 參考案例，涉及網頁應用、移動應用、數據分析三大類，提供了大約 20 個案例參考。只要你選擇做同款，就會呈現完整的指令集，某種程度上也算是上了 Skills 案例庫。

Kimi K2.5 參考測試案例圖源｜極客公園

數據分析上，我們讓 AI 跑了一下英偉達財報分析。在參考頁面中，我們看到的數據分析非常的詳盡，但是等我們正式開始體驗的時候，發現 Agent 也并不是完美。

其中，最為明顯的是，在我們最開始的一版提示詞有明顯矛盾點的時候，AI 并不會和你確認問題的選項，而是按照自己的推測去做后續執行。這也意味著如果你特別信任 AI，完全不看后續的執行路徑的話，一個指令錯誤可能會造成整個 Agent 程序走向完全錯誤。

我們在官網運行跑完整個程序，15 張 PPT 大約跑了接近 30 分鐘。并且，在 Prompt 幾乎沒有變動的情況下，兩個 Agent 給出完全不同的結論推理。

參考案例給出的推論是，「英偉達財報效應確實存在」，而我們跑出來的結果則是「財報發布并非上漲催化劑，財報交易策略無效」。

同樣的 Prompt，卻給出了不同的答案，或許也從一定程度說明了當下 Agent 屬于能用，但不夠可靠，仍需使用者擁有明辨是非的能力，同時缺乏主動意圖反饋機制，容錯性不足。

第二次，我們自己參考 Prompt，編寫了一段提示詞。

測試 Kimi K2.5 提示詞圖源｜極客公園

又等待了接近半小時后，我們看到了一個初步的網頁設計界面。從頁面設計來看，基本上能夠滿足原提示詞的指令，并且符合一個科技公司常見的主頁界面。

Kimi K2.5 測試結果圖源｜極客公園

但是在理解能力，還是會有一些小問題，比如說，圖上的品牌宣言，一般會是被隱去而不是用直接作為標題顯示。這也說明 AI 在理解和執行上還是有需要改進的地方。

也會有些令人驚喜的地方，比如在網頁設計提示詞上我們并沒有提到相關聯系方式收集等，但是 Kimi 參考了大多數的網站之后，可以直接在官網設計建聯頁面。

Kimi K2.5 測試結果圖源｜極客公園

甚至在底欄的一些設計上也比較貼心，有外置鏈接，甚至有小紅書，也是十分與時俱進了。

Kimi K2.5 測試結果圖源｜極客公園

體驗完之后，能夠明顯感受到，當下 Agent 能力未必能夠在執行上做到完美，但是能夠通過指令的意圖豐富整個執行細節，能夠明白核心需求點是什么，給出更多的意外之喜。并且，Kimi 能夠將網頁鏈接直接部署到位，給出預覽和安裝包，供用戶使用。

這是我們的測試結果鏈接：https://e56oqk3weoe7k.ok.kimi.link/#

此外，由于 Kimi Code 和 Agent Swarm 功能均需要高級會員才可以使用，因此我們很可惜暫時不能得出第一手測試結果。據了解，Kimi K2.5 的 Agent Swarm 功能采用分布式協同架構，最多可并行調度與管理 100 個子智能體。每個智能體均配備獨立的工作記憶，能夠自主執行任務，并遵循高效通信協議，僅在關鍵節點將處理結果匯總至中央調度器，從而大幅提升復雜任務的解決效率。

Agent 轉向之年

從基于 Kimi K2.5 視覺理解的出色表現，我們可以預見多模態的 Agent 將成為 2026 年的競爭焦點，我們也嗅到了一些 2026 年模型界不一樣的轉向。

首先是，視覺能力的增強。無論是 Claude 還是 DeepSeek，在琢磨了一年的文本交互后，終于轉向視頻能力，補強此前視頻分析的短板。視頻理解能力超強帶來的不僅是用戶主動上傳視頻信息的分析更強，更是未來一些被動記錄視頻能力發揮更多的空間，會帶來更多玩法。

其次，從目前通用模型生態來看，開源模型的活躍度在社區滲透和第三方集成上展現出更強能力，前有 Gemini、 Claude、GPT 對比，后有 Qwen3- max，Kimi K2.5 和 DeepSeek。Kimi K2.5 的開源雖然是在意料之外，但也算情理之中。但值得注意的是，消費者的付費意愿養成仍需依賴閉源模型的高端功能。

第三，是所有的通用大模型開始爭取更好的利潤，更多的付費形式。這次 Kimi Code 功能和 Agent 集群功能直接提供給高端付費用戶，不開放任何試用，且 Kimi 的付費模式也開始變化，最高 199 元每月。OpenAI 要賣廣告，Gemini 要上 Chrome 幾乎都是一個原因，開源節流，模型公司們開始兩手抓資金流向。

最后，通用模型公司們已經開始為 Agent 走入垂直場景做準備。Kimi K2.5 上線的 Agent Swarm 功能就是幫助更多企業打造垂類應用時能有模型底座支撐，方便企業能夠通過不同類型的 Agent 扮演企業中的不同員工，各司其職，最終協同辦公。

如果說 2025 年 DeepSeek 將模型成本降到無限低，是讓人看到模型走向千行百業的關鍵之一。2026 年的開端，似乎預示圍繞 AI 自動化的一切即將開始改變。從單個 Agent，走向幾個 Agent，再到一群 Agent。Kimi K2.5 的出現，代表已經有通用大模型廠商看到這一趨勢，并做出改變。

目前，從 Manus 到豆包手機，再到 Clawdbot，其實從模型誕生的第一天開始，人們對 AI 自動化的探索并未停止。當模型公司、應用公司以及硬件公司都瞄準一個方向發展，或許 2026 年也將會是 Agent 逐漸成熟，落地場景的一年。

*頭圖來源：Kimi

本文為極客公園原創文章，轉載請聯系極客君微信 geekparkGO

極客一問

你覺得 Kimi K2.5 還有哪些玩法？

曝 SpaceX 正評估與特斯拉或 xAI 合并，以作為 IPO 之前另一種選擇。

點贊關注極客公園視頻號，

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.