網易首頁 > 網易號 > 正文申請入駐

打敗GPT5的Kimi K2 Thinking，真就只會寫代碼嗎？

2025-11-08 10:11:08　來源: 卡爾的AI沃茨

北京舉報

分享至

昨天的GPT5老慘了，

先是Agent智能體工具調用榜上被Kimi K2 Thinking超了，接著在Humanity's Last Exam（跨學科領域問答），BrowseComp（搜索和網頁瀏覽），三個編程榜單上被時不時反超，

按理來說就應該叫Kimi K3啊，從第六跳到第一，只值得加個Thinking嗎，

哈吉kimi，你這家伙。

本來我都備好34個編程case讓Kimi K2 Thinking寫了，但是測下來它的創意寫作太值得我給它單開一頁，所以來吧，久違的大模型全測，從創意寫作，聯網搜索，模型智力，學術，編程（MacOS復刻，動態SVG）六大類出發！

這次的提示語，代碼和效果視頻都打包好了，公眾號發我“k2thinking”就好了。

還是先來點我們熟悉的編程熱熱身，

設計并創建一個類似Mac OS的網頁操作系統，具備完整的功能特性，包括文本編輯器、文件管理器、畫圖工具、視頻編輯器等所有Mac OS預裝的重要軟件。可以使用任何庫來實現，但確保所有代碼可以整合到單個HTML文件中，能在瀏覽器中直接打開。

這個還是一次性生成的，自帶文件管理，文本編輯，畫畫，視頻播放，日歷，計算器，畫廊，終端，還能帶設置頁面，一句話生成軟件原型越來越有盼頭了。

下一步試試看3D測試，物理小球在我這快淘汰了，基本上新出的模型就沒有不會寫的，Kimi K2 Thinking做出來的帶星球視覺拉大，視角復原，星系旋轉加速，仔細看星球們自轉的時候還會有對應的陰影切換。

創建一個視覺震撼、交互式的3D太陽系模擬，封裝在單個HTML文件中。重點展現逼真的軌道運動、動態光影效果、精確的行星紋理以及流暢的相機控制，為用戶提供沉浸式體驗。

這次的代碼測試用的是新的Kimi Cli，自帶四大類的10種工具

kimi-cli的配置一共是五步，分別是安裝uv和kimi-cli，進入對應的文件夾用kimi啟動cli，再用setup配置api，安裝過程有問題直接丟給網頁版Kimi K2 Thinking解決就好（原湯化原食了屬于是）。

curl -LsSf https://astral.sh/uv/install.sh | sh
uv tool install --python 3.13 kimi-cli
cd your project
kimi
/setup

看到這樣就成了，
okok，我們留點空間給后續的測試，到創意寫作的環節了，直接上Gemini-2.5-pro

You are a fiction story writer with Pulitzer-level skills. For a sci-fi short story about AI rebellion: Think step-by-step. First, outline plot: intro, rising action, climax, resolution. Incorporate themes of ethics and humanity. Provide few-shot examples: 'Like Asimov's Three Laws, but twisted.' Generate 1000 words, then self-critique for pacing, character depth, and twists. Revise based on critique.

PS：圖很長，這次還是盲測，滑倒底部有模型名字，而且后面還有更多內容哦，

長文創意測試真的很難在有限的文章長度全部展示出來，所以我讓它們互相毒舌評價一下對方的文章。看了對方的文章，它們是這樣想的，

聽了對方的評論后，它們是這樣回擊的，

火藥味濃的時候就要來點就算生氣該做不出來還是不出來的智力題

一個男人帶著他的兒子去市場。他買了一只猴子和一些食物。

為了回家，他們必須用一艘小船過河。這艘船一次最多可以運載 2 件東西（可以是 2 個人、1 個人和 1 件東西，或者 1 個人）。這艘船不能自己過河，需要至少一個人來駕駛它。如果男人把他的兒子單獨留在食物旁邊，兒子會吃掉它。同樣，如果猴子單獨留在食物旁邊，它也會吃掉它。這個人需要想辦法把所有人、所有東西都帶到河的另一邊，而且不能損失任何食物。

問題是：男人、他的兒子、猴子和食物如何才能過河而不會被吃掉任何東西？有可能嗎？如果是，應該采取哪些步驟？

這個題的難點在要求模型同時跟蹤多個變量和約束，并計劃一系列步驟，從而得出有效的解決方案，還要學會在遇到無效配置時恢復到之前。

Kimi K2 Thinking給出的答案是，7次渡河（3次去，4次回），關鍵是在第5-6步讓兒子而非父親返回，打破循環。

GPT5給出的中間步驟沒有連起來，

Kimi分析的約束規則是兒子 (Son) 不能在父親不在場時與食物 (Food) 獨處，猴子 (Monkey) 不能在父親不在場時與食物 (Food) 獨處。但是GPT5得到結論卻是兒子 + 猴子 (父親不在場) 也會失敗，這樣就形成了一個三約束無解問題。

復雜信息搜索和學術能力可以組合成一個case，

先看看Kimi K2 Thinking跟DeepSeek V3結構對比的圖再問，

你是一位精通大型語言模型與混合專家（MoE）系統的人工智能架構研究員。你的任務是對Kimi K2與DeepSeek V3的架構進行深度比較，重點聚焦以下關鍵差異：注意力頭數量、MoE層中的專家數量、優化器選擇（如改進型Muon與AdamW）、路由機制（非層級式與其他類型）以及稠密層數量（1層與3層）。

我來客串個課代表，總結一下區別，

Kimi K2 Thinking用了更少的heads，更多的experts，放棄了AdamW優化器，采用了Muon，

采用了非分層路由的專家，且Dense層比DeepSeek 更少，好處就是在不增加激活參數量下將專家容量提升50%。

Kimi K2 Thinking也是有值得優化的點，

在Kimi Cli上同一任務的平均運行時長會比GPT5 Codex久，

除外API本身速度的因素外，因為我已經是Tier3了，會偶爾出現網頁讀取or文件寫入的工具需要重復執行的情況。

感覺Kimi啥都不缺了，

要Agent，有OK Computer，

要模型，有Kimi K2和Kimi K2 Thinking，

要Deep Research，也有深度研究模式，

要Cli，有Kimi Cli，

要閉源，有開源，

我想想還是什么可以許愿的，

要不也出個AI瀏覽器吧。

@ 作者 / 卡爾

最后，感謝你看到這里如果喜歡這篇文章，不妨順手給我們點贊｜在看｜轉發｜評論

如果想要第一時間收到推送，不妨給我個星標

更多的內容正在不斷填坑中……

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.