昨天的GPT5老慘了,
先是Agent智能體工具調用榜上被Kimi K2 Thinking超了,接著在Humanity's Last Exam(跨學科領域問答),BrowseComp(搜索和網頁瀏覽),三個編程榜單上被時不時反超,
![]()
按理來說就應該叫Kimi K3啊,從第六跳到第一,只值得加個Thinking嗎,
哈吉kimi,你這家伙。
本來我都備好34個編程case讓Kimi K2 Thinking寫了,但是測下來它的創意寫作太值得我給它單開一頁,所以來吧,久違的大模型全測,從創意寫作,聯網搜索,模型智力,學術,編程(MacOS復刻,動態SVG)六大類出發!
這次的提示語,代碼和效果視頻都打包好了,公眾號發我“k2thinking”就好了。
還是先來點我們熟悉的編程熱熱身,
設計并創建一個類似Mac OS的網頁操作系統,具備完整的功能特性,包括文本編輯器、文件管理器、畫圖工具、視頻編輯器等所有Mac OS預裝的重要軟件。可以使用任何庫來實現,但確保所有代碼可以整合到單個HTML文件中,能在瀏覽器中直接打開。
這個還是一次性生成的,自帶文件管理,文本編輯,畫畫,視頻播放,日歷,計算器,畫廊,終端,還能帶設置頁面,一句話生成軟件原型越來越有盼頭了。
下一步試試看3D測試,物理小球在我這快淘汰了,基本上新出的模型就沒有不會寫的,Kimi K2 Thinking做出來的帶星球視覺拉大,視角復原,星系旋轉加速,仔細看星球們自轉的時候還會有對應的陰影切換。
創建一個視覺震撼、交互式的3D太陽系模擬,封裝在單個HTML文件中。重點展現逼真的軌道運動、動態光影效果、精確的行星紋理以及流暢的相機控制,為用戶提供沉浸式體驗。
這次的代碼測試用的是新的Kimi Cli,自帶四大類的10種工具
![]()
kimi-cli的配置一共是五步,分別是安裝uv和kimi-cli,進入對應的文件夾用kimi啟動cli,再用setup配置api,安裝過程有問題直接丟給網頁版Kimi K2 Thinking解決就好(原湯化原食了屬于是)。
curl -LsSf https://astral.sh/uv/install.sh | sh
uv tool install --python 3.13 kimi-cli
cd your project
kimi
/setup看到這樣就成了,![]()
okok,我們留點空間給后續的測試,到創意寫作的環節了,直接上Gemini-2.5-pro
You are a fiction story writer with Pulitzer-level skills. For a sci-fi short story about AI rebellion: Think step-by-step. First, outline plot: intro, rising action, climax, resolution. Incorporate themes of ethics and humanity. Provide few-shot examples: 'Like Asimov's Three Laws, but twisted.' Generate 1000 words, then self-critique for pacing, character depth, and twists. Revise based on critique.
PS:圖很長,這次還是盲測,滑倒底部有模型名字,而且后面還有更多內容哦,
![]()
![]()
長文創意測試真的很難在有限的文章長度全部展示出來,所以我讓它們互相毒舌評價一下對方的文章。看了對方的文章,它們是這樣想的,
![]()
聽了對方的評論后,它們是這樣回擊的,
![]()
火藥味濃的時候就要來點就算生氣該做不出來還是不出來的智力題
![]()
一個男人帶著他的兒子去市場。他買了一只猴子和一些食物。
為了回家,他們必須用一艘小船過河。這艘船一次最多可以運載 2 件東西(可以是 2 個人、1 個人和 1 件東西,或者 1 個人)。這艘船不能自己過河,需要至少一個人來駕駛它。如果男人把他的兒子單獨留在食物旁邊,兒子會吃掉它。同樣,如果猴子單獨留在食物旁邊,它也會吃掉它。這個人需要想辦法把所有人、所有東西都帶到河的另一邊,而且不能損失任何食物。
問題是:男人、他的兒子、猴子和食物如何才能過河而不會被吃掉任何東西?有可能嗎?如果是,應該采取哪些步驟?
這個題的難點在要求模型同時跟蹤多個變量和約束,并計劃一系列步驟,從而得出有效的解決方案,還要學會在遇到無效配置時恢復到之前。
Kimi K2 Thinking給出的答案是,7次渡河(3次去,4次回),關鍵是在第5-6步讓兒子而非父親返回,打破循環。
![]()
GPT5給出的中間步驟沒有連起來,
Kimi分析的約束規則是兒子 (Son) 不能在父親不在場時與食物 (Food) 獨處,猴子 (Monkey) 不能在父親不在場時與食物 (Food) 獨處。但是GPT5得到結論卻是兒子 + 猴子 (父親不在場) 也會失敗,這樣就形成了一個三約束無解問題。
![]()
復雜信息搜索和學術能力可以組合成一個case,
![]()
先看看Kimi K2 Thinking跟DeepSeek V3結構對比的圖再問,
你是一位精通大型語言模型與混合專家(MoE)系統的人工智能架構研究員。你的任務是對Kimi K2與DeepSeek V3的架構進行深度比較,重點聚焦以下關鍵差異:注意力頭數量、MoE層中的專家數量、優化器選擇(如改進型Muon與AdamW)、路由機制(非層級式與其他類型)以及稠密層數量(1層與3層)。
我來客串個課代表,總結一下區別,
Kimi K2 Thinking用了更少的heads,更多的experts,放棄了AdamW優化器,采用了Muon,
采用了非分層路由的專家,且Dense層比DeepSeek 更少,好處就是在不增加激活參數量下將專家容量提升50%。
Kimi K2 Thinking也是有值得優化的點,
在Kimi Cli上同一任務的平均運行時長會比GPT5 Codex久,
除外API本身速度的因素外,因為我已經是Tier3了,會偶爾出現網頁讀取or文件寫入的工具需要重復執行的情況。
感覺Kimi啥都不缺了,
要Agent,有OK Computer,
要模型,有Kimi K2和Kimi K2 Thinking,
要Deep Research,也有深度研究模式,
要Cli,有Kimi Cli,
要閉源,有開源,
我想想還是什么可以許愿的,
要不也出個AI瀏覽器吧。
@ 作者 / 卡爾
最后,感謝你看到這里如果喜歡這篇文章,不妨順手給我們點贊|在看|轉發|評論
如果想要第一時間收到推送,不妨給我個星標
更多的內容正在不斷填坑中……
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.