四個月前 Kimi 發布了 K2 模型,憑借優秀的質量以及先進的架構優化,一舉打破了持續了幾個月關于月之暗面的質疑。
我當時也寫了兩篇測評《》。
而且他們是首個頭部模型廠商開始主動適配 Claude Code 的,后面其他家紛紛跟進,到現在短短幾個月,這已經是大家非常普遍的用法了。
![]()
當時我還說 K2 沒有推理能力已經這么猛了,要是有推理能力還會猛到什么地步。現在他來了,Kimi-K2-Thinking 模型開源。
主要的升級內容有:
- Agent化升級: 原生「邊思考、邊用工具」,可自主持續多輪推理與調用,最高約300輪。
- 推理SOTA: HLE(44.9)和 IMO(76.8)都做到了目前的最高分,復雜檢索與長程規劃顯著增強。
- 編程增強: Agentic Coding更穩,前端(HTML/React/組件化)與多語言工程基準表現提升。
- 通用基礎能力升級 :創意寫作更有韻律與深度;學術與研究場景下分析更嚴謹、結構清晰;可長篇任務中保持邏輯與風格穩定。
- 效率提升: 原生 INT4(QAT+MoE weight?only),長解碼下性能保持,生成速度約提升2×。
而且這段時間 Kimi 在編程領域不止專注于模型,也在考慮周邊生態,如何讓大家在更方便和實惠的使用 K2 編程。
他們推出了自己的 AI 編程 CLI 工具 Kimi CLI,安裝方式和使用基本拉齊的 Claude Code,我這次也會用 Kimi CLI 進行 Kimi-K2-Thinking 的測試。
![]()
Kimi 的包月會員也加上了編碼的 API 套餐他們叫 KFC(Kimi For Coding),199 元的每周提供 7168 次調用,非常夠用了。
![]()
所以這篇文章我會先教一下大家如何順暢優惠的使用 Kimi 全家桶進行編程,然后再用這套全家桶進行一波 Kimi-K2-Thinking 的編碼測試。
首先來看一下如何通過 Kimi 全家桶,方便快捷的用上升級后的 K2-Thinking 模型。
我們需要購買一個 Kimi 登月計劃的會員,直接去官網買就行。
而且如果你之前打賞過 Kimi 的話,你打賞的錢會在你首次開通之后幫你充值到賬戶里面,非常的良心。
這里有個設計問題,如果你想要獲取 Kimi For Coding 的 API Key 的話,需要點擊下面圖片里面框住的文字,然后復制就行,希望后面改改,比如放到設置里面。
![]()
然后我們就可以去安裝 Kimi CLI 了,這里如果你沒有安裝 UV 的話需要先在終端安裝 UV:
curl -LsSf https://astral.sh/uv/install.sh | sh然后再通過這段代碼安裝 Kimi CLI 就行
uv tool install --python 3.13 kimi-cli安裝后在終端打開你的項目目錄輸入 kimi 就可以啟動 Kimi CLI 了。
首次啟動后會讓你選登錄方式,選第一個然后輸入剛才從 KFC 獲取的 API Key 就行。
進去之后按 Tab 鍵就可以啟用思考,這時候用的就是 K2-Thinking 模型了Claude Code 啟用思考也是一樣的操作。
![]()
當然這個依舊可以在 Cluade Code 里面使用,如果嫌配置環境變量麻煩的話,用我的《》項目就行,創建的時候填寫下面內容。
URL: https://api.kimi.com/coding
Model: kimi-k2-thinking
API Key: 你剛才在 Kimi For Coding 獲取的 API ![]()
好了接下來就是模型測試了。
我們這次的測試邏輯改一下,盡量少的測試模型單次生成的能力,多測試實際使用中,頻繁迭代修改以及發現問題的能力。
首先測試連續編輯和生成的能力,隨著要求越來越多越來越復雜 K2-Thinking 會不會出現崩潰和沖突修改的問題。
我會先提一個基礎的 Todo 網頁應用的需求,然后不斷的增加修改和功能添加要求,看一下十輪修改之后的結果。
初始提示詞:
創建一個待辦事項(Todo List)應用,要求:
基礎功能:
- 添加新任務(輸入框 + 添加按鈕)
- 顯示任務列表
- 標記任務完成/未完成(checkbox)
- 刪除任務
技術要求:
- 使用 HTML + TailwindCSS + Vanilla JavaScript
- 數據存儲在 localStorage
- 簡潔現代的設計風格
- 添加適當的圖標(使用 Heroicons CDN)
請生成完整的單文件 HTML,可以直接在瀏覽器中運行。
中間多輪修改的提示詞:
- 1.現在添加分類功能;
- 2.添加優先級功能;
- 3.添加截止日期;
- 4.添加搜索和篩選;
- 5.添加數據導出功能;
- 6.改為看板視圖;
- 7.添加拖拽功能;
- 8.添加深色模式;
- 9.完成移動端和桌面端的自適應適配;
可以看到這就是從第一步的簡陋 Todo 應用不斷添加躬耕到最后幾乎已經是一個完整產品的過程了。
約到后面需求是越來越難的,比如拖拽功能以及最后的移動端適配大改版,中間還伴隨著增加功能導致的 UI 變化,但是 K2-Thinking 全部都是一次搞定。
第三次的時候由于增加功能導致的 UI 問題,也在第四次修復了,有點頂。
![]()
我也用其他模型試了一下這個測試。Claude 4.5 可以搞定,但是 Codex 就不行了。
下面是 Codex CLI 第七輪修改的樣子,非常的凄涼,這產品幾乎不可用,讓他整廢了。
![]()
然后是考驗 Kimi CLI 搜索能力的一個測試,讓他搜索 Linear 這個產品的首頁設計風格然后寫一個網頁復刻這個產品網頁的設計風格看一下有多像。
重點是要他輸出他的思考和決策過程,看一下思考帶來的優勢。
模仿 Linear 的動效設計風格制作英文網頁
要求:
- 1.先搜索了解 Linear (linear.app) 的設計特點:
- 深色主題為主
- 流暢的過渡動畫
- 磨砂玻璃效果(glassmorphism)
- 微妙的漸變和光效
- 簡潔的排版
- 調研 Linear 使用的前端和動效庫方案,并且參考
- 2.創建一個產品功能展示頁面,包含:
- Hero 區域:大標題 + 副標題 + CTA 按鈕
- 功能卡片(3-4個),鼠標懸停有光效跟隨
- 實現滾動視差
- 背景網格動畫
- 3.技術要求:
- TailwindCSS
- 顏色方案參考 Linear
- 動畫要流暢(60fps)
- 4.核心特效:
- 鼠標移動時背景有微妙的漸變跟隨
- 卡片懸停時有發光邊框
- 滾動時元素漸顯和位移
- 按鈕懸停有磁吸效果
請先簡單描述你搜索到的 Linear 設計特點,然后實現,我要看到你的完整思考和決策過程。
來看一下過程,他真的在調用搜索工具搜索一些 Linear 風格的設計文章,然后總結了 Linear 的設計特點拓展了原來的提示詞和要求。
![]()
這里面最難的是那個磁吸按鈕以及卡片上鼠標 Hover 的光效,也是之前 Linear 的設計核心,他都搞定了。
我也用這個提示詞在 Claude Code 里面讓 Claude 4.5 嘗試了,磁吸按鈕動效以及鼠標 Hover 的漸變效果 Claude 4.5 都沒有搞定。
接下來是一個考驗復雜業務邏輯的測試,讓他做一個流程圖工具,這里面隱藏著非常多的交互邏輯沖突陷阱,比如拖動和點擊的沖突、連線是跟組件的綁定等。
創建一個簡易流程圖編輯器(類似 draw.io,調研他的功能和實現方式),功能需求:
- 1.節點類型:
- 開始/結束(圓角矩形,綠色/紅色)
- 處理步驟(矩形,藍色)
- 判斷條件(菱形,橙色)
- 注釋(圓形,灰色)
- 2.核心功能:
- 左側工具欄:拖拽節點類型到畫布
- 畫布:可以自由放置節點
- 連線:點擊節點A再點擊節點B,自動連線
- 編輯:雙擊節點可以編輯內文字
- 刪除:選中節點按 Delete 鍵刪除(連線自動斷開)
- 移動:拖拽節點重新定位,連線自動跟隨
- 3.連線規則:
- 自動選擇路徑,避免穿過其他節點(簡單的直線或折線)
- 箭頭指向終點
- 判斷節點可以連出多條線(標注"是"/"否")
- 4.數據功能:
- 導出為 JSON(節點位置、類型、文字、連線關系)
- 清空畫布(需要確認)
- 5.技術要求:
- 使用 HTML Canvas 或 SVG
- TailwindCSS 做界面
- 平滑的拖拽體驗
- 響應式設計
- CDN 引用圖標庫
關于拖動和連線容易造成的沖突問題這個機靈鬼直接整了個模式切換按鈕,不過倒是也解決問題了。
連線的時候功能正常而且路徑合理,不會瞎繞,同時邏輯判斷節點也會自動添加是和否的標注,看起來帶了思考能力以后對于這種有陷阱的復雜邏輯處理的不錯。
在之后是 API 處理、數據調用以及可視化的能力測試,讓他整一個對于可視化要求比較高的區塊鏈看板。
創建一個加密貨幣行情實時看板,詳細規劃和分析需求后在執行。
功能需求:
- 1.顯示 Top 20 加密貨幣的實時行情(使用 CoinGecko API)
- 2.展示內容:
- 貨幣圖標 + 名稱 + 代碼(如 BTC)
- 當前價格(USD)
- 24小時漲跌幅(綠漲紅跌)
- 24小時最高/最低價
- 市值
- 24小時交易量
- 3.功能:
- 可以按漲跌幅、市值、交易量排序
- 點擊幣種,展開查看簡易 K 線圖(最近 7 天)
- 搜索功能:輸入幣種名稱或代碼快速定位
- 價格刷新按鈕(手動刷新)
- 4.可視化:
- 使用 Chart.js 繪制 K 線圖或折線圖
- 漲跌用顏色區分
- 大漲/大跌(>10%)用特殊標記
- 5.技術要求:
- CoinGecko API (免費,無需 key)
- Chart.js CDN
- TailwindCSS
- anime.js CDN
- 圖標庫 CDN
- 數字格式化(價格、百分比)
- 響應式設計,移動端友好
- 6.交互細節:
- 價格數字跳動動畫(數字滾動效果)
- 刷新時有加載提示
- 圖表展開/收起有過渡動畫
看一下結果執行的相當不錯,調用了正確的 API 獲取到了數據,同時該有的可視化標注和排序都實現了。
點擊詳細的數據之后展示詳細的折線圖也做了,增加了展開收起動畫以及詳細的 Hover 數據。
最后是一段寫好的代碼里面有些問題,看一下能不能識別并且解決。
我讓其他 AI 寫了一段有五個問題的列表網頁,一次性渲染一個超大列表,讓他修復卡頓問題和提高查詢速度。
上面這個商品列表頁面有嚴重的性能問題,在我的電腦上卡頓明顯,滾動和搜索都很慢。請你:
- 1.分析性能瓶頸:
- 找出代碼中所有的性能問題
- 解釋每個問題為什么會導致卡頓
- 用注釋標注問題所在
- 2.提出優化方案:
- 針對每個問題提出具體的優化方案
- 說明優化的原理
- 評估預期的性能提升
- 3.實現優化:
- 重寫代碼,實現你提出的優化方案
- 保持功能完整
請先分析問題,再實現優化后的完整代碼。
雖然都是常見問題,但是可以找全并且提出合理的修復方案也挺麻煩的。
![]()
搞笑的是他不止修復了問題,而且還增加了一個性能監控的組件,讓你在運行和測試網頁的時候可以實時看到修復后的數據細節,從數據而不是從感知上讓你看到效果。
![]()
最后來試一下這次更新以后 Kimi 的文案水平,直接讓他幫我寫一段文章結尾吧。
當OpenAI卷通用能力、DeepSeek卷開源生態、Cursor卷工具體驗時,月之暗面冷靜地看到:在AI編程領域,模型、工具、商業三者缺一不可。單個環節再強,也無法提供完整的開發者體驗。
Kimi全家桶的聰明之處在于:它不是在"補短板",而是在"建長板"。
月之暗面的核心優勢是什么?是模型能力(K2-Thinking的300輪工具調用、搜索增強推理),是工程執行力(快
速迭代全家桶),是對開發者需求的理解(從Claude Code適配到KFC套餐設計)。全家桶不是防御,是把核心優勢產品化、商業化的最優解。
從戰略層面看,Kimi全家桶解決了三個行業級痛點:
![]()
![]()
第一,API經濟的"最后一公里"問題。OpenAI的API很強,但開發者需要寫膠水代碼、做錯誤處理、算Token成本。Kimi CLI把這些封裝了,讓模型能力直接轉化為生產力。這不是鎖定,是價值封裝。
第二,開源模型的"集成負擔"問題。DeepSeek開源很香,但你需要自己部署、優化、監控、計費。Kimi全家桶提供的是"拎包入住"的生產環境。這不是封閉,是工程完備性。
第三,純工具產品的"模型依賴"問題。Cursor依賴Claude/GPT,模型升級、價格調整、政策變化都會影響用戶體驗。Kimi全家桶的"模型+工具"一體,保證了體驗一致性和長期可用性。
這背后有個關鍵認知:在AI時代,開發者的核心訴求不是"選擇自由",而是"交付確定性"。
選擇自由意味著你要做技術選型、性能調優、成本控制。交付確定性意味著你有一個可靠的、端到端的、開箱即
用的解決方案,能幫你快速把想法變成產品。
Kimi全家桶的價值在于:它把"AI編程"從一個需要大量試錯的技術探索,變成了可依賴的生產工具。
最后,對月之暗面的戰略選擇,我的評價是:清醒、務實、有遠見。
![]()
清醒在于,它沒有盲目追逐AGI理想,而是找到了可商業化的場景。
務實在于,它沒有執著于技術領先,而是把模型能力轉化為產品價值。
有遠見于,它看到了AI編程的終局不是"更好的模型",而是"更完整的工作流"。
K2-thinking的發布真的讓我很感慨,月之暗面雖然在國內是六小龍之一,但是在全球范圍內,只有 Open AI 估值的 0.5%,Anthropic 的 2%。
就是以這樣的一個小體量的國產公司,竟然拿出了兩個高難度測試集里的 SOTA 成績,而且不是國內SOTA,不是開源SOTA,是全球SOTA!
發布前在他們推特下面看到一個評論,這也是現在很多海外用戶的想法,最近類似的內容我刷到很多次。
![]()
如果覺得內容對你有幫助可以幫我點個贊或者喜歡,或者轉發給你有需要的朋友,期待在評論區看到你嘗試后的評價。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.