網易首頁 > 網易號 > 正文申請入駐

月之暗面發布K2.6，楊植麟真的需要一個郭達雅

2026-04-21 09:28:15　來源: 鈦媒體APP

北京舉報

分享至

文 | 字母AI

月之暗面發布了Kimi K2.6，這也是楊植麟的第一個X.6版本。

雖然版本號上只加了0.1，但這不是一次普通的版本更新。

K2.6能在單個工程任務中持續12小時、發起4000多次工具調用；在Agent Swarm場景中，官方稱其可橫向擴展到300個子agent、4000個協調步驟。

它開始真正“做事”了。

更有意思的是，就在K2.6發布前幾天，月之暗面開始急招推理平臺工程師，學歷要求只有“本科”。

3月份招Coding agent工程師時，更是打出“不限學歷”的旗號。

這個博士密度極高、論文產出如流水的頭部AI公司，為什么突然降低學歷門檻？

答案就藏在K2.6里。

0 1 K2.6到底有多能干？

官方披露了兩個工程案例。

月之暗面的工程師讓K2.6在Mac上部署Qwen3.5-0.8B模型，并用一門非常小眾的編程語言Zig，來優化推理性能。

結果呢？K2.6跑了12個小時，發起了4000多次工具調用，迭代了14個版本，最終把推理速度從15 tokens/秒提升到193 tokens/秒，比LM Studio還快20%。

但這不是重點，重點在于，從來沒有人教過K2.6怎么用Zig。都是它自己學的。

另一個案例更夸張。

K2.6接手了exchange-core，一個有8年歷史的開源金融撮合引擎。這個引擎已經被優化到接近性能極限，但K2.6還是找到了突破口。

13個小時，1000多次工具調用，4000多行代碼修改。K2.6像一個經驗豐富的系統架構師，分析CPU火焰圖、定位內存瓶頸、重構線程拓撲。最后，它把中等吞吐量提升了185%，性能吞吐量提升了133%。

這不是在做題，這是在解決真實的工程問題。

K2.6的能力可以歸納為四個方向，但每一個方向都不是簡單的“更強”。

第一是長周期編碼。

以前的AI寫代碼，基本上是“一次性交付”。你給它一個需求，它寫完代碼就結束了。但K2.6不一樣，它能持續工作十幾個小時，自己讀文件、跑測試、看報錯、改代碼、再測試，一直循環到任務完成。

它能跨語言泛化，Rust、Go、Python都沒問題。它能處理不同領域的任務，前端、DevOps、性能優化都能搞定。

企業測試的反饋很直接。Blackbox.ai說：“K2.6為開源模型樹立了新標準，尤其是在長周期、agent風格的編碼工作流中。”Factory.ai的內部測試顯示，K2.6比K2.5提升了15%，指令遵循更好，推理更徹底，編碼錯誤更少。

第二是代碼驅動的設計。

你給K2.6一個簡單的提示，比如“做一個科技公司的落地頁”，它不只是生成HTML和CSS，它會給你一個完整的前端界面，包含結構化布局、精心設計的首屏、交互組件、滾動觸發的動畫效果。

更厲害的是，K2.6已經不滿足于做靜態前端了。它開始做簡單的全棧應用，從用戶認證到數據庫操作，輕量級的場景它都能搞定。

月之暗面建立了內部的Kimi Design Bench，分為視覺輸入任務、落地頁構建、全棧應用開發、通用創意編程四個類別。K2.6在這些類別中的表現，已經可以和Google AI Studio掰手腕了。

第三是agent群體協作。

這是K2.6最讓人震撼的地方。

K2.5的Agent Swarm已經很強了，能協調100個子agent、執行1500個步驟。但K2.6直接把規模擴大到300個子agent、4000個協調步驟。

這不單純是數量上的堆疊。

K2.6能讓不同的agent發揮各自的專長：有的負責廣泛搜索，有的負責深度研究；有的分析大規模文檔，有的負責長篇寫作；有的生成文檔，有的生成網站，有的生成幻燈片，有的生成電子表格。

這些agent在K2.6的協調下，形成了一個整體。

舉個例子。

你給K2.6上傳一篇高質量的天體物理學論文，它能把這篇論文轉化為一個“技能”。

提取論文的推理流程、可視化方法、寫作風格。然后，它能基于這個技能，產出一篇40頁、7000字的新論文，外加一個包含20000多條記錄的數據集，以及14張天文級圖表。

第四是主動式agent。

K2.6不再是傳統的那種，只有你發了指令它才會行動的工具，K2.6開始主動工作了。

月之暗面的強化學習基礎設施團隊做了一個實驗，讓K2.6支持的agent自主運行5天，負責監控、事件響應、系統操作。

結果這個agent從告警到解決，全程自己搞定，不需要人工介入。

K2.6在OpenClaw和Hermes Agent這樣的持久化agent平臺上表現出色。它能跨多個應用程序持續運行，7×24小時執行任務，主動管理日程、執行代碼、協調跨平臺操作。

月之暗面建立了內部的Claw Bench，覆蓋編碼任務、即時通訊生態系統集成、信息研究與分析、定時任務管理、內存利用五個領域。在所有指標上，K2.6的任務完成率和工具調用準確性都顯著優于K2.5。

在基準測試中，K2.6的評分就足以說明一切問題。

HLE-Full（帶工具）得分54.0，超過GPT-5.4的52.1和Claude Opus 4.6的53.0。DeepSearchQA的F1分數92.5，準確率83.0。SWE-Bench Pro得分58.6， SWE-Bench Verified達到80.2。

02 月之暗面也想要一個郭達雅

就在幾天前，月之暗面開始急招Kimi Code平臺推理工程師。這個崗位的學歷要求是“本科”，補充一點，圖片中這個“7年”經驗是招聘發起者自己打錯了，實則為“3年”。

在這個博士學歷云集、論文產出如流水的頭部AI公司里，竟然會急招一個本科學歷的推理平臺工程師。

更有意思的是，3月份月之暗面招Coding agent工程師時，更是打出“不限學歷”的旗號。

這不是HR寫錯了要求。AI競爭的主戰場，正在從實驗室的算法創新，轉移到代碼智能和agent這樣，生產環境的工程落地。

你說這不巧了嗎，3月份從DeepSeek離職，4月份加入字節的郭達雅，他最擅長的正是agent和代碼智能。

月之暗面也想要一個郭達雅嗎？

可能不止于此。月之暗面想要的，是一個完整的agent生態。

當模型公司開始從論文、榜單、聊天框走向自動寫代碼、自動調用工具、自動完成任務時，瓶頸不再只是算法，也可能是工程師手里的網關、路由、限流、日志和成本表。

推理平臺工程師到底是做什么的？

這個崗位的核心業務，是為agent搭建穩定、可觀測、成本可控的模型調用基礎設施。

具體來說，就是在模型和應用之間建一套調度系統，讓幾十上百次的模型調用能穩定跑起來，成本可控，出問題能查。

工作內容包括這么幾塊。

第一是模型網關。

agent調用模型時不是直接訪問模型API，而是通過網關統一管理。網關負責請求分發、協議轉換、認證鑒權，還要處理不同模型提供商的接口差異。月之暗面已有K系列模型，但Kimi Code這類平臺仍需要多provider適配。

第二是多模型路由。

不是所有任務都需要最強的模型。簡單的代碼補全用輕量模型就夠了，復雜的架構設計才需要重模型。

路由系統要根據任務類型、上下文長度、響應速度要求，自動選擇合適的模型，避免出現高射炮打蚊子這樣的情況。

這需要你得了解不同的模型，知道它們完成不同任務的成本分別是多少，也需要實時的性能監控和動態調整。

第三是成本控制。

推理模型的token消耗是普通模型的數倍。

比如OpenAI的o1系列，它的reasoning_tokens可能是output_tokens的10多倍。這些內部推理標記雖然不返回給用戶，但算力也被消耗掉。

如果沒有精細的限流降級、token用量統計分析，成本會失控。你需要設計配額系統、優先級隊列、降級策略，保證核心業務不受影響的同時控制成本。

第四是鏈路管理。

就跟快遞一樣，貨物到哪了，你得能在APP上查到。

當一個agent任務涉及幾十次模型調用、幾十次工具調用時，就得追蹤好調用鏈路上的每一環。

用戶說“幫我修這個bug”, agent可能讀了十幾個文件、調了五次模型、跑了三次測試，最后失敗了。你需要知道是哪一步出了問題，是模型推理超時、工具調用失敗、還是上下文窗口溢出。

傳統的日志系統很難追蹤這種復雜鏈路，需要專門為agent設計的分布式追蹤、性能監控、異常告警系統。

第五是狀態管理。

之前模型推理是沒有狀態這個概念的。傳統的對話場景很簡單，用戶輸入一句話，模型返回一段文字，一次請求就結束了。

但agent不同，它需要進行多輪推理鏈，一個任務可能觸發幾十甚至上百次模型調用。

所以進入了agent時代，AI需要記住狀態的不是模型本身，而是圍繞模型搭建的agent runtime。平臺要記錄任務進度、工具調用結果、中間產物和失敗現場，并在下一次模型調用時把必要上下文重新組織進去。

早上8點我給模型安排了一個任務，下午我再看這個模型的時候，它就應該是執行過任務的模型。那么任務執行的結果、執行了多少次等信息，就是模型的狀態。

那又是為什么這個技術崗位的學歷門檻只有本科呢？

楊植麟心里明白，如今的月之暗面不缺能開發算法的博士，事實上“高學歷”對于月之暗面來說不是什么稀缺玩意，相反，能把推理能力工程化、產品化的人才是。

招聘簡介里強調“能在需求還不明確的時候自己判斷該做什么”、“還在一線寫代碼”，這種人才在傳統互聯網大廠的基礎架構團隊里有，在AI公司里卻是稀缺的。

17歲的高中生陳廣宇曾以實習生身份加入Kimi，并成為《Attention Residuals》的共同一作；4月初，Kimi又推出“穿越計劃”，尚未畢業的實習生只要通過3到6個月考察，就能提前拿到正式Offer和期權。

一個博士密度極高的模型公司，開始把高中生、在校生納入核心人才池，本質上說明AI公司的用人邏輯變了。

學歷仍是信號，但不再是門票。

真正值錢的是能不能在實際問題里證明自己的價值。

最具代表性的是月之暗面在今年3月份發布的那個“不限學歷”的Coding agent工程師崗位。

那張招聘海報上寫著：“熟悉Claude Code、Cursor、Codex、Cline等代碼輔助工具，越多越好；能源源不斷地說出Codex比Claude Code垃圾在哪里；能源源不斷地說出Claude比GPT-5垃圾在哪里。”

這些要求看起來有點玩笑的意味，但背后的邏輯很清晰。

月之暗面要的不是論文作者，他們要的是真正用過這些工具、知道坑在哪里、能快速迭代產品的工程師。

月之暗面急需這樣的人，因為他們的模型能力已經到位。

然而要讓這些能力真正支撐起大規模agent應用，基礎設施是瓶頸。當Anthropic的Claude Code上線不到一年ARR就達到25億美元時，楊植麟看到的是一個信號。

下一個階段比的不只是誰的模型參數更多、benchmark分數更高，比的是誰能讓這些能力穩定、高效、低成本地服務于真實業務場景。

這是一個從0到1構建新基礎設施的機會，也是推理計算時代的新職業方向。當AI公司開始為“本科學歷”的工程師開出有競爭力的薪資和期權時，說明整個行業的重心正在轉移。

從實驗室到生產環境，從論文到產品，從算法創新到工程落地，這條路上需要的不只是能發頂會論文的博士，也需要能把系統跑起來、讓用戶用得爽的工程師。

03 月之暗面的深層邏輯

把這些線索串起來，月之暗面的戰略路徑很清晰。

第一層是模型能力，K系列模型覆蓋通用、推理、代碼三個方向。

第二層是工程化，推理平臺讓模型能力可規模化調用。

第三層是生態，開放API，讓第三方基于Kimi構建產品。

這條路在國外是走不通的，企業級AI和開發者工具市場已經被Anthropic、OpenAI、Google等公司高度擠壓，后來者很難再用同樣路徑打開局面。

可是在國內，情況剛好相反。C端產品的競爭已經白熱化，豆包、元寶、千問，每家都在燒錢拉用戶。但B端市場，尤其是開發者工具市場，還有巨大空間。

于是月之暗面選擇了兩條腿走路。

一方面學Claude Code，自己做編程工具Kimi Code，這是直接面向開發者的產品。

另一方面又讓自己的模型適配Claude Code，通過API的方式讓第三方工具調用Kimi的能力，這也是為啥K2.6這么強調agent和代碼能力。

從技術演進的角度看，這是非常合理的。

AI行業正在從“模型創新驅動”轉向“工程化落地驅動”。繼續卷基座模型，比誰的性能更好，可普通用戶已經感受不到差異了。

關鍵問題從“模型夠不夠聰明”變成了“能不能幫我把事兒做成”。

這就需要agent能力，回歸到代碼智能的基本功上。

月之暗面的戰略選擇背后，還有一個更深層的邏輯：數據飛輪。

代碼任務和普通聊天不同，普通聊天很難判斷對錯，但代碼有天然的verifier。

能不能編譯、單測過不過、CI是否失敗、bug是否復現、benchmark是否提升、diff是否合理，這些都是客觀的評價標準。

用戶每一次讓agent改代碼，都會產生高價值軌跡。

讀了哪些文件、用了哪些工具、哪里報錯、怎么修復、測試結果如何。這些軌跡可以反過來做eval、SFT、RL、拒答策略、工具調用訓練。

這就是為什么所有大廠都在搶代碼智能這個賽道，擅長agent和代碼智能的郭達雅也因此變得人人都在瘋搶。

不只是因為開發者市場有付費能力，更是因為代碼任務能夠形成訓練閉環。

在合規授權、脫敏和企業協議允許的前提下，用戶的每一次使用，都會讓這些軌跡可以反過來成為eval、SFT、RL和工具調用訓練的材料。

這種飛輪效應一旦啟動，會形成強大的競爭壁壘。先發優勢會越來越明顯，后來者很難追趕。

月之暗面看到了這一點，所以他們在急招能“做過基礎設施”、“還在一線寫代碼”的工程師。這不只是填補團隊空缺，而是在搶占一個戰略窗口期。

2026年是推理模型從實驗室走向大規模應用的轉折年，誰能先把推理能力工程化、讓開發者用得爽，誰就能占據生態位。

技術能力只是一方面，時間窗口更關鍵。

國內市場的競爭更加激烈。

智譜的GLM-Code、阿里的通義靈碼、字節的豆包代碼助手，每家都在投入重兵。而就在這個節骨眼上，郭達雅從DeepSeek離職，加入字節跳動Seed團隊，擔任agent方向負責人之一。

這個消息在AI圈引發震動，不只是因為他的技術能力，更是因為他的技術標簽太精準了，直接暴露了字節整個2026年的戰略方向。

郭達雅是代碼智能與大模型推理方向的頂尖人才。

從畢業到進入DeepSeek，郭達雅做的是一套可以遷移、可以復用的技術體系。

代碼能力可以遷移到數學推理，數學推理的訓練方法可以遷移到通用推理和agent，這種技術遷移能力正是字節，乃至所有國內AI大廠都需要的。

字節在多模態領域全球領先，Seed 2.0的視頻生成能力有目共睹。

但在數學推理、代碼智能和agent能力上，字節落后于ChatGPT和Claude這樣的競品。

2026年啟動agent與Coding組織整合，梁汝波明確將AI模型能力列為戰略重點。郭達雅的加入，補齊了字節在代碼與推理方向上的關鍵拼圖。

此前有報道稱，郭達雅早在去年10月便已產生離職意向，其關注重點在agent方向，而當時該方向在DeepSeek內部優先級相對有限。

在后續去向選擇中，阿里曾較早與其接觸，提供的崗位是后訓練負責人，管理范圍更大，且在工作地點與現金待遇上具備一定吸引力。

不過最終促成其加入字節Seed團隊的關鍵因素，仍然是在研究方向本身。

字節承諾郭達雅，將agent視為字節的核心方向之一，不僅在模型能力演進中強化agent能力，也在產品側加速相關形態落地。

對于這個邏輯，月之暗面只會看得比我更透徹。

這種急迫不只是人才競爭的壓力，更是戰略窗口期的焦慮。2026年到2027年，可能是agent基礎設施格局確定的關鍵時期。

誰能在這個時間窗口建立起穩定的推理平臺、吸引到足夠多的開發者、形成數據飛輪，誰就能在接下來的競爭中占據主動。

我承認有些標題黨，月之暗面可能并不需要“郭達雅”這個人，但是他的技術標簽“代碼智能和推理能力”，絕對是月之暗面現在最渴望的。

在AI競爭的下半場，能把模型能力變成穩定服務的工程師，它的作用可能和能發頂會論文的博士一樣重要。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

鈦媒體APP

獨立財經科技媒體

132540文章數 862109關注度

往期回顧全部

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

健康

游戲

手機

親子

旅游

手機 / 數碼

房產 / 家居

月之暗面發布K2.6，楊植麟真的需要一個郭達雅

重磅官宣：庫克卸任，特努斯接任蘋果CEO

匈牙利當選總理毛焦爾：若內塔尼亞胡入境 必將被逮捕

匈牙利當選總理毛焦爾：若內塔尼亞胡入境 必將被逮捕

“被優化”8年后，國乒方博決定換一條路重新上場

周潤發時隔16年再賣樓，變現數億資產

減速機訂單已排到明年！

把天門山搬進廠?開仰望U8沖上45度坡的那刻 我腿軟了

態度原創

干細胞抗衰4大誤區,90%的人都中招

猛男必玩國產游戲官宣PSSR2更新!PS5 Pro玩家有福了

Omdia預測：2026年智能手機AMOLED面板出貨下滑7%

生完孩子 才是地獄級副本開始

鄭州南環公園新添紫藤秘境 16個品種解鎖春日溫柔

匈牙利當選總理毛焦爾：若內塔尼亞胡入境必將被逮捕

匈牙利當選總理毛焦爾：若內塔尼亞胡入境必將被逮捕

把天門山搬進廠?開仰望U8沖上45度坡的那刻我腿軟了

生完孩子才是地獄級副本開始