![]()
作者 | 王兆洋
郵箱 | wangzhaoyang@pingwest.com
沒坐在實木茶幾前,沒坐在沙發里,背景也沒有高雅的綠植映襯,月之暗面的CEO楊植麟在視頻里站著就發布了Kimi最新的模型K2.5。
而且還是中英文雙語的。
“Hi 大家好,我是植麟。”楊植麟說。“K2.5是我們目前最強大的模型,它是一個全能模型,不管是視覺還是文本,對話還是agent,思考還是非思考——所有這些能力,都集中在這一個模型里。重要的是,K2.5是一個開源模型。”
顯然,一個瘋狂的模型集體更新季到來了。
而即便如此,在諸多新發布的模型之間,月之暗面剛剛最新發布的Kimi K2.5依然區分度明顯。
根據Kimi的數據,K2.5在包括HLE、BrowseComp 和 DeepSearchQA等極具挑戰性的 agent 評測中取得了當前最佳表現。在編程能力測試上,它在 SWE-bench Verified 上拿到了 76.8 分,縮小了與頂尖閉源模型之間的差距。多項視覺理解評測上也實現了當前最佳效果。
![]()
在這些能力指標之外,更重要的是,K2.5是至今為止最能充分展現月之暗面特質的一代模型:
這家公司一直被寄予厚望的是它的算法研究和產品創新能力,而這代更全面的模型充分展示了這家公司在研究和產品設計上很強的少年氣。
1
先看看K2.5的幾個核心特點:
在模型具體單點的能力上,它終于有了視覺能力,可以基于視覺,包括圖片和視頻,進行理解和推理。同時它是一個all in one架構的模型,多模態和文本、思考和快速回答、代碼和agent能力都統一于一個模型一身。
在月之暗面一直堅信的“模型即產品”思路之下,K2.5這次做了多個很有新意的功能封裝。
它把視覺和編碼能力結合,把模型追求的few shots甚至zero shot能力直接體現在Kimi的產品上,你可以用更簡單的自然語言和更直觀的視覺編輯的方式,比如直接給他一個你要的產品的視頻,讓它拆解后還原復刻,比如直接在生成的UI上圈圈改改,就能完成創作和開發以及修改。
官方給出的一個用視覺能力復刻項目的例子
除了前端設計,伴隨K2.5,Kimi還推出了Kimi Code,可以在終端里直接運行,也能集成到 VSCode、Cursor 等主流編輯器中。你可以直接輸入圖片和視頻進行編程輔助,而且它還可以自動發現并將你現有的Skills遷移到新的工作流中。
更亮眼的則是此次發布的但依然在beta階段的多agent能力。Kimi直接通過產品把模型訓練出來的“多agent平行與串行調度能力”封裝提供了出來:
當你選擇Agent集群模式,模型開始給你打造一個專業團隊,100個agent集群可以同時并發,串行+并行來完成復雜任務。根據Kimi介紹,這些專項 agents 本質上都是 K2.5 的“分身”但各自承擔不同的角色和子任務。
“沒有任何預設的規則,所有的角色分配和任務拆解,都由 K2.5 現場即時決定。”依然是模型通用能力最終大過垂直打造工作流的產品思路。
目前Agent 集群功能正在進行 Beta 測試,部分 Kimi 會員可提前試用,接下來會逐漸推廣。
而在這一切的底座上,在模型訓練方法以及AI技術演進的方向上楊植麟繼續完善著他scale to AGI的路線。
在訓練上,Agent集群對模型提出新的要求,Kimi為此重構了強化學習的基建,專門優化了訓練算法,以確保它能達到極致的效率和性能。
而從K1.5開始,每一代的模型其實都在Scale一個不同的方向,K1.5 是在 token上繼續Scale,到了agent能力增強的K2,重點scale 思考的步驟,而K2.5 則是對agent的規模,也就是多agent的共同協作能力做Scale,進而保持scale的可延續。
“Scaling Out, Not Just Up.”
2
這次K2.5讓Kimi變成一個全面的模型,更難得的,是這些背后都有它自己思路清晰的創新思考。
都說scaling law不持續,我就要給你延續下去,而且是一個又一個“新花樣”的延續。
而且這些Scale的方向后來也都成為了模型研究界在那一階段的主流。此次的多agent其實再次把agent swarm擺到了大家面前,這個“agent蜂巢”的概念提了很久,這次Kimi用一個模型來把它展示出來,接下來如何提高高并發、大批量、多樣性以及智能“分身”的能力,會成為又一個各大廠商比拼的重點。
在此次的技術報告里,Kimi也著重分享了Agent swarm背后的創新。
K2.5使用了一種并行智能體強化學習(PARL)的方法進行訓練,讓模型學會自我指導一個多達100個子智能體的蜂群,在最多1500個協調步驟內執行并行工作流。而這個過程里無需預定義角色或手工設計的工作流。
PARL其實包括三個部分,一個可訓練的編排智能體,負責拆解任務,“分身”出可并行化的子任務,這些子任務由動態實例化的凍結子智能體執行。
這個訓練過程困難重重,比如當你讓它們并行后再串聯起來時,很可能會發現編排器默認退化為了單智能體執行,于是一切都崩了。Kimi為解決此問題,給PARL采用了分階段獎勵塑形,在訓練早期鼓勵并行,并逐步將重心轉向任務成功。
![]()
這一套創新帶來很好的效果。在Kimi的內部評估中,Agent Swarm使端到端運行時間縮短80%,并支持更復雜的長周期任務負載。
![]()
在廣泛搜索場景下,相比單智能體執行,它將達成目標性能所需的最小關鍵步驟減少3至4.5倍,且節省效果隨目標提升而擴展——通過并行化實現高達4.5倍的實際耗時縮減。
同時,在多模態上,它不只是給一個文本模型補上這個能力就完事了,它同樣展現了自己對這個能力究竟能給人們帶來什么價值的思考。
眼看人們的創造都已離不開AI卻又逐漸淪陷在AI味兒的模版化里無暇逃離,它就花大力氣去訓模型的“美學品味”。
眼看提示詞工程正變得越來越懸乎,本該簡潔的AI交互里,它(很多時候瞎熱鬧)的復雜性正被反過來用作一種新的FOMO來源,于是Kimi強化了K2.5的意圖理解能力,并且在交互上做文章——
都知道多模態是必備能力,但Kimi覺得它不該是“目的”本身,而應該是一把利刃,加持到Coding的能力上去,這樣能讓更多人平等的享受AI帶來的編程“普惠”紅利,不用陷入提示詞陷阱里去。
有用戶使用K2.5生成的網頁 Prompt: Code me a landing page for a gym super good UI/UX single file html css javascript no limit.
Kimi從成立到今天,有一個地方一直沒變,就是它是一個最有自己想法的,甚至有時候讓人感到充滿一股中二氣質和熱血感的模型公司。
一個很有意思的地方是,當這個多agent調用時,它會給不同agent起名字,在一個案例里,這些agent的名字中二氣十足:
![]()
比起在榜單上對閉源模型的逼近,其實今天我們更需要的沒有被困在某個階段或是困在原地的模型和公司們,它們能讓人看到繼續打破一些桎梏往前走的希望,讓人看到一些少年氣,這真的很重要。
![]()
點個“愛心”,再走 吧
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.