不卷跑分不養(yǎng)蝦，MiniMax M2.7 帶來了一個真正能打的 Cowork Agent

2026-03-19 20:30:38　來源: CSDN

北京舉報

分享至

3月18日晚，Minimax 悄悄上了波大分。

更新了其最新的M2.7版本，并且官方還給出了一個核心定義：M2.7，是 MiniMax 第一代深度參與自身進(jìn)化的模型。

其不僅在指令遵循、辦公協(xié)同、Coding 方面有明顯提升，更重要的是它能夠自主搭建 Agent Harness。也就是說，它能搭出一套完整的任務(wù)框架，調(diào)用各種技能和工具，解決單個模型搞不定的問題，思考干活兩手抓，妥妥的“自我進(jìn)化”。

但這不是光說不練，Minimax還甩出了可驗證的測試數(shù)據(jù)。在測試中，測試員給它甩在了MLE Lite 22道高難度競賽中，M2.7取得了9金5銀1銅的成績，僅次于Opus-4.6、GPT-5.4，與Gemini-3.1持平。

另外，在當(dāng)下行業(yè)最關(guān)注的 Agent 真實任務(wù)執(zhí)行能力評測上，M2.7 的表現(xiàn)同樣出圈。在基于標(biāo)準(zhǔn)化 OpenClaw Agent 測試的 PinchBench 榜單中，剛發(fā)布的 M2.7 快速登頂，以 86.2% 的任務(wù)成功率擊敗英偉達(dá) Nemotron 3，拿下了 Best score 榜單的全球第四名，僅次于 Claude Sonnet 4.6、GPT-5.4、Claude Opus 4.6，刷新了國內(nèi)大模型在該榜單的最好成績。

而此次更新僅僅距離 M2.5 過去一個月。接連刷新的榜單、肉眼可見的能力躍升，都在印證一件事：大模型的能力已經(jīng)不僅僅局限于答題、寫代碼的基礎(chǔ)能力，正在向自主規(guī)劃、自主迭代進(jìn)化。

尤其是 OpenClaw 爆火后，大家更在意的，已經(jīng)不是模型能不能寫代碼了，而是接進(jìn)真實工作流以后到底好不好用。說白了，就是把模型和工具真正接起來跑任務(wù)之后，它會不會掉鏈子，能不能把事情接著往下做。OpenClaw 本身就是沖著這種用法去的，所以現(xiàn)在大家都在找一個更合適的大模型接入。

我們第一時間拿到了上手評測的機會。這一次，我們核心要驗證的只有一件事：接入 OpenClaw 之后，M2.7 的真實體驗到底如何？M2.7 到底是不是現(xiàn)在國內(nèi)最好的 Cowork Agent？

長鏈路任務(wù)的穩(wěn)定性，才是真分水嶺

最近 OpenClaw 這波熱度，大家應(yīng)該都感受得到。現(xiàn)在模型能接進(jìn)去，真不算新鮮事了，真正開始拉開差距的，是接進(jìn)去以后到底好不好使。任務(wù)短的時候，很多模型都還能裝得挺像樣；一旦開始掛 skills、開始疊約束、開始把流程拉長，問題就出來了，前面條件沒吃透，后面補充一句它就亂，做到一半直接掉線。

OpenClaw 本來就是沖著把模型和工具、會話、任務(wù)鏈路接起來去的，所以放在這個環(huán)境里測，反而更容易看出一個模型到底靠不靠譜。

第一個任務(wù)是一道約束很多的龍蝦活動題，預(yù)算、人群、渠道、門店承載、風(fēng)險和備選方案全都提前卡死，重點就看它會不會先把條件理清，再往下拆。

M2.7 這一步給我的感覺還不錯，沒有急著往外發(fā)散，而是先把約束撈出來，再拆任務(wù)，再給方案，這種起手方式就比較讓人放心。而這也正是 M2.7 本次升級的核心強化方向 —— 復(fù)雜長鏈路任務(wù)的承接與落地，實測下來的表現(xiàn)的確不俗。

接著我把任務(wù)再拉長一點。先給一版基礎(chǔ)方案，然后一輪一輪往上加條件，不能打折、供應(yīng)鏈有限、門店人手少、目標(biāo)人群變了，最后再加一個更像真實業(yè)務(wù)會提的要求，希望這套活動下個月還能復(fù)用成 SOP。

全程下來，M2.7 沒有出現(xiàn)很多模型常見的 “一加需求就推翻重寫” 的問題，始終能沿著初始的核心邏輯持續(xù)優(yōu)化迭代，這一點對于長流程工作流來說，至關(guān)重要。第三輪迭代中它出現(xiàn)了短暫的卡頓，能看出超長鏈路中仍有小幅波動，但在追問之后，它快速補齊了所有內(nèi)容，包括最小可復(fù)用版本、標(biāo)準(zhǔn)化執(zhí)行環(huán)節(jié)、人工決策節(jié)點，完整承接，沒有出現(xiàn)信息遺漏。

跑完這兩組全鏈路任務(wù)，M2.7 在 OpenClaw 里的表現(xiàn)已經(jīng)非常清晰：它最核心的價值，不是單輪輸出多么驚艷的答案，而是任務(wù)啟動時邏輯清晰、鏈路拉長后不易散架、多輪迭代中不丟約束。在真實的工作流里，這種穩(wěn)定的持續(xù)交付能力，遠(yuǎn)比單輪的華麗輸出重要得多。而在復(fù)雜長鏈路任務(wù)的承接上，M2.7 已經(jīng)交出了國內(nèi)最好的 Cowork Agent該有的滿分答卷。

代碼能力全場景驗證：從 “寫代碼” 到 “做項目” 的工程化躍升

真要看編程能力，還是得把項目丟過去。MiniMax 這次公開給出的方向里，Coding 的位置明顯更靠前。官方數(shù)據(jù)顯示，在 SWE-Pro 基準(zhǔn)測試中，M2.7 得分 56.22%，無限接近 Claude Opus 的頂級水平；在端到端完整項目交付的 VIBE-Pro 測試中得分 55.6%，在復(fù)雜工程系統(tǒng)理解的 Terminal Bench 2 測試中得分 57.0%。更重要的是，它的能力早已跳出了單純的代碼生成，延伸到了日志分析、Bug 定位、故障排障、工程重構(gòu)等高階開發(fā)領(lǐng)域，而這種變化，在實測中有著極為直觀的體感。

在前端測試環(huán)節(jié)，我們給出了一個品牌展示官網(wǎng)的全量開發(fā)需求，這個任務(wù)的難度并非簡單的頁面拼接 ——它會包含品牌調(diào)性、視覺配色、頁面節(jié)奏、交互動效、粒子特效等多個維度，并且多個維度必須同時達(dá)標(biāo)，最終產(chǎn)出的才是一個能真正商用的官網(wǎng)。很多模型在這里最容易翻車的。而 M2.7 的表現(xiàn)也超出了我的意料，尤其是配合官方 Skill 協(xié)同運行時，頁面的完成度直接拉滿，完全沒有常見的模板化痕跡，視覺層次、品牌配色、交互動效完全統(tǒng)一，最終交付的是一個可以直接上線使用的完整站點，而非零散的代碼片段。

在后端測試環(huán)節(jié)，我給 M2.7 的不是補幾段接口代碼的小任務(wù)，而是一個從零開始往下搭的真實項目。技術(shù)棧用的是 Python、FastAPI 和 PostgreSQL，里面既有接口、數(shù)據(jù)模型、鑒權(quán)這些基礎(chǔ)環(huán)節(jié)，也有遷移、測試、文檔和后續(xù)排障。這類任務(wù)真正難的地方，不在代碼量，而在上下文要一直對得上，前面定下來的結(jié)構(gòu)，后面每一步都不能亂。 M2.7 這一輪最讓人驚喜的一點，就是它在這種連續(xù)工程任務(wù)中，更像是資深開發(fā)的項目管理思維，而非單純的代碼生成工具：先搭好完整的項目骨架，再逐層補齊數(shù)據(jù)庫設(shè)計、業(yè)務(wù)接口、測試用例、接口文檔，項目上線跑通后，遇到問題還能自主排查、快速修復(fù)，全程邏輯連貫，沒有出現(xiàn)任何架構(gòu)跑偏、上下文脫節(jié)的問題。

M2.7 這次編程能力最明顯的變化，不是某個點突然特別炸，而是工程感更強了。前端會往展示結(jié)果上收，后端也能按項目節(jié)奏一路往下推。現(xiàn)在模型會寫代碼已經(jīng)不稀奇了，真正有價值的是項目跑起來之后還能不能繼續(xù)跟。就這一點看，M2.7 已經(jīng)不只是一個會生成代碼的模型了，而是在往真正能參與開發(fā)流程的 Cowork Agent 方向走。放到國內(nèi)這批模型里，這種工程參與感其實很少見。

辦公自動化全鏈路考驗：覆蓋完整知識工作流的協(xié)同能力

Office 自動化這塊，我沒有拿簡單表格來試，而是直接上了一條完整鏈路。先生成一套模擬經(jīng)營數(shù)據(jù)，再基于數(shù)據(jù)做復(fù)雜金融圖表，最后把圖表和數(shù)據(jù)整理成網(wǎng)頁數(shù)據(jù)報告。這里測的已經(jīng)不是會不會寫公式，而是數(shù)據(jù)、圖表、分析和展示能不能連成一套結(jié)果。

M2.7 這一輪的表現(xiàn)比較扎實。數(shù)據(jù)生成不是隨便拼數(shù)字，收入、利潤率、現(xiàn)金流、營收這些指標(biāo)之間有基本邏輯；圖表也不是簡單折線圖，而是把幾個關(guān)鍵經(jīng)營指標(biāo)放進(jìn)同一個分析畫面里，信息密度和重點都夠。繼續(xù)往下做網(wǎng)頁報告時，它也沒有停在把圖貼上去，而是把核心結(jié)論、風(fēng)險點和管理建議一起整理出來，最后形成的是一份能直接展示的頁面，不是一堆零散素材。

它現(xiàn)在展現(xiàn)出來的，已經(jīng)不是基礎(chǔ)表格處理能力了，而是復(fù)雜 Office 自動化能力。數(shù)據(jù)清洗、圖表生成、分析歸納、匯報整理這一整條鏈路，它都能繼續(xù)往下做，多輪修改之后結(jié)構(gòu)也沒有明顯散掉。放到真實辦公場景里，這種表現(xiàn)比單獨會做 Excel、會寫報告更有參考價值，因為它開始覆蓋的是更完整的知識工作流程。

從能力邊界來看，M2.7 的能力已經(jīng)不只是停留在辦公整理層面。其不僅能完整落地企業(yè)經(jīng)營分析全鏈路任務(wù)，并且對于資料歸納、研究鏈路梳理、專業(yè)分析與結(jié)果匯總這類更高階的知識工作，也能輕松完成。

最佳 Cowork Agent 來了嗎？

這一輪測下來，M2.7 給我最明顯的感覺，已經(jīng)不只是編程能力繼續(xù)往上走了一點，真正拉開差距的地方，在于它對智能體工作流的支持更完整了。尤其放進(jìn) OpenClaw 之后，這種變化會更明顯。任務(wù)交過去，它不只是給一段回答，很多時候是真的能順著任務(wù)往下做，過程中也沒那么容易散。單看這一點，我會直接把 M2.7 放在國內(nèi)最好 Cowork Agent 的位置上。

如果用幾句話概括 M2.7 這次最值得看的地方，核心還是連續(xù)性、穩(wěn)定性和落地感。

不過更值得注意的是，它這次已經(jīng)開始顯出自我迭代能力。

官方給出的路徑很清楚，不只是讓模型調(diào)用 Agent Harness 干活，而是讓它基于短時記憶、自反饋和自優(yōu)化去反復(fù)調(diào)整自己的做事方法。內(nèi)部腳手架優(yōu)化里，M2.7 可以連續(xù)跑超過 100 輪分析失敗軌跡、規(guī)劃改動、修改代碼、回跑評測、對比結(jié)果，再決定保留還是回退，內(nèi)部評測效果提升 30%。放到更重的機器學(xué)習(xí)任務(wù)里，它在 MLE Bench Lite 22 個任務(wù)上拿到 9 金 5 銀 1 銅，平均得牌率 66.6%。這說明它已經(jīng)不只是執(zhí)行任務(wù)，也開始參與優(yōu)化完成任務(wù)的路徑。

當(dāng)下整個行業(yè)都在跟風(fēng)適配 OpenClaw，忙著教模型怎么用好人類打造的工具，卻很少有人真正去突破模型的能力邊界 —— 讓模型自己造工具、自己搭框架、自己完成迭代進(jìn)化。M2.7 自主搭建 Agent Harness 的能力，本質(zhì)上是讓模型擁有了自主打造 “任務(wù)操作臺” 的能力，它不再局限于人類給定的工具與框架，而是能根據(jù)任務(wù)需求，自主搭建完整的任務(wù)執(zhí)行體系，調(diào)度多智能體協(xié)同作業(yè)，甚至能通過自反饋、自優(yōu)化，持續(xù)迭代這套體系本身。

更重要的是，它已經(jīng)深度參與到了 MiniMax 自身的模型研發(fā)流程中，成為了下一代模型研發(fā)的核心參與者，真正實現(xiàn)了 “模型訓(xùn)練模型” 的正向循環(huán)。這種自我迭代的技術(shù)創(chuàng)新，不僅讓 M2.7 坐穩(wěn)了國內(nèi)最好 Cowork Agent 的位置，更提前搶占了下一代大模型競爭的核心分水嶺，開啟了大模型自主進(jìn)化的全新紀(jì)元。

顯然，M2.7 更適合那些已經(jīng)不滿足于簡單問答的人。獨立開發(fā)者、全棧工程師、產(chǎn)品型開發(fā)者，或者本來就會把模型接進(jìn)自己工作流的人，用起來會更容易感受到它的價值。因為這類用戶真正關(guān)心的，從來不是模型會不會說幾句聰明話，而是能不能把任務(wù)拆開、持續(xù)推進(jìn)、出問題后繼續(xù)修正，最后把結(jié)果交出來。

借著M2.7，我們似乎也看到了最強的 Cowork Agent 長什么樣子，或許在未來，我們能看到 AI 能承接更多的任務(wù)，解決更復(fù)雜的任務(wù)。

如果你當(dāng)下正在關(guān)注 OpenClaw 的生態(tài)，或是正在尋找一款接入后足夠順手、足夠能打、能真正融入工作流的大模型，M2.7 絕對值得你親自上手實測。

體驗地址如下，快來試試吧！

MiniMax Agent：

agent.minimaxi.com

Token Plan 訂閱：

https://platform.minimaxi.com/subscribe/token-plan

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.