![]()
4 月 15 日,微軟正式發布 MAI-Image-2-Efficient,這是其旗艦文生圖模型 MAI-Image-2 的低成本、高速度變體。新模型定價為每百萬輸入 token 5 美元、每百萬輸出圖像 token 19.5 美元,較 MAI-Image-2 的 33 美元輸出定價下降約 41%。
微軟聲稱,該模型在 NVIDIA H100 硬件上運行速度快 22%,每 GPU 吞吐量效率提升 4 倍,延遲表現優于谷歌 Gemini 3.1 Flash、Gemini 3.1 Flash Image 及 Gemini 3 Pro Image 三款模型平均 40%(基于 p50 中位數基準測試)。
這是微軟 AI 超級智能團隊(MAI Superintelligence team)自 2025 年 11 月公開亮相以來推出的一整套模型矩陣中的最新成果,也是該團隊首次實現旗艦模型發布后不到一個月即推出優化變體的“初創公司式”迭代節奏。而這一切的背后,是微軟與 OpenAI 曾經定義生成式 AI 時代的合作伙伴關系正在出現明顯裂痕。
雙模型策略:Efficient與Flagship
微軟將 MAI-Image-2-Efficient 定位為“生產線工具”,目標場景包括產品攝影、營銷創意、UI 樣機、品牌資產管道和實時交互應用。該模型能夠干凈地處理標題和標簽等短文本,適用于批處理環境的嚴格延遲和預算約束。
而 MAI-Image-2 則繼續擔任“精密儀器”角色——當需求涉及最高級別的照片級真實感、復雜風格化(如動漫或插畫)或更長更復雜的圖像內文字時,企業客戶仍需選擇旗艦模型。
這種分層配對策略并非微軟首創。OpenAI 的 GPT 模型梯隊、Anthropic 的 Haiku-Sonnet-Opus 產品線、谷歌的 Flash-Pro 區分,都采用了類似的定價邏輯。但在圖像生成領域,單張圖像的成本經濟學可能決定規模化部署的成敗。
據報道,該模型已在 Arena.ai(原 LMArena)圖像生成排行榜上位列第三,僅次于谷歌 Gemini 3.1 Flash 和 OpenAI 的 GPT Image 1.5。評測者指出,MAI-Image-2 的照片真實感是“真正的優勢”,文字渲染能力“超出預期地一致處理復雜排版”。在某些直接對比中,MAI-Image-2 甚至在圖像質量和文字渲染上超越 OpenAI 的 GPT Image 1.5——盡管在排行榜上仍居其后。
但原模型也存在顯著限制:生成間隔 30 秒冷卻時間、原生界面每日 15 張上限、僅支持 1:1 寬高比、缺乏圖生圖功能,以及會屏蔽無害創意提示的激進內容過濾。此次 Efficient 版本是否繼承或放寬這些限制,微軟在公告中未予說明。
微軟-OpenAI 聯盟松動
但這次發布不能孤立理解,特別是當下微軟與 OpenAI 關系已經出現明顯裂痕。
4 月 12 日,OpenAI 新任首席營收官 Denise Dresser 向員工發送了一份內部備忘錄。據報道,備忘錄在批評競爭對手 Anthropic 的同時,也提到“我們與 Microsoft 的合作是我們成功的基礎,但它也限制了我們在企業所在的地方與他們相遇的能力,對很多企業來說,那個地方是 Bedrock”。備忘錄稱,自 2 月底宣布與 Amazon 合作以來,來自客戶的入站需求“坦率地說令人震驚”。
微軟早在 2024 年 7 月底的年度報告中(10-K 表格)已將 OpenAI 列入競爭對手名單。而 OpenAI 則通過 CoreWeave、谷歌和甲骨文多元化其云基礎設施,減少對微軟 Azure 的依賴。
MAI 模型家族是微軟這一戰略脫鉤最具體的表達。當微軟能夠以每百萬輸出 token 19.5 美元的成本用自研模型生成生產級質量圖像時,繼續授權 OpenAI 圖像模型并與其分享收入的算盤就會發生戲劇性轉變。每一個達到生產質量的 MAI 模型,都是微軟可能從 OpenAI 資產負債表移至自己賬下的項目。
此前,3 月 17 日,據微軟官方博客披露的全面重組中,將消費者和商業 Copilot 業務統一至單一領導團隊,Jacob Andreou 升任 Copilot 執行副總裁直接向納德拉匯報。關鍵的是,Mustafa Suleyman (微軟 AI CEO,主導組建 MAI 超級智能團隊)的角色也被重新聚焦。納德拉在給員工的信中寫道,公司正在“加倍投入超級智能使命,用人才和算力構建在評估、成本削減(COGS reduction)和前沿推進方面產生實際產品影響的模型”。
“COGS reduction”這一企業黑話直指經濟動機:每節省一美元授權費用,就直接流入毛利率,即降低每生成一張圖所消耗的算力、推理和運營費用。
為什么便宜快速的圖像生成至關重要
還有一個維度讓此次發布具有戰略意義,且可能是最重要的一個:AI Agent 的崛起。
據報道,微軟正在測試將類似 OpenClaw 的功能集成到 Microsoft 365 Copilot 中,構建可長時間執行多步驟任務的 always-on agent。公司已推出 Copilot Cowork(在 Microsoft 365 應用內行動的 agent)、Copilot Tasks(完成多步驟個人生產力任務的 agent)和 Agent 365(納德拉重組備忘錄中提及)。預計將在 6 月的 Build 大會上展示這些 agent 能力。
在 Agent 世界——AI 系統不僅回答問題,還能自主執行復雜工作流——圖像生成成為 agent 可編程調用的基礎組件,而非用戶手動交互的獨立產品。一個構建營銷活動的企業 agent 可能需要生成數十張產品圖片、創建社交媒體素材、制作演示圖形,并在無人干預的情況下迭代設計概念。
這種工作流的經濟學完全由 per-token pricing(按 token 計費)和延遲支配,而這正是 MAI-Image-2-Efficient 優化的核心。如果微軟對 Copilot 的愿景涉及在日常大型工作流中例行調用圖像生成的 agent,那么這些 agent 需要的圖像生成必須足夠快以不造成瓶頸、足夠便宜以在每天數千次調用時不破壞成本預測。
4 倍效率提升和 41% 價格削減不只是漂亮的營銷數字——它們是微軟押注公司的 Agent 未來的架構要求。
此次發布仍有若干關鍵問題未解答。
微軟未披露 MAI-Image-2-Efficient 是否解決了評測者在原模型中指出的寬高比限制和激進內容過濾。公司也未說明質量與速度的權衡是否在復雜提示下涉及可見的質量下降——公告中將“生產就緒質量”和“旗艦質量”互換使用,但任何類型的蒸餾模型通常都涉及某種質量讓步。
MAI Playground 目前僅在美國等選定市場可用,歐盟可用性列為“coming soon”。Copilot 集成正在進行但未完成。通過 Foundry 的企業 API 雖已上線,仍處于早期部署階段。
但軌跡明確無誤。在 MAI 超級智能團隊宣布后不到五個月,微軟已推出一個旗艦圖像模型、三個其他基礎模型,以及現在的成本優化生產變體——所有這些都在重組整個 Copilot 組織、應對與最重要 AI 合作伙伴的破裂關系、并為可能重新定義企業生產力的 Agent 功能奠定基礎的同時完成。
對于這家在生成式 AI 時代前兩年主要轉售他人技術的公司而言,微軟現在正在做一些它很久未在 AI 領域做過的事:按照自己的時間表、以自己的價格、交付自己的工作——并挑戰市場跟上。(本文首發鈦媒體APP,作者 | 硅谷Tech_news,編輯 | 秦聰慧)
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.