網易首頁 > 網易號 > 正文申請入駐

螞蟻全模態模型開源！首創人聲配樂音效一次生成，圖像編輯指哪改哪

2026-02-11 18:57:17　來源: 智東西

北京舉報

分享至

智東西
作者李水青
編輯心緣

智東西2月11日報道，今日，螞蟻集團開源全模態大模型Ming-flash-omni 2.0。在多項公開基準測試中，該模型的視覺語言理解、語音可控生成、圖像生成與編輯等能力表現突出，趕超Qwen3-Omini-30B-A3B-Instruct等同類模型。

Ming-flash-omni 2.0是業界首個全場景音頻統一生成模型，可在同一條音軌中同時生成語音、環境音效與音樂。用戶只需用自然語言下指令，即可對音色、語速、語調、音量、情緒與方言等進行精細控制。模型在推理階段實現了3.1Hz的極低推理幀率，實現了分鐘級長音頻的實時高保真生成。

與螞蟻2025年5月推出的Ming-flash-omni Preview相比，Ming-flash-omni 2.0實現了跨代升級，側重于優化以下關鍵領域的功能：

1、專家級多模態認知：它能精準識別動植物以及文化典故，并對文物進行專家級分析。通過將高分辨率視覺捕捉與龐大的知識圖譜相結合，該模型實現了“視覺到知識”的合成，知識理解能力更強。

2、沉浸式可控統一聲學合成：它引入統一的端到端聲學生成流程，將語音、音頻和音樂集成于單一通道中。該模型利用連續自回歸算法結合擴散變換器 (DiT) 頭部，實現了零樣本語音克隆和精細的屬性控制，例如情感、音色和環境氛圍，大幅提高聽覺體驗。

3、高動態可控圖像生成與處理：它采用原生多任務架構，整合了分割、生成和編輯功能，實現了精細的時空語義解耦。它在高動態內容創作方面表現卓越，包括大氣重建、無縫場景合成和上下文感知物體移除，且能在復雜的圖像處理任務中達到頂尖精度。

目前，Ming-flash-omni 2.0的模型權重、推理代碼已在Hugging Face等開源社區發布，用戶也將可通過螞蟻百靈官方平臺Ling Studio在線體驗與調用。

Hugging Face地址：
https://huggingface.co/inclusionAI/Ming-flash-omni-2.0
GitHub地址：
https://github.com/inclusionAI/Ming
魔搭社區地址：
https://www.modelscope.cn/models/inclusionAI/Ming-flash-omni-2.0
體驗入口：
https://ling.tbox.cn/chat

一、動植物與知識識別變強，音頻三合一生成是特色

首先來看看Ming-flash-omni 2.0的實際應用效果。智東西在Ling Studio還未收到更新，我們可以先從幾組官方公布的案例中來看看Ming-flash-omni 2.0能做什么。

在多模態認知方面，Ming-flash-omni 2.0能較精準識別動植物，如下圖所示，當用戶上傳幾張馬的圖片和植物的圖片，Ming-flash-omni 2.0能夠比較準確分辨出馬和植物的品種。

再看看Ming-flash-omni 2.0側重提升的文化典故識別能力。當用戶讓該模型分別介紹一張關于馬的文物照片和繪畫照片，其能夠比較準確的識別出這是“馬踏飛燕”和徐悲鴻的《奔馬圖》，并且進行了較專業的解讀，可以看到內置知識變強及知識理解能力的提升。

Ming-flash-omni 2.0支持自由多模態切換，用戶可以用語音對話，讓Ming-flash-omni 2.0識別和生成多種模態的內容，這些動作都是交替進行的。

在流媒體對話方面，螞蟻上傳了一個用Ming-flash-omni 2.0識別舞龍獅表演的視頻，其不僅能夠準確識別事物，還能夠講解背后文化知識，延遲較低。不過，其語音聽起來仍然沒有達到完全的真人感，能聽出來是AI聲音。

在可控統一聲學合成方面，兩個人聲在講解Ming-flash-omni 2.0可以為音頻添加背景音樂、音效，而這個音頻本身正是Ming-flash-omni 2.0生成的。人聲之下墊有節奏明快的背景音樂。據悉，其還支持零樣本語音克隆和精細的屬性控制，例如情感、音色和環境氛圍。

在圖像生成與處理方面，如下所示，當用戶輸入一張照片，并輸入一段提示詞，比如“背景換成澳大利亞藍天，姿勢自然一點”、“背景換成西湖并改成拍手”等，就可以得到所需的照片，能達到較高的修改精度。這一高精度能力在谷歌Nano Banana等專用模型那里也仍有難度，Ming-flash-omni 2.0實際表現如何，能否達到官方案例效果，還有待用戶親自實操后來評判。

二、全模態能力匹敵專業模型，多項能力超Gemini 2.5 Pro

看完實際應用，再來看看模型測評成績。

在通用圖像理解方面，Ming-flash-omni 2.0在HallusionBench、MMvet測評上超越了Gemini 2.5 Pro、Qwen3-Omini-30B-A3B-Instruct等模型，具有較強的內容理解和知識能力，較少的幻覺情況。

在文檔理解方面，Ming-flash-omni 2.0在ChartQA、OCRBench測評上超越了Gemini 2.5 Pro，在AI2D上得分略低于Gemini 2.5 Pro，但整體得分都在87分以上，在處理文檔、圖表識別等方面表現較好。

在STEM（科學、技術、工程、數學）方面，Ming-flash-omni 2.0的測評表現全面超越Qwen3-Omini-30B-A3B-Instruct，得分接近Gemini 2.5 Pro。

▲Ming-flash-omni 2.0的實測表現

在定位與內部知識方面，其在圖像中定位和指定特定對象的能力較強，接近90分，內置知識庫的準確性和豐富度得分也遠高于Gemini 2.5 Pro、Qwen3-Omini-30B-A3B-Instruct。

在多圖像理解方面，該模型在MVbench、CharadesSTA上的得分超過了Gemini 2.5 Pro、Qwen3-Omini-30B-A3B-Instruct，在MLVU上也表現較好，但略低于Gemini 2.5 Pro。

在語音方面，作為業界首個全場景音頻統一生成模型，其在語音識別（WER越低越好）和語音生成準確率的表現都非常優異，在多個基準上領先。

在圖像生成、編輯和分割方面，其在DPGBench、Geneval、RefCOCO-val等測評中都取得了匹敵專用模型的成績。

三、統一架構，降低多模型串聯成本和復雜度

業內普遍認為，多模態大模型最終會走向更統一的架構。但現實是“全模態”模型往往很難同時做到通用與專精，在特定單項能力上往往不及專用模型。

Ming-omni系列正是在這一背景下持續演進，早期版本構建統一多模態能力底座，中期版本驗證規模增長帶來的能力提升，而最新2.0版本通過更大規模數據與系統性訓練優化，將全模態理解與生成能力推至開源領先水平，并在部分領域超越頂級專用模型。

2025年5月，螞蟻開源了MoE架構的統一多模態大模型Ming-lite-omni，實現了以單一模型處理包括圖像、文本、音頻和視頻在內的廣泛輸入類型；2025年7月，螞蟻集團推出升級的Ming-lite-omni v1.5，在可控圖像生成、生成式圖像分割、深度及邊緣檢測三大維度能力上得到提升。

2025年10月，螞蟻集團進一步開源了Ming-flash-omni-Preview，成為當時首個參數規模達到千億的開源全模態大模型。當時，Ming-flash-omni-Preview仍有不完善的地方，包括視覺文本理解能力與頂尖專用VL大模型仍存在一定差距，語音多輪對話效果以及高質量的音色克隆仍需優化，在復雜布局文字渲染與編輯、特定IP角色的生成方面還有待提升。

此次螞蟻集團將Ming-flash-omni 2.0在這些方面實現提升，達到了整體跨代的效果。Ming-flash-omni 2.0基于Ling-2.0架構（MoE，100B-A6B）訓練，主要圍繞“看得更準、聽得更細、生成更穩”三大進行了優化。

視覺方面，該模型融合億級細粒度數據與難例訓練策略，顯著提升對近緣動植物、工藝細節和稀有文物等復雜對象的識別能力。

音頻方面，其實現了語音、音效、音樂同軌生成，支持自然語言精細控制音色、語速、情緒等參數，并具備零樣本音色克隆與定制能力。

圖像方面，其增強了復雜編輯的穩定性，支持光影調整、場景替換、人物姿態優化及一鍵修圖等功能，在動態場景中仍保持畫面連貫與細節真實。

百靈模型負責人周俊談道，全模態技術的關鍵在于通過統一架構實現多模態能力的深度融合與高效調用。開源后，開發者可基于同一套框架復用視覺、語音與生成能力，顯著降低多模型串聯的復雜度與成本。

Ming-flash-omni 2.0模型的開源，意味著其核心能力以“可復用底座”的形式對外釋放，為端到端多模態應用開發提供統一能力入口。

結語：統一架構全模態模型加速發展

隨著自回歸路線統一了語言模型領域，多模態領域能否出現一個統一的架構路線？國內外多家企業或機構展開了統一多模態學習的訓練，打造性能出色的原生多模態大模型，螞蟻集團在這一領域有頗多嘗試。

盡管相比最頂尖的專業模型仍有差距，但以Ming-flash-omni 2.0為代表的全模態模型已經逼近專業模型性能。未來，團隊將持續優化視頻時序理解、復雜圖像編輯與長音頻生成實時性，完善工具鏈與評測體系，推動全模態技術在實際業務中規模化落地。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.