<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      螞蟻全模態模型開源!首創人聲配樂音效一次生成,圖像編輯指哪改哪

      0
      分享至


      智東西
      作者 李水青
      編輯 心緣

      智東西2月11日報道,今日,螞蟻集團開源全模態大模型Ming-flash-omni 2.0。在多項公開基準測試中,該模型的視覺語言理解、語音可控生成、圖像生成與編輯等能力表現突出,趕超Qwen3-Omini-30B-A3B-Instruct等同類模型。

      Ming-flash-omni 2.0是業界首個全場景音頻統一生成模型,可在同一條音軌中同時生成語音、環境音效與音樂。用戶只需用自然語言下指令,即可對音色、語速、語調、音量、情緒與方言等進行精細控制。模型在推理階段實現了3.1Hz的極低推理幀率,實現了分鐘級長音頻的實時高保真生成。

      與螞蟻2025年5月推出的Ming-flash-omni Preview相比,Ming-flash-omni 2.0實現了跨代升級,側重于優化以下關鍵領域的功能:

      1、專家級多模態認知:它能精準識別動植物以及文化典故,并對文物進行專家級分析。通過將高分辨率視覺捕捉與龐大的知識圖譜相結合,該模型實現了“視覺到知識”的合成,知識理解能力更強。

      2、沉浸式可控統一聲學合成:它引入統一的端到端聲學生成流程,將語音、音頻和音樂集成于單一通道中。該模型利用連續自回歸算法結合擴散變換器 (DiT) 頭部,實現了零樣本語音克隆和精細的屬性控制,例如情感、音色和環境氛圍,大幅提高聽覺體驗。

      3、高動態可控圖像生成與處理:它采用原生多任務架構,整合了分割、生成和編輯功能,實現了精細的時空語義解耦。它在高動態內容創作方面表現卓越,包括大氣重建、無縫場景合成和上下文感知物體移除,且能在復雜的圖像處理任務中達到頂尖精度。

      目前,Ming-flash-omni 2.0的模型權重、推理代碼已在Hugging Face等開源社區發布,用戶也將可通過螞蟻百靈官方平臺Ling Studio在線體驗與調用。

      Hugging Face地址:
      https://huggingface.co/inclusionAI/Ming-flash-omni-2.0
      GitHub地址:
      https://github.com/inclusionAI/Ming
      魔搭社區地址:
      https://www.modelscope.cn/models/inclusionAI/Ming-flash-omni-2.0
      體驗入口:
      https://ling.tbox.cn/chat

      一、動植物與知識識別變強,音頻三合一生成是特色

      首先來看看Ming-flash-omni 2.0的實際應用效果。智東西在Ling Studio還未收到更新,我們可以先從幾組官方公布的案例中來看看Ming-flash-omni 2.0能做什么。

      在多模態認知方面,Ming-flash-omni 2.0能較精準識別動植物,如下圖所示,當用戶上傳幾張馬的圖片和植物的圖片,Ming-flash-omni 2.0能夠比較準確分辨出馬和植物的品種。


      再看看Ming-flash-omni 2.0側重提升的文化典故識別能力。當用戶讓該模型分別介紹一張關于馬的文物照片和繪畫照片,其能夠比較準確的識別出這是“馬踏飛燕”和徐悲鴻的《奔馬圖》,并且進行了較專業的解讀,可以看到內置知識變強及知識理解能力的提升。


      Ming-flash-omni 2.0支持自由多模態切換,用戶可以用語音對話,讓Ming-flash-omni 2.0識別和生成多種模態的內容,這些動作都是交替進行的。

      在流媒體對話方面,螞蟻上傳了一個用Ming-flash-omni 2.0識別舞龍獅表演的視頻,其不僅能夠準確識別事物,還能夠講解背后文化知識,延遲較低。不過,其語音聽起來仍然沒有達到完全的真人感,能聽出來是AI聲音。

      在可控統一聲學合成方面,兩個人聲在講解Ming-flash-omni 2.0可以為音頻添加背景音樂、音效,而這個音頻本身正是Ming-flash-omni 2.0生成的。人聲之下墊有節奏明快的背景音樂。據悉,其還支持零樣本語音克隆和精細的屬性控制,例如情感、音色和環境氛圍。

      在圖像生成與處理方面,如下所示,當用戶輸入一張照片,并輸入一段提示詞,比如“背景換成澳大利亞藍天,姿勢自然一點”、“背景換成西湖并改成拍手”等,就可以得到所需的照片,能達到較高的修改精度。這一高精度能力在谷歌Nano Banana等專用模型那里也仍有難度,Ming-flash-omni 2.0實際表現如何,能否達到官方案例效果,還有待用戶親自實操后來評判。


      二、全模態能力匹敵專業模型,多項能力超Gemini 2.5 Pro

      看完實際應用,再來看看模型測評成績。

      在通用圖像理解方面,Ming-flash-omni 2.0在HallusionBench、MMvet測評上超越了Gemini 2.5 Pro、Qwen3-Omini-30B-A3B-Instruct等模型,具有較強的內容理解和知識能力,較少的幻覺情況。

      在文檔理解方面,Ming-flash-omni 2.0在ChartQA、OCRBench測評上超越了Gemini 2.5 Pro,在AI2D上得分略低于Gemini 2.5 Pro,但整體得分都在87分以上,在處理文檔、圖表識別等方面表現較好。

      在STEM(科學、技術、工程、數學)方面,Ming-flash-omni 2.0的測評表現全面超越Qwen3-Omini-30B-A3B-Instruct,得分接近Gemini 2.5 Pro。


      ▲Ming-flash-omni 2.0的實測表現

      在定位與內部知識方面,其在圖像中定位和指定特定對象的能力較強,接近90分,內置知識庫的準確性和豐富度得分也遠高于Gemini 2.5 Pro、Qwen3-Omini-30B-A3B-Instruct。

      在多圖像理解方面,該模型在MVbench、CharadesSTA上的得分超過了Gemini 2.5 Pro、Qwen3-Omini-30B-A3B-Instruct,在MLVU上也表現較好,但略低于Gemini 2.5 Pro。

      在語音方面,作為業界首個全場景音頻統一生成模型,其在語音識別(WER越低越好)和語音生成準確率的表現都非常優異,在多個基準上領先。

      在圖像生成、編輯和分割方面,其在DPGBench、Geneval、RefCOCO-val等測評中都取得了匹敵專用模型的成績。

      三、統一架構,降低多模型串聯成本和復雜度

      業內普遍認為,多模態大模型最終會走向更統一的架構。但現實是“全模態”模型往往很難同時做到通用與專精,在特定單項能力上往往不及專用模型。

      Ming-omni系列正是在這一背景下持續演進,早期版本構建統一多模態能力底座,中期版本驗證規模增長帶來的能力提升,而最新2.0版本通過更大規模數據與系統性訓練優化,將全模態理解與生成能力推至開源領先水平,并在部分領域超越頂級專用模型。

      2025年5月,螞蟻開源了MoE架構的統一多模態大模型Ming-lite-omni,實現了以單一模型處理包括圖像、文本、音頻和視頻在內的廣泛輸入類型;2025年7月,螞蟻集團推出升級的Ming-lite-omni v1.5,在可控圖像生成、生成式圖像分割、深度及邊緣檢測三大維度能力上得到提升。

      2025年10月,螞蟻集團進一步開源了Ming-flash-omni-Preview,成為當時首個參數規模達到千億的開源全模態大模型。當時,Ming-flash-omni-Preview仍有不完善的地方,包括視覺文本理解能力與頂尖專用VL大模型仍存在一定差距語音多輪對話效果以及高質量的音色克隆仍需優化,在復雜布局文字渲染與編輯、特定IP角色的生成方面還有待提升。

      此次螞蟻集團將Ming-flash-omni 2.0在這些方面實現提升,達到了整體跨代的效果。Ming-flash-omni 2.0基于Ling-2.0架構(MoE,100B-A6B)訓練,主要圍繞“看得更準、聽得更細、生成更穩”三大進行了優化。


      視覺方面,該模型融合億級細粒度數據與難例訓練策略,顯著提升對近緣動植物、工藝細節和稀有文物等復雜對象的識別能力。

      音頻方面,其實現了語音、音效、音樂同軌生成,支持自然語言精細控制音色、語速、情緒等參數,并具備零樣本音色克隆與定制能力。

      圖像方面,其增強了復雜編輯的穩定性,支持光影調整、場景替換、人物姿態優化及一鍵修圖等功能,在動態場景中仍保持畫面連貫與細節真實。

      百靈模型負責人周俊談道,全模態技術的關鍵在于通過統一架構實現多模態能力的深度融合與高效調用。開源后,開發者可基于同一套框架復用視覺、語音與生成能力,顯著降低多模型串聯的復雜度與成本。

      Ming-flash-omni 2.0模型的開源,意味著其核心能力以“可復用底座”的形式對外釋放,為端到端多模態應用開發提供統一能力入口。

      結語:統一架構全模態模型加速發展

      隨著自回歸路線統一了語言模型領域,多模態領域能否出現一個統一的架構路線?國內外多家企業或機構展開了統一多模態學習的訓練,打造性能出色的原生多模態大模型,螞蟻集團在這一領域有頗多嘗試。

      盡管相比最頂尖的專業模型仍有差距,但以Ming-flash-omni 2.0為代表的全模態模型已經逼近專業模型性能。未來,團隊將持續優化視頻時序理解、復雜圖像編輯與長音頻生成實時性,完善工具鏈與評測體系,推動全模態技術在實際業務中規模化落地。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      早已殺青卻播出無望的7部劇,禁播理由個個離譜,尤其是最后一部

      早已殺青卻播出無望的7部劇,禁播理由個個離譜,尤其是最后一部

      小Q侃電影
      2026-02-21 22:05:04
      破防了!原來只要失業,所有人都一樣!網友:人都快抑郁了

      破防了!原來只要失業,所有人都一樣!網友:人都快抑郁了

      另子維愛讀史
      2026-01-16 21:03:12
      央媒怒批、坑害老百姓!臭名昭著的四大相聲演員,各個難以原諒

      央媒怒批、坑害老百姓!臭名昭著的四大相聲演員,各個難以原諒

      青橘罐頭
      2026-02-18 07:08:27
      武漢發布火情通報,過火面積80平方米!

      武漢發布火情通報,過火面積80平方米!

      越喬
      2026-02-21 14:08:53
      微信錢包里藏著一個應急的備用金,余額不夠時自動墊付,很多人至今沒發現

      微信錢包里藏著一個應急的備用金,余額不夠時自動墊付,很多人至今沒發現

      無比
      2026-02-21 22:47:43
      張博源三喜臨門!這個19歲少年的NBA前景比楊瀚森更可期?

      張博源三喜臨門!這個19歲少年的NBA前景比楊瀚森更可期?

      弄月公子
      2026-02-21 20:52:06
      惜敗湖人!倫納德柯林斯傷情更新,馬瑟林+盧采訪中極度不滿判罰

      惜敗湖人!倫納德柯林斯傷情更新,馬瑟林+盧采訪中極度不滿判罰

      籃球資訊達人
      2026-02-21 15:39:12
      昨夜今晨全球大公司動態 | 英偉達將放棄與OpenAI的1000億美元交易改為投資;Meta削減大多數員工股權獎勵

      昨夜今晨全球大公司動態 | 英偉達將放棄與OpenAI的1000億美元交易改為投資;Meta削減大多數員工股權獎勵

      全球企業動態
      2026-02-21 07:34:07
      楊瀚森:我不是真親約基奇是在表達尊重;他今天也兩罰不中呢

      楊瀚森:我不是真親約基奇是在表達尊重;他今天也兩罰不中呢

      懂球帝
      2026-02-21 15:17:07
      中國向全世界披露:美國4400顆衛星,包圍中國空間站,這是要做啥

      中國向全世界披露:美國4400顆衛星,包圍中國空間站,這是要做啥

      素衣讀史
      2026-01-17 18:35:57
      牢記!A股大牛市結束前,一定會出現的準見頂信號,守住盈利

      牢記!A股大牛市結束前,一定會出現的準見頂信號,守住盈利

      一方聊市
      2026-02-11 20:00:04
      黑色超短裙的誘惑

      黑色超短裙的誘惑

      疾跑的小蝸牛
      2026-02-21 20:20:00
      收視率破36!央視馬年春晚首波口碑出爐,觀眾的評價“一針見血”

      收視率破36!央視馬年春晚首波口碑出爐,觀眾的評價“一針見血”

      八卦南風
      2026-02-16 23:11:18
      黑不動了!從被看衰到逆襲第二,《鏢人》憑什么逆風翻盤?

      黑不動了!從被看衰到逆襲第二,《鏢人》憑什么逆風翻盤?

      手工制作阿殲
      2026-02-21 22:47:55
      高人預測:十年后的南通,真正值錢的只有5個板塊,別選錯!

      高人預測:十年后的南通,真正值錢的只有5個板塊,別選錯!

      小影的娛樂
      2026-02-21 19:56:29
      未來48小時90%開戰!伊朗已在德黑蘭郊區,為美軍準備5000個墓穴

      未來48小時90%開戰!伊朗已在德黑蘭郊區,為美軍準備5000個墓穴

      今墨緣
      2026-02-20 07:21:43
      無錫第二家山姆,即將開業!

      無錫第二家山姆,即將開業!

      江南晚報
      2026-02-21 10:17:54
      特朗普下令公開UFO檔案!科學家警告:真相可能比想象更可怕

      特朗普下令公開UFO檔案!科學家警告:真相可能比想象更可怕

      琉璃聊科學
      2026-02-21 16:00:19
      姆巴佩89場81球已經夠猛了,為什么還是比不過C羅?

      姆巴佩89場81球已經夠猛了,為什么還是比不過C羅?

      體壇八點半的那些事兒
      2026-02-21 20:38:07
      太陽報:魯尼被拍到買伏特加&朗姆酒,科琳隨后打包炸魚薯條

      太陽報:魯尼被拍到買伏特加&朗姆酒,科琳隨后打包炸魚薯條

      可愛小菜
      2026-02-20 08:38:55
      2026-02-21 23:44:49
      智東西 incentive-icons
      智東西
      聚焦智能變革,服務產業升級。
      11245文章數 116973關注度
      往期回顧 全部

      科技要聞

      智譜上市1月漲5倍,市值超越京東、快手

      頭條要聞

      美軍戰機選在大年初二挑釁解放軍 韓國防長抗議了

      頭條要聞

      美軍戰機選在大年初二挑釁解放軍 韓國防長抗議了

      體育要聞

      徐夢桃:這是我第一塊銅牌 給我換個吉祥物

      娛樂要聞

      黃曉明澳門賭博輸十幾億 本人親自回應

      財經要聞

      一覺醒來,世界大變,特朗普改新打法了

      汽車要聞

      比亞迪的“顏值擔當”來了 方程豹首款轎車路跑信息曝光

      態度原創

      藝術
      教育
      游戲
      旅游
      手機

      藝術要聞

      歷時144年,全球最高的教堂正式封頂!

      教育要聞

      就業數據:未落實畢業去向5032人!太嚇人!

      賽博財神已就位,傳奇新百區起飛,散人這波真能吃飽

      旅游要聞

      一游客在北帝山景區棧道與山體銜接處滑落,廣西貴港平南縣通報情況

      手機要聞

      三星Galaxy S26系列顏色曝光:將推6種配色,兩款為線上專屬

      無障礙瀏覽 進入關懷版