品玩2月11日訊,據界面新聞報道,螞蟻集團今日正式開源發布其全模態大模型Ming-Flash-Omni 2.0。該模型在多項公開測試中,于視覺理解、語音生成及圖像編輯等關鍵能力上表現突出。
該模型是業界首個全場景音頻統一生成模型,能夠根據用戶簡單的自然語言指令,在同一條音軌中同步生成語音、環境音效與背景音樂,并可精細控制音色、語速乃至方言情緒等參數。
在視覺與圖像方面,模型增強了對復雜細微物體的識別精度。其圖像編輯功能也更為穩定,支持光影調整、場景替換等復雜操作,并能在動態修改中保持畫面連貫。
目前,模型權重與代碼已在主流開源社區發布,用戶也可通過官方平臺在線體驗。
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.