微軟近日擴展其自研人工智能模型陣容,正式推出全新語音轉文字模型 MAI-Transcribe-1,宣稱在 25 種語言上的平均詞錯誤率(WER)僅為 3.9%,是目前全球精度最高的轉寫模型。在此前,微軟已先后發布語音合成模型 MAI-Voice-1 和圖像生成模型 MAI-Image-2,MAI-Transcribe-1 則成為該公司第三款對外公布的自研 MAI 系列模型。
![]()
根據微軟介紹,MAI-Transcribe-1 在 FLEURS 行業標準基準測試中表現突出,在全球前 25 大語言中的 11 種“核心語言”上排名第一,包括英語、法語、德語、意大利語、西班牙語、印地語、葡萄牙語、捷克語、丹麥語、芬蘭語、匈牙利語、荷蘭語、波蘭語、羅馬尼亞語、瑞典語、日語、韓語、中文、阿拉伯語、印尼語、俄語、泰語、土耳其語和越南語等語言組合的測試場景。 在剩余 14 種語言上,該模型也全面壓過 OpenAI 的 Whisper-large-v3,并在其中 11 種語言上擊敗了近期發布的Google Gemini 3.1 Flash 模型。
微軟表示,MAI-Transcribe-1 能在所支持的全部 25 種語言中保持具有競爭力的高精度,適用于覆蓋多語種的各類語音轉寫場景,包括通用語音內容、跨語言會議記錄、媒體內容轉寫等。 不過,當前版本尚不支持實時轉寫、說話人分離(diarization)以及偏好詞語加權(biasing)等高級功能,微軟計劃在后續迭代中補齊這些能力。
在性能方面,微軟強調,新模型在批量轉寫任務上的速度大幅領先現有方案,其批處理轉寫速度約為當前 Microsoft Azure Fast 產品的 2.5 倍。 MAI-Transcribe-1 已通過 Microsoft Foundry 平臺向企業和開發者開放,起始價格為每小時 0.36 美元,微軟聲稱這是目前各大云服務提供商中“性價比最高”的語音轉寫模型之一。
除轉寫模型外,微軟同日也宣布,將 MAI-Image-2 與 MAI-Voice-1 兩款模型正式引入 Microsoft Foundry 平臺。 其中,語音合成模型 MAI-Voice-1 的定價為每 100 萬字符 22 美元,開發者還可通過 Azure Speech 的 Personal Voice 功能基于該模型創建自定義聲音。 圖像生成模型 MAI-Image-2 則采用按令牌計費模式,文本輸入部分每 100 萬令牌收費 5 美元,圖像輸出部分每 100 萬令牌收費 33 美元。
隨著 MAI-Transcribe-1 的發布以及 MAI-Voice-1、MAI-Image-2 的全面上架,微軟正持續強化其在語音識別、語音合成和圖像生成等多模態 AI 領域的自研能力,試圖在減少對合作伙伴技術依賴的同時,通過 Foundry 平臺向開發者提供一套更具性能和成本優勢的模型組合。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.