網易首頁 > 網易號 > 正文申請入駐

微軟發布MAI-Transcribe-1 號稱全球最精準的文字轉寫模型

2026-04-03 00:53:14　來源: cnBeta.COM

浙江舉報

分享至

微軟近日擴展其自研人工智能模型陣容，正式推出全新語音轉文字模型 MAI-Transcribe-1，宣稱在 25 種語言上的平均詞錯誤率（WER）僅為 3.9%，是目前全球精度最高的轉寫模型。在此前，微軟已先后發布語音合成模型 MAI-Voice-1 和圖像生成模型 MAI-Image-2，MAI-Transcribe-1 則成為該公司第三款對外公布的自研 MAI 系列模型。

根據微軟介紹，MAI-Transcribe-1 在 FLEURS 行業標準基準測試中表現突出，在全球前 25 大語言中的 11 種“核心語言”上排名第一，包括英語、法語、德語、意大利語、西班牙語、印地語、葡萄牙語、捷克語、丹麥語、芬蘭語、匈牙利語、荷蘭語、波蘭語、羅馬尼亞語、瑞典語、日語、韓語、中文、阿拉伯語、印尼語、俄語、泰語、土耳其語和越南語等語言組合的測試場景。在剩余 14 種語言上，該模型也全面壓過 OpenAI 的 Whisper-large-v3，并在其中 11 種語言上擊敗了近期發布的Google Gemini 3.1 Flash 模型。

微軟表示，MAI-Transcribe-1 能在所支持的全部 25 種語言中保持具有競爭力的高精度，適用于覆蓋多語種的各類語音轉寫場景，包括通用語音內容、跨語言會議記錄、媒體內容轉寫等。不過，當前版本尚不支持實時轉寫、說話人分離（diarization）以及偏好詞語加權（biasing）等高級功能，微軟計劃在后續迭代中補齊這些能力。

在性能方面，微軟強調，新模型在批量轉寫任務上的速度大幅領先現有方案，其批處理轉寫速度約為當前 Microsoft Azure Fast 產品的 2.5 倍。 MAI-Transcribe-1 已通過 Microsoft Foundry 平臺向企業和開發者開放，起始價格為每小時 0.36 美元，微軟聲稱這是目前各大云服務提供商中“性價比最高”的語音轉寫模型之一。

除轉寫模型外，微軟同日也宣布，將 MAI-Image-2 與 MAI-Voice-1 兩款模型正式引入 Microsoft Foundry 平臺。其中，語音合成模型 MAI-Voice-1 的定價為每 100 萬字符 22 美元，開發者還可通過 Azure Speech 的 Personal Voice 功能基于該模型創建自定義聲音。圖像生成模型 MAI-Image-2 則采用按令牌計費模式，文本輸入部分每 100 萬令牌收費 5 美元，圖像輸出部分每 100 萬令牌收費 33 美元。

隨著 MAI-Transcribe-1 的發布以及 MAI-Voice-1、MAI-Image-2 的全面上架，微軟正持續強化其在語音識別、語音合成和圖像生成等多模態 AI 領域的自研能力，試圖在減少對合作伙伴技術依賴的同時，通過 Foundry 平臺向開發者提供一套更具性能和成本優勢的模型組合。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.