![]()
階躍星辰重磅開源了Step-Audio 2 Mini,這個消息一出就在開發者圈子里炸開了鍋。作為一個技術測評博主,我當然要第一時間上手體驗一番。經過幾天的折騰,從下載、部署到壓力測試,這個號稱"最強開源語音模型"到底表現如何?能不能用憤怒、溫柔、興奮等不同語氣說繞口令?本地部署的實時性又怎么樣?今天就給大家帶來這份詳細的評測報告。 評測機構:至頂AI實驗室 測評時間:2025年09月01日 評測產品:Step-Audio 2 mini 主要參數:Step-Audio 2 Mini是階躍星辰推出的開源語音交互模型,支持中文、英文輸出,甚至還能說一點日語。模型大小:10GB+、顯存占用:約20GB、測試環境:NVIDIA RTX 5200顯卡(32GB顯存) 評測主題:部署評測 值得一提的是,除了本地部署,用戶也可以直接在官方網頁上體驗該模型。我們本次測試選擇通過GitLab項目進行本地部署,以便更深入地了解其性能表現。 評測方法:多維度壓力測試 為了全面評估Step-Audio 2 Mini的實際能力,我們設計了以下幾個測試場景: 1. 多語言支持測試 首先測試了模型的多語言能力。當我們用日語詢問"今天的天氣真不錯"時,模型能夠準確理解并用日語回應。不過,生成3秒的音頻內容卻用了6秒時間,這也暴露出本地部署很難做到真正實時對話的問題。 2. 語義理解測試 在日常對話場景中,我們提到了"哈瓦那"這個地點。模型不僅準確識別了地理位置,還能自然地延伸話題,提到古巴的風情和建筑,甚至還會主動詢問"你是去旅游還是出差呀"。這種上下文理解和對話延續能力相當出色。 3. 情感語氣測試(重點) 這是本次評測的核心環節。我們讓模型用不同的語氣說經典繞口令"吃葡萄不吐葡萄皮,不吃葡萄倒吐葡萄皮"。測試結果顯示,Step-Audio 2 Mini能夠識別并模擬多種語氣,包括憤怒、溫柔、興奮等情感色彩,這在開源語音模型中算是相當難得的能力。 評測結果:優勢與局限并存 經過全方位測試,Step-Audio 2 Mini展現出了以下特點: 優勢方面: 語言理解能力強,支持中英文及部分日語 語氣情感表達豐富,能夠根據指令調整語調 上下文連貫性好,對話體驗自然 局限性方面: 本地部署難以實現真正的實時對話(3秒音頻需6秒生成) 無法使用網頁版的聯網搜索功能 目前支持的外語種類相對有限 硬件門檻較高(需20GB顯存) 最終結論:誰適合用Step-Audio 2 Mini? 綜合來看,Step-Audio 2 Mini在語音交互的語義理解和情感表達上確實表現不俗,稱得上是目前開源領域的頂尖水平。但它更像是一個"技術展示品"而非"生產力工具"。 我們的建議是: 普通用戶:建議直接使用官方APP,體驗更流暢 開發者:推薦調用API接口,避免本地部署的繁瑣 企業用戶:如果有充足的算力資源,可以考慮私有化部署 如果你只是想體驗AI語音對話的魅力,那么網頁版或APP已經足夠。但如果你是技術極客,想要深度定制和研究,那么本地部署這個模型還是很有價值的——畢竟,能讓AI用三種語氣說繞口令,這本身就很酷不是嗎?
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.