網易首頁 > 網易號 > 正文申請入駐

至頂AI實驗室硬核評測：本地部署Step-Audio 2 mini

2025-12-23 21:48:16　來源: 至頂AI實驗室

北京舉報

分享至

階躍星辰重磅開源了Step-Audio 2 Mini，這個消息一出就在開發者圈子里炸開了鍋。作為一個技術測評博主，我當然要第一時間上手體驗一番。經過幾天的折騰，從下載、部署到壓力測試，這個號稱"最強開源語音模型"到底表現如何?能不能用憤怒、溫柔、興奮等不同語氣說繞口令?本地部署的實時性又怎么樣?今天就給大家帶來這份詳細的評測報告。評測機構：至頂AI實驗室測評時間：2025年09月01日評測產品：Step-Audio 2 mini 主要參數：Step-Audio 2 Mini是階躍星辰推出的開源語音交互模型，支持中文、英文輸出，甚至還能說一點日語。模型大小：10GB+、顯存占用：約20GB、測試環境：NVIDIA RTX 5200顯卡(32GB顯存) 評測主題：部署評測值得一提的是，除了本地部署，用戶也可以直接在官方網頁上體驗該模型。我們本次測試選擇通過GitLab項目進行本地部署，以便更深入地了解其性能表現。評測方法：多維度壓力測試為了全面評估Step-Audio 2 Mini的實際能力，我們設計了以下幾個測試場景： 1. 多語言支持測試首先測試了模型的多語言能力。當我們用日語詢問"今天的天氣真不錯"時，模型能夠準確理解并用日語回應。不過，生成3秒的音頻內容卻用了6秒時間，這也暴露出本地部署很難做到真正實時對話的問題。 2. 語義理解測試在日常對話場景中，我們提到了"哈瓦那"這個地點。模型不僅準確識別了地理位置，還能自然地延伸話題，提到古巴的風情和建筑，甚至還會主動詢問"你是去旅游還是出差呀"。這種上下文理解和對話延續能力相當出色。 3. 情感語氣測試(重點) 這是本次評測的核心環節。我們讓模型用不同的語氣說經典繞口令"吃葡萄不吐葡萄皮，不吃葡萄倒吐葡萄皮"。測試結果顯示，Step-Audio 2 Mini能夠識別并模擬多種語氣，包括憤怒、溫柔、興奮等情感色彩，這在開源語音模型中算是相當難得的能力。評測結果：優勢與局限并存經過全方位測試，Step-Audio 2 Mini展現出了以下特點：優勢方面：語言理解能力強，支持中英文及部分日語語氣情感表達豐富，能夠根據指令調整語調上下文連貫性好，對話體驗自然局限性方面：本地部署難以實現真正的實時對話(3秒音頻需6秒生成) 無法使用網頁版的聯網搜索功能目前支持的外語種類相對有限硬件門檻較高(需20GB顯存) 最終結論：誰適合用Step-Audio 2 Mini? 綜合來看，Step-Audio 2 Mini在語音交互的語義理解和情感表達上確實表現不俗，稱得上是目前開源領域的頂尖水平。但它更像是一個"技術展示品"而非"生產力工具"。我們的建議是：普通用戶：建議直接使用官方APP，體驗更流暢開發者：推薦調用API接口，避免本地部署的繁瑣企業用戶：如果有充足的算力資源，可以考慮私有化部署如果你只是想體驗AI語音對話的魅力，那么網頁版或APP已經足夠。但如果你是技術極客，想要深度定制和研究，那么本地部署這個模型還是很有價值的——畢竟，能讓AI用三種語氣說繞口令，這本身就很酷不是嗎?

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.