品玩4月16日訊,據 Marktechpost 報道,NVIDIA與馬里蘭大學研究團隊聯合發布了Audio Flamingo Next (AF-Next),這是Audio Flamingo系列中能力最強的開源大型音頻語言模型(LALM),旨在解決長音頻理解與復雜推理難題。
AF-Next基于Qwen-2.5-7B構建,支持長達30分鐘的音頻輸入與128k上下文窗口。團隊創新性提出了“時序音頻思維鏈”技術,通過將推理步驟顯式錨定至音頻時間戳,顯著提升了模型在長音頻任務中的證據聚合能力與準確性。此次開源包含AF-Next-Instruct、AF-Next-Think及AF-Next-Captioner三個變體,分別針對通用問答、多步推理及音頻描述任務進行了優化。
實驗數據顯示,該模型在20項基準測試中大幅超越同級別開源模型,并在MMAU-Pro等挑戰性基準上優于Gemini 2.5 Pro,展現了卓越的泛化能力與實用價值。
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.