3月30日,阿里正式發布千問新一代全模態大模型Qwen3.5-Omni。該模型在音視頻理解、識別、交互等215項任務中取得SOTA成績,核心指標超越Gemini-3.1 Pro,躋身全球頂尖全模態大模型行列。
![]()
Qwen3.5-Omni采用Hybrid-Attention MoE架構,基于海量文本、視覺及超1億小時音視頻數據完成原生多模態預訓練,支持文本、圖片、音頻、音視頻全模態輸入輸出。其音視頻理解能力可實現細粒度結構化描述,能精準識別113種語言及方言,還自然涌現出音視頻Vibe Coding能力——用戶對著鏡頭口述需求,即可生成可運行的代碼。
實時交互體驗也迎來升級,模型支持語義打斷、音色克隆、語音控制等功能,可像真人一樣靈活調節語速、情緒,還能自主調用WebSearch和工具完成復雜任務。Plus版本支持256K超長上下文,可處理超10小時音頻或1小時視頻。
目前,阿里云百煉已上線Plus、Flash、Light三種API規格,覆蓋短視頻、游戲、自媒體等場景。普通用戶可前往Qwen Chat免費體驗,開發者調用成本每百萬Tokens不到0.8元,僅為Gemini-3.1 Pro的十分之一。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.