阿里這也太猛了一口氣在云棲大會發(fā)了超多模型。
其中最重要的是 Qwen3-Max,目前通義規(guī)模最大能力最強的模型,包含 instruct 和 thinking 兩個模型。
測試集的數(shù)據(jù)有點可,根據(jù)他們的測試能力水平已經(jīng)接近 Claude 4 Opus 和 GPT-5。
在 LMArena 上人工評價結(jié)果僅次于 Gemini 2.5、Claude 和 GPT-5。
SWE-Bench Verified 編碼測試集上達到了 69.6 分,智能體測試集 Tau2-Bench 上甚至超過了 Cluade opus 4.
Qwen3-Max-Thinking 在數(shù)學(xué)基準(zhǔn) AIME 25 和 HMMT 上獲得了滿分,目前還沒上線。
模型總參數(shù)超過1T,預(yù)訓(xùn)練使用了36T tokens。
訓(xùn)練穩(wěn)定性上沒有任何loss尖刺,也沒有使用訓(xùn)練回退、改變數(shù)據(jù)分布等調(diào)整策略。
其MFU相比Qwen2.5-Max-Base相對提升30%。使用ChunkFlow策略支持了一百萬上下文的訓(xùn)練。
同時在訓(xùn)練時也對硬件做了優(yōu)化,在超大規(guī)模集群上因硬件故障造成的時間損失下降為Qwen2.5-Max的五分之一。
目前可以在 chat.qwen.ai 體驗 instruct 模型,也可以去阿里云接入 API。
#AI新體驗
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.