剛剛,阿里發布最新的1萬億參數大模型Qwen3-Max ,這是基于Qwen3-235B-A22B-2507系列發布的最新版本。
與 253B 版本相比,在推理能力、指令遵循、多語言支持和長尾知識覆蓋方面有重大改進:
1) 數學、編程、邏輯和科學任務中有更高準確率;
2) 更強的指令遵循能力 & 減少幻覺現象 ,并為開放式問答、寫作和對話生成更高質量的回復;
3) 支持超過 100 種語言,具有更強的翻譯和常識推理能力;
4)針對檢索增強生成(RAG)+ 工具調用優化(無“思考”模式);
具體看測評,在這份Qwen3-Max、Qwen3235B-A22B、Kimi K2、Claude Opus 4 Nonthinking、Deepseek-V3.1參與的榜單中(圖二),
通義千問Qwen3-Max-Instruct-Preview在五大基準測試,成為當前綜合成績最強的AI大模型。
測評涵蓋五大核心能力維度:
SuperGPQA(科學與邏輯推理)
AIME25(高階數學解題)
LiveCodeBench v6(編程實戰能力)
Arena-Hard v2(多領域高難挑戰)
LiveBench(實時綜合表現)
參評模型簡評:
Qwen3-Max各項都達到了SOTA
在AIME25美國數學邀請賽模擬題中獲80.6分,超第二名10分以上;
Arena-Hard v2高難挑戰賽中以86.1分登頂,表現出復雜問題拆解能力;
LiveBench實時綜合體育以79.5分獲得榜首;
Qwen3235B在實例任務中緊隨其后,尤其在編程(LiveCodeBench)與綜合能力(LiveBench)中表現尚可,是企業級部署之選。
?Kimi K2在LiveBench中以76.4分逼近榜首,表現出實時響應與多輪交互能力,但在數學領域仍有提升空間。(不確定是不是0905版本)
??Anthropic的Claude Opus 4表現穩定,尤其在代碼生成(LiveCodeBench)中位列前三,適合通用型任務場景,無明顯短板。 (不怕你斷供了)
??Deepseek-V3.1暫居末位雖然在部分任務中表現尚可。
Qwen3-Max有沒有一貫的過載現象,后續實測將給出答案。
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.