此前,據(jù)說阿里通義被DeepSeek刺激到了,春節(jié)期間一直在加班,這是拿出成果來了。 ?
要知道,DeepSeek-R1 是在1 月發(fā)布,僅兩個(gè)??月后,通義發(fā)布新的 OpenSource 模型,基準(zhǔn)測試中各項(xiàng)超越,但體積卻縮小了 20 倍。
?
通義團(tuán)隊(duì)在QwQ-32B發(fā)布的推文中寫到:“這次我們研究了擴(kuò)展 RL 的方法,并基于我們的 Qwen2 取得了一些令人印象深刻的成果。 模型大小為32B 。我們發(fā)現(xiàn) RL 訓(xùn)練可以不斷提高性能,尤其是在數(shù)學(xué)和編碼方面,并且我們觀察到 RL 的持續(xù)擴(kuò)展可以幫助中型模型實(shí)現(xiàn)與巨型 MoE 模型相媲美的性能。” ?
是不是相媲美呢?在LiveBench 評(píng)分中,我們看到 QwQ 32B 的得分介于 R1 和 o3-mini 之間,但成本僅為其十分之一。
![]()
![]()
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.