大家好,我是 Ai 學習的老章
最近一周,阿里Qwen勢如破竹,沒有人可以阻止阿里的開源速度了![]()
Qwen3-Next-80B-A3B 量化版
22 號阿里放出 FP8 版本的 Qwen3-Next-80B-A3B-Instruct-FP8 和 Qwen3-Next-80B-A3B-Thinking-FP8 模型,全面兼容 Transformers、vLLM 和 SGLang 框架,并采用 FP8 精度實現閃電級推理速度
![]()
這算是官方量化版了,我看了一下 Instruct 模型文件從之前的 163GB 降低到 82GB,少了一半,推理成本也低了,估計一張 H200 搞定。量化前的模型我試過,要 2 張 H200,而且還要吧 max-model-len 壓到 64K 才能跑起來。
Qwen3Guard 安全審核模型![]()
23 號,阿里開源了 Qwen3 安全審核模型Qwen3Guard,一共 2 個,分兩類:
Qwen3Guard-Gen,將安全性分類視為指令跟隨任務的生成模型;
Qwen3Guard-Stream,在增量文本生成期間實時進行安全監控的標記級分類頭。
這兩類模型又分別有三種大小的模型(0.6B、4B 和 8B)
![]()
應用場景:
Qwen3Guard-Gen(生成式版)支持對完整用戶輸入與模型輸出進行安全分類,適用于離線數據集的安全標注、過濾,亦可作為強化學習中基于安全性的獎勵信號源,是構建高質量訓練數據的理想工具。
Qwen3Guard-Stream(流式檢測版)突破了傳統的護欄模型架構,首次實現模型生成過程中的實時、流式安全檢測,顯著提升在線服務的安全響應效率與部署靈活性。
這套模型確實很有價值,但是不太清楚如何與其他模型結合使用,Gen 版可以放在工作流最后一步做打標,Steam 版呢?
Qwen-Image-Edit-2509 更新![]()
Qwen-Image-Edit-2509 的主要特性包括:
多圖編輯支持: 對于多圖輸入,Qwen-Image-Edit-2509 基于 Qwen-Image-Edit 結構,通過拼接方式進一步訓練,從而進行了支持。提供“人物 + 人物”,“人物 + 商品”,“人物 + 場景”等多種玩法。
單圖一致性增強: 對于單圖輸入,Qwen-Image-Edit-2509 顯著提高了一致性,主要體現在以下方面:
人物編輯一致性增強: 增強人臉 ID 保持,支持各種形象照片、姿勢變換;
商品編輯一致性增強: 增強商品 ID 保持,支持商品海報編輯;
文字編輯一致性增強: 除了支持文字內容修改外,還支持多種文字的字體、色彩、材質編輯;
原生支持 ControlNet: 包括深度圖、邊緣圖、關鍵點圖等
僅看官方演示,可以媲美 nano-banana 了,實際體驗,大家感受:https://qwen.ai/home
Qwen3-VL 指令遵循 + 思考模型
Qwen 系列中最強大的視覺語言模型,分指令遵循和思考兩種![]()
看測評數據,純文本性能一般,多模態能力各種遙遙領先,后面還有一個多模態大模型 Omini,感覺 VL 應該是更專注于文本,視頻,尤其是視頻,參數量和激活兩也都幾乎十倍于 Omini
![]()
Qwen3-Omni-30B-A3B-Thinking
Qwen3-Omni 是原生端到端多語言全模態基礎模型。它處理文本、圖像、音頻和視頻,并以文本和自然語音的形式提供實時流響應。在 36 個音頻/視頻基準測試中的 22 個達到 SOTA,在開源 SOTA 中達到 36 個中的 32 個;ASR、音頻理解和語音對話性能與 Gemini 2.5 Pro 相當。
模型名稱
描述
Qwen3-Omni-30B-A3B-Instruct
Qwen3-Omni-30B-A3B 的指令模型,包含思考者和說話者組件,支持音頻、視頻和文本輸入,輸出為音頻和文本。
Qwen3-Omni-30B-A3B-Thinking
Qwen3-Omni-30B-A3B 的思考模型,包含思考者組件,具備鏈式思維推理能力,支持音頻、視頻和文本輸入,輸出為文本。
Qwen3-Omni-30B-A3B-Captioner
從 Qwen3-Omni-30B-A3B-Instruct 微調而來的下游音頻細粒度字幕模型,可為任意音頻輸入生成詳細且低幻覺的字幕。它包含思考者組件,支持音頻輸入和文本輸出。
這套模型應該還更偏向于端測應用,但是不夠端,模型文件合集 64GB。
![]()
后續量化后能保持性能不大幅下降就完美了,目前?GPU 要就還是太高了。
模型
精度
15 秒視頻
30 秒視頻
60 秒視頻
120 秒視頻
Qwen3-Omni-30B-A3B-Instruct
BF16
78.85 GB
88.52 GB
107.74 GB
144.81 GB
Qwen3-Omni-30B-A3B-Thinking
BF16
68.74 GB
77.79 GB
95.76 GB
131.65 GB
這三個模型我最感興趣的是Qwen3-Omni-30B-A3B-Captioner,但是他的缺點也很致命:音頻長度不超過 30 秒,而且它是單輪模型,每次推理僅接受一個音頻輸入。它不接受任何文本提示,只支持音頻輸入,并僅輸出文本。取代 OpenAI 的 Whisper 估計沒戲。
Qwen3-Max:大就是好
Qwen3-Max-Instruct 的預覽版在 LMArena 文本排行榜上位列第三,超越了 GPT-5-Chat。正式版本在代碼能力和智能體(agent)能力方面進一步提升,在涵蓋知識、推理、編程、指令遵循、人類偏好對齊、智能體任務和多語言理解的全面基準測試中均達到業界領先水平。
![]()
Qwen3-Max 的推理增強版本—— Qwen3-Max-Thinking 正在訓練
一句話總結:很強,但不開源。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.