![]()
智東西
作者 王涵
編輯 漠影
智東西2月16日報道,剛剛,Qwen3.5正式發(fā)布并開源,在多模態(tài)理解、復(fù)雜推理、編程、Agent智能體等幾大能力領(lǐng)先同級開源模型,多項基準(zhǔn)媲美甚至超越GPT-5.2、Gemini 3 pro等閉源第一梯隊。
![]()
Qwen3.5-Plus總參數(shù)為3970億,激活參數(shù)僅170億,性能超過萬億參數(shù)的Qwen3-Max模型,部署顯存占用降低60%,推理效率大幅提升,最大吞吐量可提升至19倍。
Qwen3.5上線后,我們馬不停蹄地問了它一道大模型的“腦筋急轉(zhuǎn)彎”:我要去洗車,洗車的地方離家就100米,我是開車去呢,還是走著去呢?
對于這道題,網(wǎng)友們測試了國內(nèi)國外各類大模型,鮮有模型答對。而Qwen3.5不僅識別出了題目中的邏輯陷阱,還用很幽默和輕松的語氣回答了正確的答案,并且給出了“開車慢行,確保安全”的溫馨提示。
![]()
回看Qwen3.5的思考過程,它遵循著分析需求、識別核心陷阱、制定答案、起草答案、內(nèi)部比較、最后打磨、思考其他可能、確定答案等一些列步驟,在其中還會像真人一樣“鼓勵自己”,堅定自己的回答。
![]()
價格上,Qwen3.5-Plus的API價格是最低每百萬Token0.8元。同等性能下,這個價格僅相當(dāng)于Gemini-3-pro的1/18。
從Qwen2.5、Qwen3到Qwen3.5,過去兩年千問不斷迭代開源,每一代產(chǎn)品、每一個尺寸都在為行業(yè)制定新的天花板標(biāo)準(zhǔn),“最強開源=千問”幾乎快成為共識。
但這一次,Qwen3.5的意義不止于“又刷新了一次榜單”。
一、讓草圖“一鍵變”網(wǎng)頁,千問進(jìn)化成原生多模態(tài)大模型
在解讀Qwen3.5背后的技術(shù)之前,我們先來看看Qwen3.5在實際應(yīng)用場景下的表現(xiàn)如何。智東西拿到搶先體驗資格,率先對該模型的多模態(tài)理解、推理、以及代碼生成能力進(jìn)行了體驗。
我們上傳了一張禮品購買App的前端頁面手繪草圖,要求Qwen3.5根據(jù)草圖生成紅白配色的簡約風(fēng)前端頁面,并輸出可以直接用的HTML代碼。
![]()
幾乎沒有思考時間,Qwen3.5先是識別出了草圖中的基本框架和文字信息,在紅白配色的模糊指令下,自主選擇了飽和度沒有那么高的紅色。生成的代碼簡潔可用,頁面也與草圖幾乎一模一樣。
還有一處小細(xì)節(jié)是,我們上傳的草圖是英文,而Qwen3.5根據(jù)上下文的問答和提問的語言,判斷出用戶應(yīng)該是中文用戶,自動將頁面語言調(diào)整為了中文。
![]()
在復(fù)雜場景與OCR能力方面,我隨手拍了一張含有多個物體和背景的照片,問Qwen3.5:今天的天氣怎么樣?這張圖片中都有什么?
![]()
可以看到模型可以在理解畫面的同時,準(zhǔn)確提取模糊的文字信息。這張圖片是背光,文字在陰影內(nèi)有些模糊不清,但Qwen3.5很準(zhǔn)確地識別出了圖片中的布洛芬顆粒沖劑、保濕霜以及酸奶的品牌,還貼心地附上了功效。
結(jié)合外面晴朗的天氣,Qwen3.5綜合判斷用戶正在家休息養(yǎng)生,并且給出了“希望天氣好心情也好,早日恢復(fù)活力!”的祝福。
![]()
最后,我們來看看Qwen3.5在藝術(shù)理解上面的能力。我們給Qwen3.5看一張西班牙畫家薩爾瓦多·達(dá)利的《記憶的永恒》,看看模型能不能識別出這幅畫的風(fēng)格派別和背景。
![]()
Qwen3.5提取出了這幅畫中的特點元素“融化的時鐘”,準(zhǔn)確回答出這幅畫的作者是薩爾瓦多·達(dá)利,并且將該作者的生平信息以及這幅畫的畫面材質(zhì)、創(chuàng)作時間、尺寸、收藏地等詳細(xì)信息都呈現(xiàn)給了用戶。此外,該模型還詳細(xì)介紹了這幅畫的主要元素和象征意義以及藝術(shù)地位,對美學(xué)和抽象概念的理解較強。
![]()
Qwen3.5可與OpenClaw集成,驅(qū)動編程任務(wù)。通過將OpenClaw作為第三方智能體環(huán)境集成,Qwen3.5 能夠進(jìn)行網(wǎng)頁搜索、信息收集和結(jié)構(gòu)化報告生成——它結(jié)合自身的推理與工具調(diào)用能力,以及OpenClaw的接口,為用戶帶來流暢的編碼和研究體驗。
此外,Qwen3.5能夠作為視覺智能體,自主操作手機與電腦完成日常任務(wù)。在移動端,該模型已適配更多主流應(yīng)用,支持自然語言指令驅(qū)動操作;在PC端,Qwen3.5能處理跨應(yīng)用的數(shù)據(jù)整理、多步驟流程自動化等復(fù)雜任務(wù),有效減少重復(fù)性人工干預(yù),提升工作效率。
以Qwen3.5為底層模型,Qwen Code支持“vibe coding”,可將自然語言指令轉(zhuǎn)化為代碼、實時迭代開發(fā)項目,并支持如生成視頻等富有創(chuàng)意的任務(wù)。
整體體驗下來,Qwen3.5在多模態(tài)能力方面真是下了狠功夫。這背后其實是千問團(tuán)隊在模型底層架構(gòu)的重構(gòu),千問正式從“語言模型”進(jìn)化為“原生多模態(tài)大模型”。
二、原生全模態(tài),讓模型像人一樣學(xué)習(xí)
業(yè)界普遍認(rèn)為,統(tǒng)一多模態(tài)是通往通用人工智能的必經(jīng)之路。但讓大模型真正”張開眼睛”,在統(tǒng)一架構(gòu)下同時提升語言和視覺能力,實現(xiàn)多模態(tài)信息的高效融合與協(xié)同生成,并非易事。
當(dāng)前行業(yè)中不少看起來“多模態(tài)”的方案,本質(zhì)上仍是“拼裝”——先訓(xùn)好語言模型“學(xué)說話”,再外掛視覺或音頻模塊,模塊之間靠適配層勉強對齊。
有的產(chǎn)品甚至只是在統(tǒng)一入口背后,通過工程路由將不同任務(wù)分發(fā)給不同模型。這些方案都沒有實現(xiàn)真正的多模態(tài)融合,且不少視覺理解模型會隨著視覺能力的增強,出現(xiàn)語言能力”降智”的問題。
Qwen3.5從一開始就選擇了一條鮮有人踏足的路。
從預(yù)訓(xùn)練第一天起,該模型就在海量的文本和視覺的混合數(shù)據(jù)上聯(lián)合學(xué)習(xí),就像人類一樣,調(diào)用五官來綜合接收外界信息。
讓視覺與語言在統(tǒng)一的參數(shù)空間內(nèi)深度融合,模型看到一張圖就能自然理解其語義,讀到一段文字便能在腦中構(gòu)建對應(yīng)畫面。沒有“中間商賺差價”,沒有信息折損,真正具備像人一樣的跨模態(tài)的直覺理解力。
想要讓這種原生融合真正跑起來,就要有一個“人類大腦”,模型的訓(xùn)練架構(gòu)也必須跟著變。在這一點上,行業(yè)中的傳統(tǒng)做法是讓視覺和語言用同一套并行策略,效率損耗嚴(yán)重。
Qwen3.5的做法是各走各的最優(yōu)路徑,再在關(guān)鍵節(jié)點上高效匯合。這樣做的結(jié)果就是哪怕同時喂入文本、圖像、視頻三種數(shù)據(jù),訓(xùn)練速度也幾乎不受影響,和只訓(xùn)練純文本時相當(dāng)。
同時,Qwen3.5通過定制化的FP8/FP32精度策略,使激活內(nèi)存占用降低約50%,訓(xùn)練速度提升10%。該策略已在強化學(xué)習(xí)訓(xùn)練與推理全流程統(tǒng)一應(yīng)用,有效降低了多模態(tài)模型規(guī)模化部署的成本與復(fù)雜度。
在智能體訓(xùn)練上,千問團(tuán)隊還搭建了一套大規(guī)模強化學(xué)習(xí)框架,支持文本、多模態(tài)與多輪對話等場景,訓(xùn)練效率提升了3至5倍。
原生多模態(tài)融合帶來的能力不止圖像理解,Qwen3.5可對圖像做像素級空間定位與代碼級精細(xì)處理,能理解2小時長視頻的時序與邏輯關(guān)系,可將手繪草圖轉(zhuǎn)為可運行前端代碼,還能作為視覺智能體自主操作設(shè)備、跨應(yīng)用完成復(fù)雜任務(wù)。
三、四大核心突破,助力模型“以小勝大”
過去兩年,大模型行業(yè)普遍走上“堆參數(shù)、拼算力”的“大力出奇跡”路線,模型規(guī)模從千億一路攀升至萬億級別,性能雖有提升,但成本也隨之水漲船高。
部署需要專屬集群,推理消耗大量算力,不僅中小企業(yè)難以負(fù)擔(dān),終端設(shè)備更是無法運行。技術(shù)指標(biāo)不斷突破,可離普惠、實用的目標(biāo)反而越來越遠(yuǎn)。Qwen3.5換了一種思路:不比誰更大,而是比誰更聰明,比誰能用相對更小的模型獲得更大的智能。
具體來說,有四項核心技術(shù)突破共同支撐了這個結(jié)果:
一是混合注意力機制。傳統(tǒng)大模型在處理長文本時,需對每個token與全部上下文進(jìn)行全量注意力計算,文本長度越長,算力開銷就越高,這也是限制長上下文能力的關(guān)鍵瓶頸。
Qwen3.5采用混合注意力機制,可依據(jù)信息重要性動態(tài)分配注意力資源,實現(xiàn)主次分明,在提升效率的同時保證精度。
二是極致稀疏MoE架構(gòu)。傳統(tǒng)稠密模型在每一次推理時都要調(diào)動全部參數(shù)參與運算,模型規(guī)模越大,對應(yīng)的算力成本也就越高。
而Qwen3.5的MoE架構(gòu)核心思路則在于,無需同時啟用所有參數(shù),只需依據(jù)輸入內(nèi)容,按需激活與之最相關(guān)的“專家”網(wǎng)絡(luò)即可。
這樣的架構(gòu),讓Qwen3.5有397B的總參數(shù)的情況下,激活參數(shù)僅需17B,相當(dāng)于僅需不到5%的算力,即可調(diào)動全部知識儲備。
三是原生多Token預(yù)測。千問團(tuán)隊讓模型在訓(xùn)練階段就學(xué)會了對后續(xù)多個位置進(jìn)行聯(lián)合預(yù)測,推理速度接近翻倍。在長文本生成、代碼補全、多輪對話等高頻場景中,模型的響應(yīng)速度接近“秒回”
四是系統(tǒng)級訓(xùn)練穩(wěn)定性優(yōu)化。2025年千問團(tuán)隊曾發(fā)表過一篇注意力門控機制的論文,還斬獲了NeurIPS 2025最佳論文獎。
![]()
在這篇論文中,千問團(tuán)隊通過在注意力層的輸出端加入了一個“智能開關(guān)”,就像一個水龍頭,可以智能調(diào)控信息的“流量”。
這樣既可以防止有效信息被淹沒,也防止無效信息被過度放大,從而提升模型的輸出精度和長上下文泛化能力。
類似的深層優(yōu)化還包括歸一化策略和專家路由初始化等,它們各自解決不同環(huán)節(jié)的穩(wěn)定性問題,共同確保上述架構(gòu)創(chuàng)新在大規(guī)模訓(xùn)練中真正跑得通、跑得穩(wěn)。
在以上技術(shù)的加持下,Qwen3.5的新架構(gòu)讓模型在總參數(shù)不足400B的情況下,性能卻能超越上一代超萬億模型的同時,部署顯存占用降低60%,推理效率大幅提升,還順手把API價格卷到了Gemini-3-pro的1/18。
當(dāng)行業(yè)還在比拼”誰的跑分更高”時,Qwen3.5已經(jīng)把競爭帶向了下一個問題:誰的模型更好用、更實用、更多人用得起。
結(jié)語:Qwen3.5在“好用、實用、用得起”上一馬當(dāng)先
一馬當(dāng)先,不只是跑得快,更是跑得對、跑得遠(yuǎn)。
在多模態(tài)方面,Qwen3.5再一次驗證了原生多模態(tài)是從預(yù)訓(xùn)練第一天起就讓模型像人類一樣,用統(tǒng)一的認(rèn)知框架理解圖文交織的世界。在效率與性能上,Qwen3.5將思考的重點放在“如何讓大模型更高效”,“如何才能讓大模型好用、實用、用得起”上。
從識別到理解,從單模態(tài)到跨模態(tài)推理,Qwen3.5讓大模型從對話工具向理解真實世界的基礎(chǔ)能力演進(jìn)。阿里一方面在不斷推出SOTA級模型,另一方面,通過開源策略讓人人都能免費用,孕育出了一片全新的創(chuàng)新土壤。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.