網易首頁 > 網易號 > 正文申請入駐

阿里春節突襲，用千問3.5把頂尖模型干成了白菜價

2026-02-17 14:27:33　來源: 知危

浙江舉報

分享至

自 AI 概念火熱之后，要說每年過年最熱鬧的地方在哪里？知危覺得答案得是各個大廠的 AI 實驗室和各個媒體編輯部了。

昨晚剛過完年，馬年的第一天，AI 界的 “ 源神 ” Qwen3.5（千問 3.5 ）就突然發布，雖說之前已經有 Qwen3.5 的信息傳出，心里已經做好了預期準備，但是仔細看了看這次的新模型特性，還是得感嘆一句，不愧是源神啊！

作為開源界的扛把子，這次新發的 Qwen3.5-Plus 不僅在推理、編程、Agent 智能體等全方位基準評估中均表現優異，還在視覺理解能力的權威評測中斬獲數項性能最佳，性能媲美 Gemini3-Pro 等一線閉源模型。

如果說性能提升是預期內的，那這次更新最令人吃驚的是其同等參數下的性能表現提升十分驚人。之前萬億參數的 Qwen3-max，在如今，被只有 4000 億參數的 Qwen3.5-Plus 所超越。只用不到一半的參數，就能帶來更強的性能，直接的影響就是大眾在算力上的花費更低了。同等性能，Qwen3.5-Plus每百萬 token 現在最低只要 8 毛錢。這比以性價比著稱的 DeepSeek 還要便宜數倍。在杭州，一公斤白菜也就賣這價。

一般來說，大語言模型界向來奉行 Scaling Law，即誰的參數大，誰的性能就可能更好，那么這次的千問 3.5 怎么就反其道而行之，參數變小了，性能反而提升了呢？

這就不得不提到千問大模型團隊在語言模型架構上的不斷精進。

我們思考一下過去幾年 AI 界的情況，正是因為大家太過于遵守 Scaling Law，導致那些做模型的沒怎么賺到錢。反而是老黃這個賣顯卡的，市值一飛沖天，一度登頂全球市值第一。

參數暴漲帶來的直接影響就是：我能訓練得起，但是用不起了。這在應用落地上可不是啥好消息。所以，千問 3.5 就換了個思路，既然現在參數的邊際效應逐漸遞減，那么我們就想辦法提升每個參數的性價比。

總的來說，千問 3.5 之所以能縮小參數，主要是這幾方面的技術突破，涉及到技術方面的事情稍微有點枯燥，咱們就盡量短著點說。

首先是混合注意力機制。這個大家應該都聽爛了，不管是訓練還是推理，注意力機制所占據的計算量都是最大的，原因就是它需要讓每個詞和每個詞之間都做（點積）計算，來算出詞與詞之間的關聯度。所以，這種算法就有個大問題，當文本量越來越長之后，每多一個詞，需要的計算量都是遞增的，比如只有十個詞的時候，你多一個詞可能只要多算 10 次，但是當達到 10 萬上下文時，你再加一個詞，就得多算十萬次了，這也是為什么語言模型這么難解決上下文長度的原因。而混合注意力機制，就是在標準注意力機制的基礎上，引入了一種 “ 按需計算 ” 的動態策略，能根據語義的重要程度進行 “ 差異化處理 ”，如果我發現某個詞不重要，比如 “ 我養了一只狗 ” 里面的 “ 只 ”，你把 “ 只 ” 說成 “ 條 ”、“ 個 ” 大家也能看懂，那我就不去和每個前文做計算，只計算它身邊的少部分詞，而重要的詞，比如這句話里的 “ 狗 ”，你換成其它的 “ 貓 ”、“ 豬 ” 就完全變意思了，這就會去做全局計算，這樣就能讓效率和精度同時提升。

第二點就是比傳統混合專家（ MOE ）更極致的稀疏架構，MOE 架構在 DeepSeek V3 那會就火過一陣，簡單理解一下，這就好像把龐大的參數量，按照知識分類，分成不同的專家，這樣就能通過減少激活的參數，加快推理速度。而千問 3.5 通過更加極致的專家分類，讓整個 397B 參數的模型，最小只需要激活 17B，這計算量就一下減少了 20 多倍。

剩下的還有原生多 Token 預測，通過多同時生成幾個詞，加快推理的速度，以及 25 年剛拿了最佳論文獎的用于精確控制輸出結果的門控機制之類的技術，這四項技術相輔相成，當它們同時作用于一個模型時，帶來的效率躍遷是顛覆性的。想想，每次推理僅激活 17B，卻可以實現與 GPT-5.2、Gemini-3-pro 同級的性能表現。與上一代超萬億的Qwen3-Max 相比，Qwen3.5-Plus 還以 4000 億參數實現了性能上的超越，部署顯存占用更是降低 60% 。同時，推理吞吐量最高提升至 19 倍，推理效率大幅提升。

總之，千問3.5通過這些技術突破，讓模型盡量減少無用的計算，這樣不僅能使用小參數獲得更好的性能，還能大大減少部署模型對硬件的苛刻要求。

這些技術非常前沿，但對普通人來說，想要感知技術那實在是太難了。

那巧了不是，這次的千問 3.5 還有個非常 “ 好用 ” 的更新，除了這些架構上的新技術，這次的千問 3.5 在自身能力上，也是展現了團隊對于未來趨勢的判斷，那就是“ 原生多模態 ”。

和一般的語言模型通過文字標簽來理解圖片不同，原生多模態，是能直接看懂圖像、視頻、音頻的。它們之間的差別猶如盲人摸象，一個只能看到局部，而原生多模態，則是能完完整整的繞著大象看。

之所以說它 “ 好用 ”，是因為有了原生多模態，你就不只能通過文字和 AI 聊天，你還能通過圖像，更準確的讓 AI 知道你的意思。

說得多不如上手一試，我們在第一時間拿到千問3.5的使用資格后也是快速的上手試了試，一上手我就給新模型來了個下馬威，直接給它來一個洗車難題。

結果，回答還沒出，這跳 Token 的速度就把我震驚到了。

這思考鏈 chua~chua~ 的，一行接一行的蹦出來，不愧是加持了四項架構黑科技的千問 3.5，而且，它不僅回答得快，這答的也好，在思考完畢后，簡單直接的給出它最終的答案 ——開車過去。

你看，這第一題就把其它某些模型給比下去了，這給了我極大的信心，秉承測不死就往死里測的精神，接下來的測試會直接上一個臺階。

首先，測試一下編程能力，我讓千問 3.5 直接幫我寫一個貪吃蛇的小游戲，問題一提出來，千問 3.5 就開始對任務進行快速拆解。

等思路捋清之后，這代碼和之前一樣，寫得飛快，超長的上下文也是一次就讓整個代碼輸出完成。

等它結束后，拿千問 3.5 給的代碼去測試，果不其然，一次性成功，中間我沒有給過任何的其它提示，代碼編寫出來的貪吃蛇游戲完整度也非常的高，這個任務從功能上來說，處理得非常完美。

但只有功能還不夠，于是我又給它提出要求，讓它做好看點，加上特效試試。

程序太長，這里就不展示所有代碼，對于果，夸獎的話我不想多說，大家直接看動圖。

之后我又測試了讓它去做一個創新類的游戲，我告訴它，做一個坦克大戰，但是肉鴿版！

千問 3.5 依舊是先思考思路，拆分任務。

然后chua~chua~的用超長的token，把代碼一口氣寫出來。

這是它完成的第一版游戲，可以說相當完善，而且非常好玩，坦克不僅有等級，而且每升一級都能選一個威能提升，要知道，這些都是我只說了一句話讓它做到的。

而這，是我讓它改進視覺后的效果。。。

中間我也僅僅只是說了八個字：讓這個游戲好看點。

到這里，編程已經沒什么好挑剔的了，但是，讓它僅僅是編程可沒用到任何多模態的能力，所以第二項，就是要試試它對圖像的理解到底有多深！

首先，我讓它根據這個圖片來幫我找找茬。

在它短暫的思考過后，直接給出了 6 處不同的結論，其中有一處女孩的泳衣顏色居然還在思考后，自己給否定掉了，這真的有點像人在對比圖像，然后再思考是不是了。

不過最后從答案上來看，它還是有兩處錯誤的，一個是男人的頭發，一個是那女孩的蝴蝶結沒找到，但是大家要注意，我給的是一張圖片而不是兩張，它并不能直接去對比兩幅圖的像素，它是需要理解這個圖是分上下的，然后理解上下還有很多相似的圖像，然后再從相似的圖像中找到不對的畫面，這對于一個語言模型來說，這個結果已經夠驚人了。

之后我又給了它一張圖片，這次它不僅能知道圖片里是什么，甚至還能理解反光，最離譜的是，它居然從細節信息中，讀出了這張圖片可能是 AI 生成的，而事實也確實如此，只能說它的圖片識別能力，至少在識別 AI 上，已經超越大部分人類了！

圖像，編碼似乎都不能難到它，接下來，我得給它一個終極考驗，讓它看視頻。看視頻和圖片的難度可是天差地別，圖片只有一張，視頻可是一連串的，而且視頻還有分鏡、角度等因素，千問 3.5 想要讀懂視頻，必須對每個鏡頭都能理解到位才行。

首先來個簡單的，我讓它看看這個視頻中，這個帥氣的男人打球技術如何。

結果讓我吃驚，它先從整體概況給出答案，然后再分析技術細節分析了戰術策略，還知道最后扣籃了。甚至還給出了面對這種對手要怎么改進，這完全就像一個籃球教練在看著你的動作一步步的給你分析，最后給你指導。

看它完成的這么棒，我只能繼續加大力度，這次我給它來了個畫中畫！這是一個小貓在追電腦屏幕里的元素的視頻，千問 3.5 要理解它，首先得分辨屏幕和現實。

結果只能說完全難不倒它！！

它不僅知道小貓在屏幕前，它甚至還知道里面的游戲名字叫什么，然后分析畫面，為什么小貓會抓屏幕。可以說它完全知道怎么回事。

視頻完全拿捏，那如果讓千問 3.5 去根據視頻要求來編程呢？

我錄制了一段訪問某品牌網站的視頻。

我告訴它，讓它先看視頻，分析一下視頻的內容是什么，然后，直接讓它根據視頻內容，編寫出類似的網頁。

中間只是提醒它一次，把沒有的圖片，用色塊表示。

它的編程速度是這樣的。

而這，就是它給的結果。

不能說一模一樣吧，也至少能說從功能上，幾乎沒有差別。

隨后我又測試了一些其它的視頻畫面。

比如奇怪的搖滾貓。

到現在我其實已經對它的能力折服了，不過最后，我還得再測試一下工作場景，所以我給了它一段動畫軟件的視頻。讓它告訴我這里的是什么內容。

結果也在意料之中，經過之前的洗禮，我已經見怪不怪了，千問 3.5 很好的看出了這是什么軟件，視頻在做什么內容，也基本把畫面中所有的文字都讀懂了，可以說，它完全的理解了這個視頻。

那么，這次的測試到這里就結束了，不知道大家意識到沒有，在前文的多模態那部分，我就提到了一點，多模態的部分代表著千問他們對未來趨勢的判斷。

所以這就有個問題。

拋開價格戰的喧囂，為什么，阿里要死磕 “ 以小勝大 ” 和 “ 原生多模態 ”？

答案很可能就是：智能體。

前段時間，一直改名一直火的 AI Agent OpenClaw，相信關注 AI 行業的人應該都知道。它是一個通過大語言模型自動幫你辦公的助手，只需要告訴它你要干什么，它直接就能在后臺操作電腦把你想做的事情做完，而要實現它，那么多模態的能力是必不可少的，它必須得從畫面中理解現在的電腦在干什么，然后才能指導自己去做。

但這就導致了非常重要的痛點難題：一個是如果我考慮隱私想自己部署，能力強的模型我用不起，能力弱的又沒有用，而如果直接調用API，假如任務卡住的話，干一個活，一晚上幾百美元就沒了。。。

在國內，吐槽它太耗 Token 的人也不少。

而千問 3.5 可能是這些問題目前的最優解，既開源，API 也便宜，想自己搭也行，給了大家自由的空間。

在 AI 亟需應用落地的時代，盲目的追求“大”語言模型可能越來越不是一個明智的選擇，而像千問 3.5 這樣，不僅針對真實的需求做出對應的改進，而且還堅持開源，說實話，就算是我想找茬，我也找不出要說它不好的點在哪。

可能唯一要吐槽的點就在于，這么好的模型，為什么我今年才用到！

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.