阿里又發(fā)模型了。
昨晚,通義千問團(tuán)隊(duì)在X上公布了Qwen3.5小模型系列,一共四個尺寸:0.8B、2B、4B、9B。
發(fā)完沒多久,馬斯克突然出現(xiàn)在評論區(qū),毫不吝嗇地留下一句“Impressive intelligence density(令人印象深刻的智能密度)”。
![]()
圖源:X
消息傳回國內(nèi),很快就有了“馬斯克點(diǎn)贊中國AI”的話題。
可以理解。畢竟馬斯克這個名字,自帶流量。但說實(shí)話,如果把注意力全放在“馬斯克點(diǎn)贊”這件事上,反而可能錯過真正有意思的東西。
![]()
阿里掀桌,終結(jié)參數(shù)內(nèi)卷游戲
先看一個數(shù)字。
Qwen3.5-9B,參數(shù)量90億,它在GPQA Diamond上的得分是81.7。作為對比,ChatGPT有一個開源模型,參數(shù)量1200億,得分差不多。
![]()
圖源:X
也就是說,90億參數(shù)的模型,和1200億參數(shù)的模型,在同一個測試?yán)锎虺闪似绞帧?/p>
十三分之一的體積,差不多的本事。這背后是這兩年AI圈一直在琢磨的一件事:參數(shù)規(guī)模,到底是不是越大越好?
過去兩年的邏輯很簡單粗暴——誰參數(shù)多誰厲害。萬億參數(shù)的模型一個接一個往外冒,像重型卡車,馬力確實(shí)足,但油耗也驚人。
訓(xùn)練一次的成本動輒上千萬美元,推理一次的電費(fèi)都能讓中小公司肉疼。最后變成只有巨頭玩得起的游戲,但這顯然違背了科技發(fā)展的初衷。
因此,Qwen3.5走了另一條路。
它在架構(gòu)上做了個改動:把“門控增量網(wǎng)絡(luò)”和“稀疏混合專家”結(jié)合起來,前向傳播的時候只激活當(dāng)前任務(wù)需要的部分,不是所有神經(jīng)元都撲上去。
聽起來有點(diǎn)繞,那我們換一種說法:假設(shè)你有一個4000萬冊的圖書館,以前每次查資料,得把整個館翻一遍。但現(xiàn)在有個聰明的檢索系統(tǒng),只需要調(diào)那170萬冊核心藏書,就能答出差不多的答案。
這就是馬斯克說的“智能密度”——不在參數(shù)規(guī)模上堆料,在有限資源里壓榨出盡可能多的智能。
而這還不是全部。多模態(tài)能力的整合方式,藏著另一層門道。
Qwen3.5用的是“早期融合”——文本、圖像、視頻在底層就一起處理了,不像很多模型那樣,先有個文本模型,再在外面掛個視覺編碼器當(dāng)附件。
這種差別,直接讓0.8B這種迷你模型的表現(xiàn)同樣征服了一眾開發(fā)者——它在語言基準(zhǔn)MMLU-Pro上只拿到了29.7分,但在視覺任務(wù)MathVista上沖到了62.2,OCRBench拿了74.5。
有開發(fā)者甚至已經(jīng)想到了該模型的應(yīng)用價值,直言:“本地人工智能終于開始變得實(shí)用了。”
![]()
圖源:X
![]()
跑分是起點(diǎn),場景才是終局
跑分歸跑分。真正讓開發(fā)者興奮的,是另一件事。
有人算了一筆賬:現(xiàn)在3萬美元的硬件,就能跑出去年需要20萬美元GPU才有的推理能力。
![]()
圖源:X
還有人直接上手演示——在iPhone 17 Pro上,用針對Apple Silicon優(yōu)化的MLX框架,本地跑Qwen3.5-2B的6-bit版本,實(shí)時視覺理解、實(shí)時問答,全都跑得動。
![]()
圖源:X
這意味著什么?意味著普通人終于能用得起AI了!
意味著你可以不用聯(lián)網(wǎng),不用把需求上傳到誰的云端,就能在自己手機(jī)里,有一個能看、能聽、能琢磨事兒的AI。
這背后其實(shí)是一個正在發(fā)生的轉(zhuǎn)變。
智能手機(jī)時代本質(zhì)上是“單向輸入”的范式——你對著屏幕戳戳點(diǎn)點(diǎn),手機(jī)給你反饋。
但即將到來的AI硬件浪潮,路子不一樣了。AI廠商們想干的事,是用更碎、更粘的方式,滲透進(jìn)你的記憶和生活。
比如你戴著一副AI眼鏡走在路上,隨口問一句前面有沒有障礙物。這時候如果AI延遲了五秒才回答,那這功能幾乎就廢了。
而這恰恰是云端大模型繞不過去的物理瓶頸——上傳、計(jì)算、返回,再快的網(wǎng)絡(luò)也有那點(diǎn)延遲。
端側(cè)小模型的價值就在這兒。遇到真需要深度推理的復(fù)雜問題,可以扔給云端;但日常的、實(shí)時的、隱私敏感的,本地搞定。
阿里已經(jīng)把Qwen小模型塞進(jìn)了AI眼鏡這類可穿戴設(shè)備里,能做到毫秒級的端側(cè)視覺解析。
聽說蘋果那邊也在搗鼓帶攝像頭的AirPods和新一代VR智能眼鏡——這些玩意兒,將來可能就是你的“第二雙眼睛和耳朵”。
工業(yè)方面,IoT設(shè)備、工廠傳感器、醫(yī)療監(jiān)測終端,這些場景里數(shù)據(jù)隱私更敏感,本地推理同樣是硬需求。
![]()
阿里野心勃勃,模型與硬件并發(fā)
事實(shí)上,阿里的這一步,邁得比大多數(shù)人想象的要大。
3月2日,千問AI眼鏡開啟“0元預(yù)約”,G1系列疊加補(bǔ)貼后最低1997元,3月8日現(xiàn)貨發(fā)售。
同一天,巴塞羅那MWC展臺上,五米高的“Qwen”標(biāo)志下,海外觀眾排著隊(duì)等試戴。
![]()
圖源:巴塞羅那MWC現(xiàn)場
據(jù)媒體爆料,有美國用戶試完后給出高度評價——換電設(shè)計(jì)“太妙了”,續(xù)航焦慮明顯降低,“基本可以全天開機(jī)使用智能服務(wù)”。
而這只是開始。內(nèi)部人士透露,今年年內(nèi),AI指環(huán)、AI耳機(jī)也會陸續(xù)落地,面向全球發(fā)售。
你可能想問:阿里做硬件,圖什么?
表面看是跟風(fēng)——Meta的Ray-Ban眼鏡吃掉了七成市場份額,OpenAI組了兩千人的硬件團(tuán)隊(duì),字節(jié)的眼鏡耳機(jī)也在路上。巨頭們都在搶同一個東西:下一個AI入口。
但阿里的打法,跟別人不太一樣。
1月底,平頭哥官網(wǎng)上線了一款叫“真武810E”的AI芯片。
參數(shù)上看,性能對標(biāo)英偉達(dá)H20,已經(jīng)在阿里云部署了多個萬卡集群,服務(wù)了國家電網(wǎng)、中科院、小鵬汽車等400多家客戶。更重要的是,它被大規(guī)模用于千問大模型的訓(xùn)練和推理。
芯片亮相的同時,一個叫“通云哥”的黃金三角浮出水面——通義實(shí)驗(yàn)室做模型,阿里云做算力,平頭哥做芯片。
三個東西捏在一起,意味著什么?意味著阿里可以在芯片架構(gòu)、云平臺架構(gòu)、模型架構(gòu)三個層面協(xié)同優(yōu)化,而不是像大多數(shù)玩家那樣,拿著英偉達(dá)的卡、跑別人的框架、調(diào)第三方的模型。
業(yè)內(nèi)有一種說法:全球能做到“大模型+云+芯片”全棧自研的公司,目前只有兩家,一家是谷歌,另一家是阿里。
這個說法含金量高不高另說,但邏輯是通的——端側(cè)硬件對成本和功耗極其敏感,如果芯片、模型、云不能深度耦合,體驗(yàn)上就永遠(yuǎn)差一口氣。
千問3.5能把部署顯存占用降低60%、推理吞吐量提升19倍,靠的不只是算法,還有底層硬件的配合。
所以硬件本身,從來不是阿里的目的。
春節(jié)期間,用戶在千問APP上“一句話下單”接近2億次,Questmobile數(shù)據(jù)顯示,千問在春節(jié)期間日活沖到7352萬,以940%增幅居國內(nèi)AI應(yīng)用首位。
這說明:千問已經(jīng)從一個聊天機(jī)器人,變成了一個能點(diǎn)外賣、訂酒店、打車的國民級AI助手。
現(xiàn)在的問題是,這個助手能不能走出手機(jī)屏幕?
當(dāng)你戴著AI眼鏡路過一家餐廳,掃一眼招牌,說一句“這家評價怎么樣,幫我訂個位”,隨即眼鏡開始識別畫面,調(diào)高德的數(shù)據(jù),用支付寶完成支付——全程不用掏手機(jī);你在異國街頭看不懂菜單,眼鏡直接在你視野里疊上翻譯;你騎車想記錄路線,對著指環(huán)說句話就搞定。
這就是阿里想要的“所見即所得”。它依賴的不只是模型聰明,更是背后那個能觸達(dá)數(shù)百萬商家、打通支付和出行、覆蓋生活服務(wù)全場景的生態(tài)。
阿里集團(tuán)CEO吳泳銘有句話說的很好:AI最大的想象力,不在手機(jī)屏幕,而在于如何接管數(shù)字世界。
從這個角度看,千問做硬件的邏輯就清晰了——它想做的,是用硬件把阿里的服務(wù)網(wǎng)絡(luò),編織到現(xiàn)實(shí)世界的每一個節(jié)點(diǎn)上。
而讓這一切能夠成為可能的,正是Qwen3.5這批被馬斯克大贊的、幾十億參數(shù)的“小東西”。
作者 | 劉峰
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.