網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

千問(wèn)版Gemini3，來(lái)了

2026-01-28 11:14:05　來(lái)源: 硅星人

北京舉報(bào)

分享至

作者｜ Yoky
郵箱｜ yokyliu@pingwest.com

第一個(gè)國(guó)產(chǎn)版Gemini3，來(lái)了。

1月26日，阿里正式發(fā)布千問(wèn)旗艦推理模型Qwen3-Max-Thinking。

據(jù)介紹，Qwen3-Max-Thinking總參數(shù)超萬(wàn)億、預(yù)訓(xùn)練數(shù)據(jù)量高達(dá)36T Tokens，在科學(xué)知識(shí)（GPQA Diamond）、數(shù)學(xué)推理（IMO-AnswerBench）、代碼編程（LiveCodeBench）等多項(xiàng)權(quán)威評(píng)測(cè)中刷新了全球紀(jì)錄。它在數(shù)學(xué)推理AIME 25和HMMT 25上拿到了國(guó)內(nèi)首個(gè)雙滿分，甚至在“人類最后的測(cè)試”HLE中得分58.3，大幅超過(guò)GPT-5.2-Thinking的45.5和Gemini 3 Pro的45.8。

更關(guān)鍵的是時(shí)間點(diǎn)。如果你最近關(guān)注AI圈，會(huì)發(fā)現(xiàn)各家大模型廠商都在憋大招，阿里搶在這個(gè)節(jié)骨眼上發(fā)布Qwen3-Max-Thinking，擺明了就是要搶“國(guó)產(chǎn)第一個(gè)Gemini 3”的名號(hào)。

榜單數(shù)據(jù)再好看，到底能不能媲美Gemini3？

試了幾次Qwen生成代碼，前幾次任務(wù)失敗率還挺高的，但只要碰到阿里擅長(zhǎng)的場(chǎng)景，表現(xiàn)就完全不一樣。比如讓它做一個(gè)賣水果的電商網(wǎng)站，商品分類、加購(gòu)物車、一起結(jié)算這些功能，基本一次就寫(xiě)出來(lái)了，而且邏輯很完整，體驗(yàn)也流暢。很明顯，電商這種場(chǎng)景它見(jiàn)得太多了，淘寶天貓的數(shù)據(jù)喂得夠飽，所以做起來(lái)特別順手。

但換成其他類型的任務(wù)，成功率就不太穩(wěn)定了。如果你的需求正好在它的舒適區(qū)里，那體驗(yàn)確實(shí)要相對(duì)好；如果偏離了，可能得多試幾次調(diào)整提示詞。

我還專門(mén)測(cè)試了一個(gè)更復(fù)雜的交互案例：用攝像頭做體感控制的打氣球游戲，這也是Gemini 3展示過(guò)的經(jīng)典demo。具體需求是：用手勢(shì)控制屏幕上的準(zhǔn)星，做捏合動(dòng)作(拇指和食指并攏)來(lái)射擊從下往上飄的氣球，還要有天空背景、云層漂移、擊中特效、連擊反饋這些細(xì)節(jié)。

千問(wèn)的表現(xiàn)讓我有點(diǎn)意外。整個(gè)游戲的框架它一次就搭出來(lái)了：天空漸變背景、氣球從底部生成往上飄、大小不同速度不同、UI顯示分?jǐn)?shù)和連擊數(shù)，這些基礎(chǔ)邏輯都沒(méi)問(wèn)題。

交互效果做得挺有意思。伸出食指，屏幕上的準(zhǔn)星就會(huì)跟著手移動(dòng)，拇指和食指捏合就能開(kāi)火。擊中氣球的瞬間，屏幕會(huì)輕微震動(dòng)，氣球爆開(kāi)時(shí)有粒子特效散開(kāi)，還有“啵”的一聲音效，反饋感做得很足。連續(xù)擊中會(huì)顯示combo數(shù)字，這種即時(shí)反饋確實(shí)有代入感。

但實(shí)際玩起來(lái)有個(gè)明顯的問(wèn)題：瞄不準(zhǔn)。手指明明對(duì)著一個(gè)氣球，但準(zhǔn)星位置總是偏的，打了好幾發(fā)才能碰巧打中。這應(yīng)該是手部追蹤和屏幕坐標(biāo)映射之間有偏差，或者校準(zhǔn)算法不夠精確。雖然Qwen做出了體感控制的完整流程：攝像頭調(diào)用、手勢(shì)識(shí)別、射擊反饋這些環(huán)節(jié)都跑通了，但核心的“指哪打哪”這個(gè)精度沒(méi)做好，導(dǎo)致游戲性打了折扣。

不過(guò)，千問(wèn)這次最厲害的地方，不是參數(shù)有多大，而是它“想問(wèn)題”的方式變了。在關(guān)鍵的模型推理能力提升中，千問(wèn)新模型采用了一種全新的測(cè)試時(shí)擴(kuò)展（Test-time Scaling）機(jī)制，推理性能提升的同時(shí)還更經(jīng)濟(jì)。

打個(gè)比方，以前的AI做數(shù)學(xué)題是這樣的：同時(shí)寫(xiě)10份答案，然后投票看哪個(gè)對(duì)的人多，就選哪個(gè)。這種方法很笨，浪費(fèi)算力，而且10份答案里可能犯的都是同一個(gè)錯(cuò)誤。

Qwen3改成了人類的做法：先做一遍，做完看看哪里不對(duì)，總結(jié)一下經(jīng)驗(yàn)，再重新做。就像你做錯(cuò)題本一樣，第二遍肯定比第一遍做得好。結(jié)果就是，在那個(gè)需要用工具解決問(wèn)題的測(cè)試?yán)铮琎wen拿了58.3分，Gemini只有45.8分，差了一大截。

在調(diào)用工具層面，千問(wèn)的做法是把工具使用能力“訓(xùn)練進(jìn)”模型里，在完成初步的工具使用微調(diào)后，通義團(tuán)隊(duì)對(duì)模型進(jìn)一步在大量多樣化任務(wù)上進(jìn)行了基于規(guī)則獎(jiǎng)勵(lì)與模型獎(jiǎng)勵(lì)的聯(lián)合強(qiáng)化學(xué)習(xí)訓(xùn)練，使得Qwen3-Max-Thinking擁有更智能結(jié)合工具進(jìn)行思考的能力。

它用三步訓(xùn)練法：先教會(huì)用工具，再在各種任務(wù)里強(qiáng)化練習(xí)，最后形成條件反射。好處很明顯：用起來(lái)又快又順，不用每次都去讀工具說(shuō)明書(shū)，而且模型自己知道該在什么時(shí)候用什么工具。這就是為什么Qwen在HLE測(cè)試?yán)锉菺emini高出12分，特別是需要連續(xù)用好幾個(gè)工具解決復(fù)雜問(wèn)題的時(shí)候，這種“肌肉記憶”優(yōu)勢(shì)就體現(xiàn)出來(lái)了。

對(duì)比之下，Gemini走的是傳統(tǒng)軟件工程的路子：模型只負(fù)責(zé)理解你要干什么，具體調(diào)工具靠外部API框架。這樣做最大的好處是靈活：Google想接入沃爾瑪?shù)馁?gòu)物功能，不用重新訓(xùn)練模型，插個(gè)API就行。但代價(jià)是每次用工具都要走“理解意圖—翻譯成API調(diào)用—執(zhí)行—解析結(jié)果”這一整套流程，慢而且容易出錯(cuò)。

千問(wèn)的代碼生成能力，已超越單純的“語(yǔ)法翻譯器”，更像一位理解你意圖的技術(shù)伙伴。它不僅能將需求轉(zhuǎn)化為可運(yùn)行的代碼，更具備工程直覺(jué)：知道何時(shí)優(yōu)化性能、何時(shí)簡(jiǎn)化實(shí)現(xiàn)、何時(shí)添加容錯(cuò)機(jī)制。

這種“度”的把握，恰恰是AI從“工具”走向“協(xié)作者”的關(guān)鍵躍遷。

點(diǎn)個(gè)“愛(ài)心”，再走吧

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.