![]()
新智元報(bào)道
編輯:好困 桃子
【新智元導(dǎo)讀】谷歌DeepMind深夜扔出核彈,下一代Gemini 3.1 Pro正式登場(chǎng)。在公認(rèn)的最難ARC-AGI-2測(cè)試中,它拿下最高分直接看呆硅谷,推理狂飆2倍,直接把Claude 4.6拉下王座。
Gemini 3 Pro之后,谷歌DeepMind終于祭出殺招!
剛剛,下一代旗艦?zāi)P虶emini 3.1 Pro深夜炸場(chǎng),直接刷爆全領(lǐng)域的SOTA,成為AI新王。
![]()
![]()
Deep Think之后,清華校友姚順宇也參與了Gemini 3.1 Pro的研發(fā)
這一次,Gemini 3.1 Pro實(shí)現(xiàn)了大模型推理能力的史詩(shī)級(jí)飛躍。
在極為嚴(yán)苛的ARC-AGI-2測(cè)試中,它一舉斬獲77.1%的高分,性能飆升至上一代3.0 Pro的兩倍有余。
外加接近滿分(98%)的ARC-AGI-1,不管是思考拉滿的Claude Opus 4.6,還是特調(diào)版的GPT-5.2,通通都被踩在了腳下。
![]()
![]()
![]()
從下方的SVG對(duì)比測(cè)試中,便能直觀感受到3.1 Pro與3 Pro之間懸殊的實(shí)力代差。

在編程和推理領(lǐng)域,Gemini 3.1 Pro同樣一騎絕塵,全面碾壓Sonnet 4.6、GPT-5.2。
在AAII綜合評(píng)測(cè)中,3.1 Pro強(qiáng)勢(shì)登頂,不僅總分領(lǐng)先Claude Opus 4.6足足4分,API調(diào)用成本更是不到一半。
![]()
今天起,Gemini 3.1 Pro已正式在Gemini和NotebookLM中上線。開(kāi)發(fā)者可通過(guò)Google AI Studio、Antigravity以及Android Studio搶先體驗(yàn)。
![]()
如今,硅谷的AI戰(zhàn)局已然變天,重量級(jí)玩家僅剩下谷歌DeepMind和Anthropic「硬碰硬」。
此前曾風(fēng)頭無(wú)兩的OpenAI,似乎正逐漸失去在這片主戰(zhàn)場(chǎng)上的主動(dòng)權(quán)。
Gemini 3.1 Pro深夜突襲
全能SOTA成績(jī)翻倍
作為谷歌迄今為止最強(qiáng)悍的模型,3.1 Pro在3 Pro的基礎(chǔ)上實(shí)現(xiàn)了全面跨越。
它不僅具備原生的全模態(tài)輸入能力,更支持高達(dá)100萬(wàn)Token的超長(zhǎng)上下文。
![]()
在業(yè)界最為關(guān)注的性能對(duì)標(biāo)中,Gemini 3.1 Pro展現(xiàn)出了令人窒息的統(tǒng)治力。
在人類最后考試(HLE)中,Gemini 3.1 Pro在零工具輔助下拿下了44.4%的成績(jī),將GPT-5.2(34.5%)和Opus 4.6(40.0%)逼到了墻角。
在ARC-AGI-2測(cè)試中,Gemini 3.1 Pro以77.1%的逆天成績(jī)一騎絕塵,把剛剛登頂沒(méi)兩天的Opus 4.6(68.8%)甩在了身后。
更讓人震撼的,是它在代碼和AI智能體領(lǐng)域的跨越式進(jìn)化。
在LiveCodeBench Pro中,狂砍2887的Elo積分,斷層領(lǐng)先同儕;
在Terminal-Bench 2.0中,憑借68.5%的得分壓制了專攻代碼的GPT-5.3-Codex(64.7%);
在APEX-Agents中,更是以33.5%的成績(jī)傲視群雄,相比之下,Opus 4.6得分為29.8%,而GPT-5.2僅有23.0%。
![]()
![]()
除了硬核推理,Gemini 3.1 Pro在長(zhǎng)篇大論的處理上也大秀肌肉。
在MRCR v2的128k長(zhǎng)上下文測(cè)試中,它直接拿下了84.9%的高分。
更可怕的是,它獨(dú)家支持了1M Token的終極測(cè)試并取得26.3%的成績(jī),而同臺(tái)競(jìng)技的GPT-5.2和Opus 4.6在這個(gè)級(jí)別上甚至直接顯示「不支持」。
![]()
更重要的是,相較于上一代,3.1 Pro在幻覺(jué)率上大幅下降。
![]()
手搓神級(jí)應(yīng)用,這才是殺手級(jí)AI
3.1 Pro帶來(lái)的不僅是跑分上的碾壓,更是邏輯推理能力的全面進(jìn)化。
現(xiàn)在,它不僅能攻克極度棘手的邏輯難題,更在實(shí)際落地應(yīng)用中展現(xiàn)出了令人驚艷的生產(chǎn)力重塑能力。
不論是將晦澀的概念轉(zhuǎn)化為直觀圖解,把海量數(shù)據(jù)濃縮成清晰的圖表,還是讓天馬行空的創(chuàng)意直接變成現(xiàn)實(shí),3.1 Pro都能輕松勝任。
![]()
基于代碼的動(dòng)畫
只需一段簡(jiǎn)單的文本提示詞,3.1 Pro就能直接生成可無(wú)縫嵌入網(wǎng)頁(yè)的SVG動(dòng)畫。
最絕的是,這些純代碼構(gòu)建的動(dòng)畫不僅支持無(wú)限放大且絕對(duì)清晰,它的文件體積相比傳統(tǒng)視頻更是小得令人難以置信。
整合復(fù)雜系統(tǒng)
強(qiáng)大的推理能力還讓3.1 Pro徹底打破了復(fù)雜API與人性化設(shè)計(jì)之間的壁壘。
比如,它能直接構(gòu)建出一個(gè)實(shí)時(shí)的航天數(shù)據(jù)看板,完美接入公開(kāi)的遙測(cè)數(shù)據(jù)流,將國(guó)際空間站的實(shí)時(shí)運(yùn)行軌跡清晰地展現(xiàn)在你眼前。
交互設(shè)計(jì)
3.1 Pro甚至能用純代碼編寫出極其復(fù)雜的3D椋鳥群舞特效,為你打造一整套沉浸式體驗(yàn)。
在這套系統(tǒng)中,你可以通過(guò)手勢(shì)追蹤技術(shù)實(shí)時(shí)「指揮」鳥群,同時(shí)還能聽(tīng)到隨著鳥群動(dòng)態(tài)實(shí)時(shí)演變的生成式配樂(lè)。
這絕對(duì)是研究人員和設(shè)計(jì)師開(kāi)發(fā)多模態(tài)交互界面原型的一大利器。
創(chuàng)意編程
更有趣的是,3.1 Pro還能將經(jīng)典的文學(xué)主題轉(zhuǎn)化為真正能跑的精美代碼。
比如讓它為《呼嘯山莊》設(shè)計(jì)一個(gè)現(xiàn)代風(fēng)格的個(gè)人主頁(yè),模型不僅精準(zhǔn)捕捉了原著壓抑深沉的氛圍基調(diào),還順勢(shì)生成了一個(gè)極簡(jiǎn)且充滿現(xiàn)代感的界面,可謂是完美拿捏了主角的靈魂底色。
全網(wǎng)驚艷首測(cè),統(tǒng)治SVG
谷歌UX工程師Michael Chang直接上手,用3.1 Pro模擬復(fù)雜的城市規(guī)劃,瞬間生成并設(shè)計(jì)出了一個(gè)全新的城市鳥瞰拓?fù)洹?/p>
![]()
僅僅輸入一句話的Prompt,3.1 Pro便在短短3分鐘內(nèi),搓出了一個(gè)長(zhǎng)達(dá)11秒SVG動(dòng)畫。
![]()

在另一個(gè)SVG測(cè)試中,它生成的「海豹頂皮球」在視覺(jué)表現(xiàn)力上也堪稱驚艷。

AI大牛Simon Willison在測(cè)試中,讓3.1 Pro在5分鐘內(nèi)生成了一個(gè)可以清晰勾勒出腿的鵜鶘SVG。
![]()
在3D空間推理方面,3.1 Pro也是新SOTA。

3.1 Pro生成的3D像素版寶可夢(mèng),可比3.0 Pro強(qiáng)太多了。
![]()

另外,3.1 Pro還能生成最佳的交互式動(dòng)畫,展示一顆種子從發(fā)芽到長(zhǎng)成大樹(shù)的全過(guò)程。
![]()

進(jìn)化沒(méi)有終點(diǎn),只有更強(qiáng)的下一幕
今天起,Gemini 3.1 Pro預(yù)覽版正式發(fā)布,這僅僅是一個(gè)新的開(kāi)始。
谷歌表示,從去年11月至今,用戶真實(shí)的反饋,都加速了每一次的研發(fā)迭代。
![]()
Gemini 3.1 Pro深夜突襲,是對(duì)AI行業(yè)格局的又一次重塑。
谷歌 DeepMind 用這種近乎「肌肉秀」的迭代速度告訴世界——
在通往AGI的深水區(qū),只有硬件算力與算法深度耦合的玩家,才能拿穩(wěn)下半場(chǎng)的入場(chǎng)券。
參考資料:
https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-3-1-pro/
https://x.com/Google/status/2024519455389192204?s=20
https://deepmind.google/models/model-cards/gemini-3-1-pro/
![]()
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.