2月19日,Google正式發(fā)布Gemini 3.1 Pro。
作為Gemini 3系列的旗艦迭代版本,官方將其定位為面向最復(fù)雜任務(wù)的高階推理模型。
![]()
該版本依托MoE混合專(zhuān)家架構(gòu),實(shí)現(xiàn)了核心能力躍升,在推理、長(zhǎng)上下文、編程、智能體、多模態(tài)五大維度上,都刷新了行業(yè)基準(zhǔn),成為當(dāng)前AI模型競(jìng)賽中兼具性能與性價(jià)比的標(biāo)桿產(chǎn)品。
Artificial Analysis 的評(píng)估表明,Gemini 3.1 Pro 已經(jīng)躍居榜首,再次成為世界上功能最強(qiáng)大、性能最佳的 AI 模型。
![]()
Gemini 3.1 Pro的核心突破集中在抽象推理能力的翻倍提升。
第三方獨(dú)立評(píng)測(cè)顯示,在ARC-AGI-2這一衡量模型處理全新邏輯模式的嚴(yán)苛基準(zhǔn)上,模型得分從Gemini 3 Pro的31.1%躍升至77.1%,性能提升超兩倍,遠(yuǎn)超Claude Opus 4.6的68.8%與GPT-5.2的52.9%。
![]()
![]()
![]()
Google CEO Sundar Pichai公開(kāi)評(píng)價(jià),這一成績(jī)標(biāo)志著核心推理能力的里程碑式進(jìn)步, 讓高級(jí)推理從實(shí)驗(yàn)室能力變?yōu)榻鉀Q真實(shí)復(fù)雜挑戰(zhàn)的實(shí)用工具。
![]()
在學(xué)術(shù)與科學(xué)推理場(chǎng)景中,GPQA Diamond科學(xué)知識(shí)基準(zhǔn)測(cè)試拿下94.3%的行業(yè)最高分,Humanity’s Last Exam高級(jí)學(xué)術(shù)推理測(cè)試零工具輔助得分44.4%,均領(lǐng)先同期主流旗艦?zāi)P汀?/p>
權(quán)威AI評(píng)測(cè)機(jī)構(gòu)THE DECODER指出,該模型在科學(xué)知識(shí)與復(fù)雜邏輯理解上的表現(xiàn),已接近專(zhuān)業(yè)領(lǐng)域人類(lèi)專(zhuān)家水平。
同時(shí),幻覺(jué)率較上一代降低38%,大幅提升了高價(jià)值場(chǎng)景的可靠性。
長(zhǎng)文本處理能力也是Gemini 3.1 Pro的核心優(yōu)勢(shì)之一。
新版本模型支持100萬(wàn)token輸入上下文與6.5萬(wàn)token輸出長(zhǎng)度,可一次性處理整本書(shū)籍、數(shù)小時(shí)會(huì)議記錄、完整代碼庫(kù)等超大規(guī)模文本,而無(wú)需拆分任務(wù)。
![]()
OfficeChai實(shí)測(cè)數(shù)據(jù)顯示,在處理百萬(wàn)級(jí)token長(zhǎng)文檔時(shí),信息提取準(zhǔn)確率保持在90%以上,輸出完整技術(shù)手冊(cè)、行業(yè)研報(bào)等長(zhǎng)文本的連貫性與完整性優(yōu)于同類(lèi)模型,解決了傳統(tǒng)模型長(zhǎng)文本處理碎片化、信息丟失的痛點(diǎn)。
編程與工程能力方面,Gemini 3.1 Pro在LiveCodeBench Pro競(jìng)賽級(jí)編程測(cè)試中ELO評(píng)分達(dá)2887,SWE-Bench Verified工程代碼修復(fù)通過(guò)率80.6%,與Claude Opus 4.6持平并顯著高于GPT-5.2,Terminal-Bench 2.0終端編程得分68.5%,較上一代提升11.6個(gè)百分點(diǎn)。
此外,Gemini 3.1 Pro智能體能力實(shí)現(xiàn)近翻倍提升。
APEX-Agents長(zhǎng)鏈任務(wù)測(cè)試中,其得分33.5%,較Gemini 3 Pro的18.4%大幅增長(zhǎng),領(lǐng)先Claude Opus 4.6的29.8%與GPT-5.2的23.0%,可自主完成多步驟規(guī)劃、API對(duì)接、工具調(diào)用、復(fù)雜業(yè)務(wù)流程執(zhí)行等任務(wù)。
![]()
第三方測(cè)試顯示,Gemini 3.1 Pro醫(yī)療領(lǐng)域任務(wù)準(zhǔn)確率從47%提升至67%,法律任務(wù)準(zhǔn)確率從57%提升至74%,具備落地行業(yè)智能體的核心能力。
多模態(tài)方面,Gemini 3.1 Pro支持文本、圖像、視頻、音頻一體化輸入輸出,Video-MMMU視頻理解基準(zhǔn)得分87.6%,可精準(zhǔn)解析視頻內(nèi)容、理解多模態(tài)邏輯關(guān)聯(lián)。
![]()
下面是一些針對(duì)各方面能力的演示案例。
1.SVG 生成效果
之前 Gemini 3 Pro 在生成復(fù)雜 SVG 圖形時(shí),經(jīng)常會(huì)出現(xiàn)結(jié)構(gòu)混亂、細(xì)節(jié)缺失的問(wèn)題。
同樣的需求,Gemini 3.1 Pro不管是圖形的層次感、細(xì)節(jié)的處理,還是代碼的優(yōu)雅程度,都有明顯提升。
這種提升背后,就是抽象推理能力的體現(xiàn)。
谷歌還制作了一個(gè)經(jīng)典的“鵜鶘騎自行車(chē)”SVG,與之前的效果進(jìn)行對(duì)比,此次測(cè)試了其他動(dòng)物的效果。

有網(wǎng)友評(píng)測(cè),其輸入一句話的Prompt,3.1 Pro在短短3分鐘內(nèi),輸出一個(gè)11秒的SVG動(dòng)畫(huà)。

在另一個(gè)SVG測(cè)試中,3.1 Pro生成的“海豹頂皮球”在視覺(jué)表現(xiàn)力上也堪稱(chēng)驚艷。

2.3D 地圖構(gòu)建
這個(gè)任復(fù)雜度很高,需要理解地理數(shù)據(jù)、處理三維坐標(biāo)、調(diào)用可視化庫(kù),還要考慮性能優(yōu)化。

結(jié)果顯示,不僅代碼結(jié)構(gòu)清晰,還主動(dòng)考慮到了數(shù)據(jù)加載、渲染優(yōu)化、交互設(shè)計(jì)這些細(xì)節(jié)。
再如這兩個(gè):


3.復(fù)雜系統(tǒng)整合
3.1 Pro 能運(yùn)用其強(qiáng)大的推理能力,在復(fù)雜的 API 接口和用戶友好的設(shè)計(jì)之間架起橋梁。
比如,該模型搭建了一個(gè)實(shí)時(shí)航空儀表盤(pán),成功接入公共遙測(cè)數(shù)據(jù)流,將國(guó)際空間站的運(yùn)行軌道直觀地呈現(xiàn)出來(lái)。
Google DeepMind 首席科學(xué)家 Jeff Dean 也轉(zhuǎn)發(fā)了一個(gè)是用 3.1 Pro 模擬城市規(guī)劃、設(shè)計(jì)全新城市的應(yīng)用,從零生成可交互的規(guī)劃界面 demo。

4. 交互式設(shè)計(jì)
3.1 Pro 能編寫(xiě)出復(fù)雜的 3D 椋鳥(niǎo)群飛模擬代碼。它不僅能生成視覺(jué)代碼,還能打造出沉浸式的互動(dòng)體驗(yàn) —— 用戶可以通過(guò)手勢(shì)追蹤來(lái)控制鳥(niǎo)群的飛行,同時(shí)聽(tīng)到根據(jù)鳥(niǎo)群動(dòng)作實(shí)時(shí)變化的生成式配樂(lè)。
再如3.1 Pro展示的一顆種子從發(fā)芽到長(zhǎng)成大樹(shù)的全過(guò)程。

另一個(gè)案例是,把《呼嘯山莊》的文學(xué)氛圍轉(zhuǎn)化成一個(gè)現(xiàn)代個(gè)人網(wǎng)站,模型沒(méi)有簡(jiǎn)單概括情節(jié),而是分析了小說(shuō)的整體基調(diào),設(shè)計(jì)出了貼合主人公氣質(zhì)的界面風(fēng)格。

定價(jià)方面,與Gemini 3 Pro一致,20萬(wàn)token以內(nèi)輸入2美元/百萬(wàn)token、輸出12美元/百萬(wàn)token,超過(guò)200K token輸入4美元/百萬(wàn)token、輸出18美元/百萬(wàn)token,性價(jià)比顯著高于競(jìng)品。
![]()
目前,Gemini 3.1 Pro已通過(guò)Google AI Studio、Gemini API、Vertex AI向開(kāi)發(fā)者與企業(yè)開(kāi)放,消費(fèi)端可通過(guò)Gemini App、NotebookLM體驗(yàn),Google AI Pro訂閱用戶可直接使用高階能力。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.