<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      Gemini最強版本上線:推理斷層領先,姚順宇預告更強版本還在路上

      0
      分享至

      就在上周谷歌發布 Gemini Deep Think 重大更新后,谷歌于今日正式推出新一代基礎大模型 Gemini 3.1 Pro。

      谷歌 CEO 桑達爾·皮查伊(Sundar Pichai)在社交平臺上確認了這一消息。他表示,Gemini 3.1 Pro 相較前代 Gemini 3 Pro 的 31.1% 提升顯著。新模型在處理復雜概念可視化、多源數據整合、創意項目落地等任務時表現更為出色,目前已逐步接入消費者與開發者產品。

      去年9月加入谷歌 DeepMind 的清華大學校友、AI 研究員姚順宇也在社交平臺分享了相關進展,并暗示后續還有更強模型正在籌備中。


      (來源:X)

      從“.5”到“.1”的版本策略調整

      按照谷歌以往的發布節奏,重大更新多集中在年中(如 Google I/O 大會),且常以“.5”后綴標識中期升級。但此次距離 Gemini 3 Pro 發布僅三個月,便推出了帶“.1”后綴的 3.1 Pro,可見谷歌底層技術迭代加速,以及推動最新研究成果落地的節奏調整。

      支撐這一節奏的,是新模型在核心推理能力上的提升。關鍵在于 ARC-AGI(抽象與推理語料庫)基準測試。該測試不依賴知識記憶,而是考察模型面對陌生視覺與邏輯謎題時的多步推演能力,被視作衡量 AI 泛化與流體智力的重要參考。

      在官方驗證的 ARC-AGI-2 測試中,Gemini 3.1 Pro 得分為 77.1%,而數月前的 3 Pro 為 31.1%。橫向對比,Anthropic 的 Claude Opus 4.6 得分為 68.8%,OpenAI 的 GPT-5.2 為 52.9%。這一差距說明,大模型在處理非結構化、未見過的推理任務時,正逐步從模式匹配向邏輯推演演進。


      (來源:Google)

      多項測試占優,細分場景仍存差距

      除抽象推理外,谷歌公布的技術文檔顯示,Gemini 3.1 Pro 在 16 項主流基準測試中,有 12 項位列第一(含并列),覆蓋學術知識、科學問答、代碼生成、智能體協作及長上下文理解等方向。

      在學術與科學能力方面,它在無外部工具輔助的 Humanity's Last Exam(人類終極考試)測試中準確率達 44.4%,在高難度科學知識測試 GPQA Diamond 中得分 94.3%。這兩項成績均以較高幅度優于當前主流競品,體現出模型在知識儲備與邏輯推導上的優勢。


      (來源:Google)

      在開發者關注的代碼與工程能力上,Terminal-Bench 2.0(終端操作代理測試)成功率達 68.5%,SWE-Bench Verified(真實 GitHub 問題求解)單次嘗試得分 80.6%,與 Claude Opus 4.6 處于同一梯隊;LiveCodeBench Pro 的 Elo 評分更是達到 2,887 分,顯著領先于 GPT-5.2 的 2,393 分。

      在多模態與長上下文理解方面,MCP Atlas(多步驟工作流)得分 69.2%,BrowseComp(代理搜索)85.9%,MMMLU(多語種問答)92.6%;在 128k 上下文的 MRCR v2 檢索測試中,與 Claude Sonnet 4.6 并列第一(84.9%)。整體來看,新模型在多個維度展現出較為均衡的能力儲備,而非單一維度的"偏科"優勢。

      盡管綜合表現突出,當前大模型賽道已進入差異化競爭階段,各模型在特定場景下仍各有側重。

      例如在面向實際工程場景的 SWE-Bench Pro 測試中,OpenAI 專為代碼優化的 GPT-5.3-Codex 以 56.8% 領先,Gemini 3.1 Pro 為 54.2%;在評估商業流程操作的 GDPval-AA 測試中,Claude Sonnet 4.6 以 1633 分顯著高于 Gemini 3.1 Pro 的 1317 分。

      此外,在允許調用搜索與代碼工具的 HLE 測試中,Claude Opus 4.6 略優于 Gemini 3.1 Pro;而在多模態理解測試 MMMU Pro 中,3.1 Pro 甚至微幅落后于前代 3 Pro。谷歌也未披露該模型的具體參數規模與訓練數據細節。

      從深度推理到日常應用

      此次 Gemini 3.1 Pro 的性能飛躍,源于此前推出的 Gemini 3 Deep Think 模型。后者專攻科學計算與復雜工程,其卓越的推理能力已在國際奧賽等場景中得到實證。Gemini 3.1 Pro 則進一步將這種‘專家級’的核心能力拓展至通用領域,從而能夠服務于更廣泛的開發與用戶需求。

      谷歌官方博客列舉了若干應用場景:

      首先在基于代碼的動畫生成方面,3.1 Pro 能夠直接根據文本提示生成適用于網站的 SVG 動畫。由于此類動畫由純代碼而非像素位圖構成,因此具備無損縮放特性,在任何分辨率下均能保持清晰,且文件體積遠小于先前形式。

      其次是數據處理場景。 Gemini 3.1 Pro 展現了卓越的“工具使用(Tool Use)”能力。以國際空間站(ISS)軌道追蹤為例,模型不僅能自主研讀 NASA 復雜的 API 文檔、編寫數據抓取腳本,還能實時處理回傳的流式遙測數據。令人吃驚的是,它能同步調用 D3.js 等可視化庫,快速搭建出包含實時經緯度、軌道投影及速度指標的交互式儀表盤。

      還有創意編程能力。模型能夠深入理解文學名著(如海明威作品),提煉文字背后隱含的風格特征,轉換成具體的交互界面細節。例如將簡潔有力的短句轉化為“極簡主義”排版,將硬朗的情感基調映射為“高對比度”配色。最終,這些抽象的美學特征被精準轉譯為 CSS/HTML 代碼。這種跨模態轉換能力,使得文字創作者能以極低的成本,將抽象的文學內核注入數字產品的交互界面之中。

      最后是深度交互設計。3.1 Pro 能夠構建復雜的三維“椋鳥低語”模擬場景。這不僅僅是視覺代碼的生成,更是沉浸式體驗的營造:用戶可通過手勢追蹤操控鳥群,并聆聽隨鳥類動作實時變化的生成式樂譜。對于研究人員和設計師而言,這為原型化多感官豐富的界面提供了強有力的工具。

      此外,為加速能力落地,谷歌此次采取了分層部署策略。

      普通用戶可通過更新后的 Gemini 應用體驗基礎功能;高階訂閱用戶在 NotebookLM 平臺可獨家接入 3.1 Pro 并享受更高調用額度。開發者可通過 Google AI Studio 申請 API 預覽權限,Gemini CLI 與 Android Studio 已完成首批適配;企業客戶則支持通過 Vertex AI 與 Gemini Enterprise 集成至私有業務流。這種"由淺入深"的推進方式,有助于不同層級的用戶按需接入。

      目前,3.1 Pro 已以預覽版形式上線谷歌代理式開發平臺 Antigravity。谷歌表示,此舉旨在復雜多步任務場景中進一步驗證與優化模型表現,為后續全面推廣積累經驗。

      總體來看,Gemini 3.1 Pro 在推理能力與多維度任務表現上確有提升,尤其在抽象邏輯與代碼工程方向優勢明顯。但大模型競爭已進入"場景適配"階段,技術選型需結合具體需求理性評估。對于關注成本、穩定性與落地效率的用戶而言,持續觀察其在真實業務中的表現,或許比基準測試分數更具參考價值。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      33.9萬!火鍋店稱把春節4天盈利分給員工,老板:去年關了兩家店 但春節福利要堅持

      33.9萬!火鍋店稱把春節4天盈利分給員工,老板:去年關了兩家店 但春節福利要堅持

      紅星新聞
      2026-02-21 10:12:08
      摔倒被扶反索賠22萬后續:律師發聲,案件焦點已明,賠償跑不掉了

      摔倒被扶反索賠22萬后續:律師發聲,案件焦點已明,賠償跑不掉了

      愛下廚的阿釃
      2026-02-21 06:55:42
      東北大媽偷菜謊稱山東人后續:弟弟單位同事證明,臉都丟盡了

      東北大媽偷菜謊稱山東人后續:弟弟單位同事證明,臉都丟盡了

      離離言幾許
      2026-02-20 15:57:01
      伊朗已經下定決心,搶在美國動手之前,把俄羅斯牢牢綁在戰車上

      伊朗已經下定決心,搶在美國動手之前,把俄羅斯牢牢綁在戰車上

      東極妙嚴
      2026-02-20 15:17:46
      貝加爾湖事故遇難者遺體已被發現,涉事司機為44歲當地男子,系私下接單;獲救者是來自江蘇省的一位男性

      貝加爾湖事故遇難者遺體已被發現,涉事司機為44歲當地男子,系私下接單;獲救者是來自江蘇省的一位男性

      都市快報橙柿互動
      2026-02-21 00:08:59
      痛心!樹齡1200年古樟持續燃燒7小時,只因倆小孩隨手扔爆竹……

      痛心!樹齡1200年古樟持續燃燒7小時,只因倆小孩隨手扔爆竹……

      環球網資訊
      2026-02-21 10:22:16
      拾石村媽祖被替后續: 女孩賬號曝光,當了八年被選定,今年滿18歲

      拾石村媽祖被替后續: 女孩賬號曝光,當了八年被選定,今年滿18歲

      離離言幾許
      2026-02-20 14:02:55
      王濛表態:只要祖國需要,我隨時到場,敢簽保2塊金牌的生死狀

      王濛表態:只要祖國需要,我隨時到場,敢簽保2塊金牌的生死狀

      風過鄉
      2026-02-21 09:09:53
      劃水雙巨全打瘋!東契奇首節17+4+4三分 約基奇19+3三分

      劃水雙巨全打瘋!東契奇首節17+4+4三分 約基奇19+3三分

      醉臥浮生
      2026-02-21 11:51:03
      22歲小伙長發大波浪回家被外甥叫阿姨

      22歲小伙長發大波浪回家被外甥叫阿姨

      觀威海
      2026-02-21 10:14:32
      中國游客貝加爾湖溺亡7人,1人來自深圳,目擊者稱2、3分鐘就沉了

      中國游客貝加爾湖溺亡7人,1人來自深圳,目擊者稱2、3分鐘就沉了

      九方魚論
      2026-02-21 01:34:21
      阿富汗是這個世界的好老師

      阿富汗是這個世界的好老師

      名人茍或
      2026-02-20 09:01:37
      第5枚金牌今夜18點45分!CCTV5直播,金牌榜反超日本隊看混合團體

      第5枚金牌今夜18點45分!CCTV5直播,金牌榜反超日本隊看混合團體

      老吳說體育
      2026-02-21 08:58:41
      毛奇、李佩霞2026年近況公布,兩人服刑結局給所有人提了醒

      毛奇、李佩霞2026年近況公布,兩人服刑結局給所有人提了醒

      娛樂督察中
      2026-02-21 03:23:47
      貝加爾湖底的七名中國游客,本來是可以不用死的

      貝加爾湖底的七名中國游客,本來是可以不用死的

      未來展望
      2026-02-21 00:23:41
      古巴高調反美!美國為啥不打古巴?因為古巴是最“先進”的國家

      古巴高調反美!美國為啥不打古巴?因為古巴是最“先進”的國家

      南宮一二
      2026-01-10 17:41:19
      女子除夕夜在洗浴中心浴池門口被人錄像,洗浴中心稱公共區域直播很正常,律師:公共區域未經允許直播同樣涉嫌侵權

      女子除夕夜在洗浴中心浴池門口被人錄像,洗浴中心稱公共區域直播很正常,律師:公共區域未經允許直播同樣涉嫌侵權

      大象新聞
      2026-02-20 21:52:07
      哈登18+8加盟全勝!騎士險勝黃蜂豪取7連勝 米切爾32分克努33分

      哈登18+8加盟全勝!騎士險勝黃蜂豪取7連勝 米切爾32分克努33分

      醉臥浮生
      2026-02-21 10:31:52
      2月20日俄烏最新:無比強硬的停火條件

      2月20日俄烏最新:無比強硬的停火條件

      西樓飲月
      2026-02-20 20:02:11
      “趕緊還錢!”關稅政策被判違法后,加州州長呼吁美政府立即“連本帶利”退還稅款

      “趕緊還錢!”關稅政策被判違法后,加州州長呼吁美政府立即“連本帶利”退還稅款

      環球網資訊
      2026-02-21 09:38:25
      2026-02-21 12:12:49
      DeepTech深科技 incentive-icons
      DeepTech深科技
      麻省理工科技評論獨家合作
      16294文章數 514626關注度
      往期回顧 全部

      數碼要聞

      Akasa推出零噪音被動散熱機箱:4L體積 兼容各種ITX主板

      頭條要聞

      7名中國游客貝加爾湖遇難:冰面裂縫約3米 在打撈遺體

      頭條要聞

      7名中國游客貝加爾湖遇難:冰面裂縫約3米 在打撈遺體

      體育要聞

      冬奧第一"海王"?一人和13國選手都有關系

      娛樂要聞

      鏢人反超驚蟄無聲拿下單日票房第二!

      財經要聞

      一覺醒來,世界大變,特朗普改新打法了

      科技要聞

      智譜上市1月漲5倍,市值超越京東、快手

      汽車要聞

      比亞迪的“顏值擔當”來了 方程豹首款轎車路跑信息曝光

      態度原創

      家居
      健康
      教育
      手機
      藝術

      家居要聞

      本真棲居 愛暖伴流年

      轉頭就暈的耳石癥,能開車上班嗎?

      教育要聞

      母親的愛有什么特點?很多人抱怨這件事

      手機要聞

      蘋果史上首款折疊屏手機!iPhone Fold參數匯總:今年發布

      藝術要聞

      史洪生油畫作品

      無障礙瀏覽 進入關懷版