<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      谷歌 Gemini 3 深夜炸場:沒有懸念的最強 AI

      0
      分享至


      新王登基了。


      作者|Li Yuan

      來了。

      預(yù)熱了快一個月的 Gemini 3 Pro,就在剛剛,正式在 Google AI Studio 上線 Preview 版,API 也同步開放。接下來將陸續(xù)上線Google的各項產(chǎn)品中。

      沒有任何多余的廢話,打開 Model Card,滿眼寫著的只有兩個字:碾壓

      按照 Google 披露的測試數(shù)據(jù),Gemini 3 Pro 毫無懸念地成為了目前地球上數(shù)學(xué)最強的 AI。在數(shù)學(xué)競賽的「地獄模式」MathArena 里,當(dāng)包括 GPT-5.1 在內(nèi)的其他大模型還在 1% 上下掙扎時,Gemini 3 Pro 直接干到了23.4%

      編程能力方面,雖然在 SWE-Bench 上未拿 SOTA——但絕對屬于第一梯隊。Live Code Bench 的 Elo 得分超過 2400 分 ,在工具調(diào)用和終端操作基準測試中更是名列第一。

      真正炸裂的是它的「視覺智能」。對屏幕截圖的理解能力高達72.7%,是目前最先進水平的兩倍。這意味著 Agent 不再是瞎子,它將徹底重塑 AI 操作計算機的模式。

      但這還沒完,Google 今晚還順手扔出了一個小王炸:自家的 Agentic 編程平臺——Google Antigravity

      此前網(wǎng)傳 Gemini 3 能實現(xiàn)「端到端編程」,大家以為是模型成精了。但看起來,并不是模型成精,而是 Google 正在探索如何用更好的系統(tǒng)工程實現(xiàn)端到端編程。

      如果說 Cursor 是目前最強的「外骨骼」,它通過 AI 補全讓你寫代碼更快;那 Antigravity 就是奔著「自動駕駛」去的。它不再只是一個編輯器,而是一個智能體優(yōu)先(Agent-first)發(fā)環(huán)境。集成了 Gemini 3 和能操控瀏覽器的 Gemini 2.5 Computer Use 模型,它的 Agent 能自己寫代碼、自己開終端跑測試、甚至自己打開瀏覽器驗證 UI,發(fā)現(xiàn)報錯自己修。

      不講故事,只拼肌肉。

      Google 用這一波硬核發(fā)布宣告:新王已至

      有趣的是,這次連 Sam Altman 都獻上了自己的點贊。:)


      01

      霸榜的暴力美學(xué):不止是智商洗榜,更是 Agent 能力的變化

      在 AI 圈子里,大家習(xí)慣了模型之間你追我趕的微弱優(yōu)勢,但 Gemini 3 Pro 拋出的這份成績單,可以說十分耀眼。

      根據(jù) Model Card 披露的數(shù)據(jù),Gemini 3 Pro 在推理、多模態(tài)、Agent 工具使用等關(guān)鍵基準上,實現(xiàn)了全方位的霸榜。


      讓我們先看一看代表人類智力「天花板」的測試——Humanity's Last Exam(人類最終大考)。這是一個衡量學(xué)術(shù)推理極限的標尺,GPT-5.1 在此前的測試中得分為 26.5%,Claude Sonnet 4.5 僅為 13.7%。而 Gemini 3 Pro 它直接轟出了37.5%的高分。在高端推理層面,這 10 個百分點的差距,意味著模型在處理復(fù)雜學(xué)術(shù)問題時,已經(jīng)具備了完全不同的理解深度。

      但這還不是極限。Google 甚至還藏了一手Gemini 3 Deep Think(深度推理模式),在不使用任何工具的情況下,它在 HLE 上的得分進一步飆升至41.0%。看起來人類最后的堡壘也并不能持續(xù)很久了。


      數(shù)理方面的每一個領(lǐng)域,都能看出它的統(tǒng)治力。

      AIME 2025(美國數(shù)學(xué)邀請賽):配合代碼執(zhí)行(Code Execution),Gemini 3 Pro 的準確率達到了驚人的100%。沒錯,是滿分。即便是「裸考」(無工具模式),它也有 95.0% 的準確率(相比之下,GPT-5.1 為 94.0%,Claude Sonnet 4.5 為 87.0%)。

      MathArena Apex(數(shù)學(xué)競賽地獄模式):當(dāng)包括 GPT-5.1 在內(nèi)的其他大模型還在1%上下掙扎時,Gemini 3 Pro 直接干到了23.4%。這意味著在很多以前 AI 根本「看不懂題」的領(lǐng)域,Gemini 3 已經(jīng)開始解題了。

      而更關(guān)鍵的是 Agent 相關(guān)能力的提升。

      Gemini 一向在多模態(tài)能力上領(lǐng)先,這一代更是專門優(yōu)化了屏幕理解(Screen Understanding)。這是下一代 Agent 能否真正接管人類電腦的關(guān)鍵。

      ScreenSpot-Pro這一欄數(shù)據(jù):

      • GPT-5.1:3.5%(這基本意味著它是個「瞎子」)。

      • Gemini 3 Pro:72.7%

      這是近乎20 倍的能力碾壓!這標志著 Gemini 3 Pro 已經(jīng)不再是一個單純的對話框,它具備了真正意義上的「視覺智能」,能夠像人類一樣理解復(fù)雜的操作系統(tǒng)界面。

      在一些傳統(tǒng)強項上,Gemini 3 Pro 仍然表現(xiàn)出色——比如支持1M Token的超大上下文窗口、對多模態(tài)數(shù)據(jù)的「原生支持」、長視頻和多語言處理等等。



      有一個很有趣的標準也被 Google 掛了上來:在 一個模擬開店賺錢的基準 Vending-Bench 2 上,Gemini 3 Pro 最終賺取了$5,478.16的凈資產(chǎn),而 GPT-5.1 僅賺了 $1,473.43。

      不過關(guān)于之前網(wǎng)傳「徹底端到端終結(jié)程序員」的編程能力,Gemini 3 Pro 的狀態(tài)是在 AI 屆頂尖,但并沒有「顛覆編程」。

      在衡量軟件工程能力的SWE-Bench Verified測試中,Gemini 3 Pro 得分為76.2%,雖然很強,但并未超越 Claude Sonnet 4.5(77.2%)拿到 SOTA。這意味著在處理超長程、極其復(fù)雜的后端邏輯時,它依然有局限性。

      這也很合理。每一個大模型目前都在全力卷編程的情況下,想要在這個領(lǐng)域一騎絕塵確實比較難。

      目前 Gemini 的能力更偏向于,還不能幫你重構(gòu)整個后端架構(gòu),但如果你想寫一個極具現(xiàn)代設(shè)計美學(xué)的網(wǎng)站、一個 3D 飛船游戲,或者生成復(fù)雜的 SVG 交互動畫,它能通過一次提示就給出極其驚艷的、可直接運行的結(jié)果。

      02

      Antigravity,Agentic 編程的探索

      有了最強的模型和算力,谷歌開始在應(yīng)用層「掀桌子」了。今晚,谷歌扔出了一個「小王炸」——Google Antigravity

      前一陣新聞的風(fēng)向還是模型公司努力收購 AI 編程應(yīng)用公司呢,而 Google 這次則這么快的就發(fā)了自己的開發(fā)平臺。

      這不僅僅是一個新的 IDE,它是谷歌定義的Agent-first(智能體優(yōu)先)開發(fā)平臺。在這里,開發(fā)者從「碼農(nóng)」升級為「架構(gòu)師」,而 Gemini 3 化身為擁有編輯器、終端和瀏覽器完整權(quán)限的「執(zhí)行合伙人」。

      為了達成這種體驗,谷歌甚至在后臺配置了一個「模型軍團」協(xié)同作戰(zhàn):

      • Gemini 3:作為大腦,負責(zé)高級推理和代碼編寫。

      • Gemini 2.5 Computer Use:作為手眼,專門控制瀏覽器進行 UI 驗證和測試。

      • Nano Banana:作為美工,負責(zé)生成圖像和 UI 素材。這種打通了底層模型到頂層交互的閉環(huán)體驗,對于 Cursor 等現(xiàn)有 AI 編輯器來說,無疑是一次降維打擊。


      Antigravity 最有趣的能力在于并行。官方材料明確提到,開發(fā)者可以與多個智能 Agent 協(xié)作,而這些 Agent 能夠代表你同時 自主規(guī)劃并執(zhí)行復(fù)雜的端到端軟件任務(wù)。

      想象一下這種工作流:你下達一個指令,Antigravity 瞬間分裂出多個 Agent——Agent A 負責(zé)寫后端邏輯,Agent B 負責(zé)在終端跑測試用例,Agent C 直接打開瀏覽器去驗證前端 UI 的交互效果。它們并行不悖,像是一個配合默契的敏捷開發(fā)小組,而你只需要驗收它們提交的「工件」。

      Antigravity 是是一個免費平臺,網(wǎng)絡(luò)上目前對于 Antigravity 的使用體驗不多,但基本上都是好評。

      要達到替代 Cursor 本身,肯定不太行——端到端的復(fù)雜編程體驗,肯定還需要模型更成熟。但是簡單的項目進行編程,或許會更簡單了。

      03

      全家桶齊發(fā)力:TPU 與搜索

      在大模型發(fā)展的后半程,比拼的不再是單一算法的靈光一閃,而是誰的算力更冗余、誰的數(shù)據(jù)更廣闊、誰的投入更持久。Gemini 3 Pro 的勝利,有一點是很特別的:Gemini 3 Pro 是使用 Google TPU 訓(xùn)練的

      當(dāng)全世界的 AI 公司都在苦苦等待英偉達 GPU 的發(fā)貨周期時,谷歌依然坐在自家龐大的 TPU 礦山上。TPU 專為 LLM 訓(xùn)練設(shè)計,擁有極高的高帶寬內(nèi)存(HBM),這讓它能夠輕松處理海量的模型參數(shù)和超大的 Batch Size。正是 TPU 的算力冗余,給了 Gemini 3 Pro 肆意擴張參數(shù)規(guī)模的底氣。

      有了算力,還要有「燃料」。Gemini 3 Pro 的訓(xùn)練數(shù)據(jù)是全維度的覆蓋:它吞噬了公共網(wǎng)絡(luò)文檔、代碼庫、圖像、音頻和視頻。更關(guān)鍵的是,谷歌明確提到使用了User Data(用戶數(shù)據(jù))——當(dāng)然是在隱私協(xié)議框架下,來自谷歌龐大產(chǎn)品生態(tài)的用戶交互數(shù)據(jù)。

      最后,這種溢出的智能被注入了 Google Search。Google 這次推出了一個全新的AI Mode in Search。當(dāng)你搜索一個復(fù)雜概念(比如 RNA 聚合酶的工作原理)時,Gemini 3 不再是給你扔一堆冷冰冰的鏈接,而是利用其強大的推理能力,即時生成(Generated on the fly)一個沉浸式的互動圖表或模擬工具。


      從底層的 TPU 硅基霸權(quán),到中間層的模型智能,再到頂層的 Antigravity 開發(fā)生態(tài)與生成式搜索——谷歌這一夜展示的,不僅僅是一個滿分模型,而是一個只有巨頭才能構(gòu)建的、嚴絲合縫的未來。

      04

      實測體驗

      最后讓我們看看網(wǎng)上的一些實測體驗吧。

      出名的六邊形測試的升級款。


      不少帖子提及了設(shè)計上的美感。


      一些物理世界的建模。


      前面提到的,Gemini 對于用戶界面數(shù)據(jù)這塊做了特別的優(yōu)化。


      開發(fā)應(yīng)用。


      在今天,大模型的性能已然超越了跑分的邊界。即便是最頂尖、最復(fù)雜的前沿基準測試,其測量精度也開始失效。如何科學(xué)地量化模型之間的微妙差距,已經(jīng)成為了一門專門的「量化科學(xué)」,僅憑用戶簡單的實測手感,很難窺見其中的全部玄機。

      實測案例更多的也就是用來看看模型本身的審美和 one-shot 直出的狀態(tài)。

      Gemini 3 顯然在這次的更新中,在直出的情況下,贏面很大。

      當(dāng)模型直出能力越來越好,對于開發(fā)者來說,未來更多的是要看你的品味能不能跑過模型,你的點子是不是足夠與眾不同了。

      *頭圖來源:視覺中國

      本文為極客公園原創(chuàng)文章,轉(zhuǎn)載請聯(lián)系極客君微信 geekparkGO

      極客一問

      你覺得人類的審美跑的過

      AI 的直出審美嗎?

      扎克伯格:傲慢就會失敗,創(chuàng)造應(yīng)該服務(wù)群眾

      點贊關(guān)注 極客公園視頻號 ,

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點推薦
      大莫里斯:自從東契奇來到湖人之后 詹皇就越來越不被人尊重了

      大莫里斯:自從東契奇來到湖人之后 詹皇就越來越不被人尊重了

      818體育
      2025-12-18 23:04:53
      美國記者挖坑“萬一臺灣不想被統(tǒng)一”,被高志凱教授精彩反殺…

      美國記者挖坑“萬一臺灣不想被統(tǒng)一”,被高志凱教授精彩反殺…

      福建平子
      2025-11-30 07:39:01
      S-400車隊行進中遭襲,黑海艦隊自我圈禁!烏克蘭10座火車站被毀

      S-400車隊行進中遭襲,黑海艦隊自我圈禁!烏克蘭10座火車站被毀

      鷹眼Defence
      2025-12-18 17:18:20
      重大改革,身關(guān)14億人的政策徹底變了!

      重大改革,身關(guān)14億人的政策徹底變了!

      米筐投資
      2025-12-18 07:09:46
      1983年41萬鐵道兵撤銷,司令政委去向如何?

      1983年41萬鐵道兵撤銷,司令政委去向如何?

      王嚾曉
      2025-12-18 16:24:16
      3-4!斯諾克再爆冷門:1號種子3-2領(lǐng)先被逆轉(zhuǎn)!止步32強無緣衛(wèi)冕

      3-4!斯諾克再爆冷門:1號種子3-2領(lǐng)先被逆轉(zhuǎn)!止步32強無緣衛(wèi)冕

      球場沒跑道
      2025-12-17 22:02:56
      王大雷離開魯能后首次現(xiàn)身新去處,得到球迷追捧,本人發(fā)聲確認

      王大雷離開魯能后首次現(xiàn)身新去處,得到球迷追捧,本人發(fā)聲確認

      籃球看比賽
      2025-12-18 13:40:05
      回天乏術(shù)!衛(wèi)星圖像證實俄潛艇遭重創(chuàng):碼頭現(xiàn)9米混凝土彈坑!

      回天乏術(shù)!衛(wèi)星圖像證實俄潛艇遭重創(chuàng):碼頭現(xiàn)9米混凝土彈坑!

      軍迷戰(zhàn)情室
      2025-12-17 21:26:46
      何晴離世4天,史曉燕曝離婚真相,力挺許亞軍,還稱現(xiàn)任不是善茬

      何晴離世4天,史曉燕曝離婚真相,力挺許亞軍,還稱現(xiàn)任不是善茬

      卷史
      2025-12-18 19:35:20
      吳秀波成“老賴”!“國民大叔”如何成了“大輸”?

      吳秀波成“老賴”!“國民大叔”如何成了“大輸”?

      過了法考的新聞人
      2025-12-18 16:09:19
      曼聯(lián)最痛遺憾曝光:索帥力薦3位未來巨星被否決,替代者全成敗筆

      曼聯(lián)最痛遺憾曝光:索帥力薦3位未來巨星被否決,替代者全成敗筆

      夜白侃球
      2025-12-18 20:41:54
      李湘前夫欠債10億被刑拘,鉆石大王恐難翻身

      李湘前夫欠債10億被刑拘,鉆石大王恐難翻身

      清衣渡a
      2025-12-18 21:07:05
      海天味業(yè):未來三年(2025-2027年)每年現(xiàn)金分紅比例不低于80%

      海天味業(yè):未來三年(2025-2027年)每年現(xiàn)金分紅比例不低于80%

      界面新聞
      2025-12-18 18:10:04
      羽球總決賽第2日:李詩灃成國羽首位出局者,王祉怡石宇奇晉級

      羽球總決賽第2日:李詩灃成國羽首位出局者,王祉怡石宇奇晉級

      釘釘陌上花開
      2025-12-18 22:01:27
      馬斯克收心了?官宣了39歲印度裔伴侶:相貌普通為他生了4個孩子

      馬斯克收心了?官宣了39歲印度裔伴侶:相貌普通為他生了4個孩子

      豐譚筆錄
      2025-12-12 11:16:23
      18萬債務(wù)9萬結(jié)清!網(wǎng)貸、信用卡“打折還貸”灰產(chǎn)調(diào)查:還款最低能打四折?

      18萬債務(wù)9萬結(jié)清!網(wǎng)貸、信用卡“打折還貸”灰產(chǎn)調(diào)查:還款最低能打四折?

      時代周報
      2025-12-18 09:02:19
      笑噴了!媽媽從未懷疑過自己的手藝!網(wǎng)友:全天下最統(tǒng)一的自信!

      笑噴了!媽媽從未懷疑過自己的手藝!網(wǎng)友:全天下最統(tǒng)一的自信!

      墻頭草
      2025-12-16 07:49:47
      又輸1場!開局3連敗,丁偉逼近下課邊緣,本土悍將21分成逆轉(zhuǎn)功臣

      又輸1場!開局3連敗,丁偉逼近下課邊緣,本土悍將21分成逆轉(zhuǎn)功臣

      萌蘭聊個球
      2025-12-18 21:47:54
      這幾個指標正常,證明你的心臟基本沒啥大問題,不要再亂檢查了

      這幾個指標正常,證明你的心臟基本沒啥大問題,不要再亂檢查了

      健康之光
      2025-12-17 07:35:04
      吳敬中死前對余則成說:"在天津找穿藍旗袍的女人,她知道你身份"

      吳敬中死前對余則成說:"在天津找穿藍旗袍的女人,她知道你身份"

      飯小妹說歷史
      2025-12-16 16:38:39
      2025-12-18 23:55:00
      極客公園
      極客公園
      讓最棒的創(chuàng)新成為頭條
      11687文章數(shù) 78740關(guān)注度
      往期回顧 全部

      科技要聞

      2025新一代人工智能創(chuàng)業(yè)大賽總決賽收官

      頭條要聞

      在野黨參議員問了句日本"存亡危機" 高市早苗瞬間冷臉

      頭條要聞

      在野黨參議員問了句日本"存亡危機" 高市早苗瞬間冷臉

      體育要聞

      紐約尼克斯,板正的球隊

      娛樂要聞

      絲芭放大招了!實名舉報鞠婧祎經(jīng)濟犯罪

      財經(jīng)要聞

      尹艷林:呼吁加快2.5億新市民落戶進程

      汽車要聞

      在零下30℃的考場里 凡爾賽C5 X和508L拿到了"穩(wěn)"的證明

      態(tài)度原創(chuàng)

      健康
      游戲
      親子
      公開課
      軍事航空

      這些新療法,讓化療不再那么痛苦

      《蒼穹浩瀚:奧西里斯重生》新細節(jié) 畫質(zhì)大幅度提升

      親子要聞

      當(dāng)家爸爸的聚會,鮑家寨方言課開課,奶爸學(xué)方言笑翻全場,“你據(jù)撒起”教學(xué)開始啦~

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      福建艦入列后首過臺海 臺方談為何"甲板上沒有艦載機"

      無障礙瀏覽 進入關(guān)懷版 主站蜘蛛池模板: 亚洲中文字幕日韩精品| 香蕉在线精品一区二区| 亚洲色最新高清AV网站| 国产精品9| 南召县| 国产精品免费看久久久| 国产精品无码翘臀在线观看 | 51精品国自产在线| 人妻窝窝WWW聚色窝| 香蕉社区| 强行交换配乱婬bd| 午夜在线不卡| 欧美freesex潮喷| 金溪县| 国产高清在线a视频大全| 乱子轮熟睡1区| 亚洲精品欧美综合二区| 欧美精品v国产精品v日韩精品 | 亚洲精品日本久久一区二区三区| 女人AV天堂| 色欲二区| 看全色黄大色黄大片 视频| 东京道一本热中文字幕| 久久99九九精品久久久久蜜桃 | 九九热视频在线观看| 自拍偷拍欧美| 慈利县| 成人乱码一区二区三区av| 亚洲成人无码在线| www.yw尤物| 成人a亚洲精品无码| 曰本女人与公拘交酡| 亚洲中文字幕在线无码一区二区| 亚洲v欧美| 91丨日韩丨精品丨乱码| 日本高清在线一区二区三区| 美女张开腿黄网站免费下载| 女人18片毛片60分钟| 无码人妻熟妇av又粗又大| 亚洲va中文字幕| 女人与牲口性恔配视频免费|