<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      谷歌最新 Gemini Agent 爆擊GPT-5.2?人類最后考試得分見分曉!網(wǎng)友:Altman又該發(fā)“紅色警報”了

      0
      分享至


      作者|冬梅

      在全球人工智能領(lǐng)域競爭快速升溫的當(dāng)下,谷歌與 OpenAI 再次在同一天拋出重磅更新,令整個行業(yè)的注意力高度集中。

      昨天夜里,谷歌發(fā)布了全新“重新構(gòu)想”的 Gemini Deep Research 版本,并首次開放了嵌入式研究智能體 API。


      而幾乎同時,OpenAI 正式發(fā)布了備受期待的 GPT-5.2(代號 Garlic)。兩家公司圍繞智能體(Agent)未來、基礎(chǔ)大模型能力邊界以及應(yīng)用生態(tài)主導(dǎo)權(quán)的競爭,正進入一個前所未有的焦灼階段。

      這一次,谷歌和 OpenAI 的攻防幾乎精確地踩在同一時間窗口,讓外界得以清晰觀察這兩家全球 AI 巨頭之間的戰(zhàn)略對抗節(jié)奏。


      1 谷歌推出全新 Deep Research Agent

      谷歌推出的全新 Gemini Deep Research 工具是一款智能 Agent,能夠整合海量信息并處理提示信息中大量的上下文數(shù)據(jù)。谷歌表示,客戶使用 Deep Research Agent 執(zhí)行的任務(wù)范圍廣泛,從盡職調(diào)查到藥物毒性安全研究均有涉及。

      谷歌還表示,很快會將這款全新的 Deep Research Agent 集成到其各項服務(wù)中,包括谷歌搜索、谷歌財經(jīng)、Gemini 應(yīng)用以及廣受歡迎的 NotebookLM。這標(biāo)志著谷歌正朝著一個未來世界邁出又一步:未來,人類將不再使用谷歌搜索任何內(nèi)容,而是由人工智能代理代勞。

      具體而言,Deep Research Agent 有哪些能力?

      在此次更新中,Google 不僅對 Deep Research Agent 進行了架構(gòu)級的再設(shè)計,還以 Gemini 3 Pro 為核心基礎(chǔ)模型,構(gòu)建了一個更加穩(wěn)定、準(zhǔn)確、可追溯的深度研究系統(tǒng)。新版 Deep Research Agent 的能力提升可總結(jié)為三個關(guān)鍵方向:模型升級、推理穩(wěn)定性突破以及交互能力全面增強

      先說模型升級。新版 Deep Research Agent 完全基于 Gemini 3 Pro 構(gòu)建,而 Gemini 3 Pro 被谷歌視為其迄今最“真實”、最可靠、最適合長鏈推理的旗艦?zāi)P桶姹尽9雀鑿娬{(diào),這不僅是性能提升,更是研究型智能體“可依賴性”的質(zhì)變。

      為了構(gòu)建這樣的智能體,谷歌采用了多步強化學(xué)習(xí)(Reinforcement Learning over Multi-step Trajectories)的訓(xùn)練策略。其目標(biāo)非常明確:在長達數(shù)十步、數(shù)百步的復(fù)雜研究任務(wù)中,AI 必須保持推理路徑穩(wěn)定,減少出現(xiàn)幻覺的概率,并確保連續(xù)決策過程中的一致性。

      傳統(tǒng) LLM 在長鏈推理中的主要痛點之一,就是每一步推理都會引入累計誤差——只要一個幻覺性的節(jié)點,就可能導(dǎo)致整個輸出結(jié)果失效。谷歌強調(diào),新版 Deep Research 在這一點上取得重大突破:

      • 多輪強化學(xué)習(xí)優(yōu)化決策序列

      • 在冗長任務(wù)鏈中顯著減少邏輯偏移

      • 更穩(wěn)定的檢索—分析—推理—引用閉環(huán)

      這使得 Deep Research 可以承擔(dān)以往 LLM 無法勝任的任務(wù),例如完整執(zhí)行跨天級研究、政策評估、多源數(shù)據(jù)整合和全流程盡職調(diào)查。

      新版 Deep Research Agent 的另一個核心優(yōu)勢是其超大規(guī)模上下文處理能力。在 Gemini 3 Pro 的支持下,它可以一次性處理遠(yuǎn)超以往的資料量,包括學(xué)術(shù)論文、官方報告、長篇網(wǎng)頁內(nèi)容等,更重要的是,谷歌為 Deep Research 加入了一項“研究級標(biāo)準(zhǔn)能力”:它會為每一條觀點、每一個結(jié)論自動附上可追溯引用來源。引用不僅是網(wǎng)址鏈接,而是結(jié)構(gòu)化地指向原文中的關(guān)鍵片段或段落,以確保輸出可信、觀點可查,用戶可進行二次調(diào)查與審核 。這使 Deep Research 不是“生成內(nèi)容”,而是“提供帶證據(jù)鏈的研究結(jié)果”。

      此次版本更新不僅是功能升級,而是谷歌圍繞“研究型智能體生態(tài)”的一次系統(tǒng)性發(fā)布。除了 Deep Research Agent 更新,谷歌還推出兩項關(guān)鍵新能力:開源全新網(wǎng)絡(luò)研究智能體基準(zhǔn):DeepSearchQA 和全新交互 API。

      在當(dāng)前行業(yè)中,網(wǎng)絡(luò)研究型智能體缺乏統(tǒng)一衡量標(biāo)準(zhǔn)。為了證明谷歌取得的進展,谷歌又創(chuàng)建了一個新的基準(zhǔn)測試。這個新基準(zhǔn)測試名為 DeepSearchQA,旨在測試智能體在復(fù)雜的多步驟信息檢索任務(wù)中的表現(xiàn)。谷歌已將該基準(zhǔn)測試開源。


      DeepSearchQA 開源地址:
      https://www.kaggle.com/benchmarks/google/dsqa/leaderboard

      DeepSearchQA 包含 17 個領(lǐng)域共 900 道精心設(shè)計的“因果鏈”任務(wù),每一步都依賴于先前的分析。與傳統(tǒng)的基于事實的測試不同,DeepSearchQA 衡量的是全面性,要求智能體生成詳盡的答案集。這既評估了研究的精確度,也評估了檢索召回率。



      對比 pass@8 和 pass@1 的結(jié)果,可以證明讓智能體探索多條并行路徑進行答案驗證的價值。這些結(jié)果是在 DeepSearchQA 的 200 個提示子集上計算得出的。

      全新的 Deep Research Agent 在“人類最后的考試”(HLE)和 DeepSearchQA 測試中取得了最先進的成果,并在 BrowseComp 測試中表現(xiàn)最佳。它經(jīng)過優(yōu)化,能夠以更低的成本生成高質(zhì)量的研究報告。

      基準(zhǔn)測試結(jié)果令人驚嘆。它基于 Gemini 3 Pro 核心構(gòu)建,但采用智能體工作流程來實現(xiàn)最先進的性能。統(tǒng)計數(shù)據(jù)(來自圖表):

      • 人類的最后考試(HLE): 46.4%(顯著優(yōu)于 GPT-5 Pro 的 38.9%)

      • DeepSearchQA: 66.1%(略勝 GPT-5 Pro 的 65.2%)

      • BrowseComp: 59.2%(與 GPT-5 Pro 不分伯仲)


      Gemini Deep Research 在完整的“人類最后的考試”(HLE)數(shù)據(jù)集上取得了 46.4% 的領(lǐng)先成績,在 DeepSearchQA 上取得了 66.1% 的成績,在 BrowseComp 上取得了高達 59.2% 的成績。

      Interactions API 是谷歌此次發(fā)布的最具戰(zhàn)略意義的能力之一。它讓開發(fā)者首次能夠以結(jié)構(gòu)化方式控制智能體的行為狀態(tài)、推理步驟、長鏈任務(wù)執(zhí)行、中間狀態(tài)存儲等,這意味著以前開發(fā)者只能“向模型發(fā)問”,而現(xiàn)在開發(fā)者可以“調(diào)教智能體如何執(zhí)行任務(wù)”。


      2 網(wǎng)友怎么看?

      在谷歌發(fā)布新版 Deep Research Agent 后,技術(shù)社區(qū)的反應(yīng)同樣值得關(guān)注。

      在 Hacker News 與 Reddit 相關(guān)討論帖中,不少開發(fā)者表達了對谷歌此次“真正把 Agent 做成工程化產(chǎn)品”的肯定。

      在 Reddit 上,有用戶對技術(shù)的進步發(fā)出感嘆:

      “太不可思議了!我覺得我們還沒有充分意識到這一點。過去三年我們?nèi)〉玫倪M步簡直令人難以置信!”


      有網(wǎng)友指出,谷歌首次在產(chǎn)品層面強調(diào)“可驗證引用”“端到端多步推理穩(wěn)定性”,是 AI Agent 領(lǐng)域一次明顯的進步。

      一位自稱長期從事合規(guī)審閱工作的用戶評論說:“如果 Deep Research 真的能做到逐步鏈路可審計,那將是第一次有大廠真正把 Agent 從玩具推向生產(chǎn)環(huán)境。”

      但也有觀點保持謹(jǐn)慎,一位 Reddit 用戶批評道:“谷歌用自家基準(zhǔn)證明自己最強,這種事情已經(jīng)發(fā)生過太多次了。我們需要的是在真實網(wǎng)頁、真實任務(wù)中的第三方測試。”

      谷歌這款新 Agent 的發(fā)布時間與 OpenAI GPT-5.2 是同一天,自然難逃網(wǎng)友們將兩者相比較的命運。

      在 Reddit 上,有用戶提問這款 Deep Research Agent 與同一時間 OpenAI 發(fā)布的 GPT-5.2 相比如何,另一位用戶回答稱用途不同,但 GPT-5.2 更好。


      為了將兩者進行更清晰的對比,還有網(wǎng)友找出了 OpenAI 研究員 Sebastien Bubeck

      在領(lǐng)英上的發(fā)文,在這篇發(fā)文中,Sebastien Bubeck 稱 GPT-5.2 在人類的最后考試(HLE)中的得分是 45%,而谷歌這款新的 Agent 的得分是 46.4%,略高于 GPT-5.2。


      同時,圍繞谷歌與 OpenAI 的競爭,也有人發(fā)出調(diào)侃式評論:“谷歌剛發(fā) Deep Research,OpenAI 就把 Garlic(GPT-5.2)端上來了,這倆公司現(xiàn)在簡直是在互相搶發(fā)新聞。”

      還有人總結(jié)這場激烈競賽的節(jié)奏:“這已經(jīng)不是模型大戰(zhàn),而是發(fā)布會大戰(zhàn)。”

      3 模型能力的“貼身肉搏”越演愈烈

      基礎(chǔ)模型能力始終是兩家公司最具標(biāo)志性的競爭焦點。

      2025 年初,谷歌推出的 Gemini 3 Pro 以其更“真實”、更可依賴、幻覺率更低的特性,試圖在長鏈推理和專業(yè)任務(wù)場景中重建優(yōu)勢。Gemini 3 Pro 強調(diào)檢索增強、多模態(tài)處理能力以及大規(guī)模上下文處理能力,在科研、法律、金融等高可信場景中表現(xiàn)亮眼。

      而 OpenAI 在最新發(fā)布的 GPT-5.2(Garlic)中,強化了邏輯一致性、工具調(diào)用穩(wěn)定性以及智能體行為的自主性,進一步提升了跨任務(wù)泛化能力。內(nèi)部基準(zhǔn)測試顯示,GPT-5.2 在推理、代碼生成、多輪工具調(diào)度方面對 Gemini 保持領(lǐng)先,尤其是在 OpenAI 自研的“連續(xù)推理一致性 Benchmark”中表現(xiàn)突出。

      兩者之間的能力差距被行業(yè)評論認(rèn)為“已進入毫厘級別”——差距常常只體現(xiàn)在特定任務(wù)場景,而不再是全局性的優(yōu)勢。

      如果說基礎(chǔ)模型決定了智能體能否思考,那么智能體平臺能力則決定了智能體能否執(zhí)行任務(wù)。

      谷歌此次對 Gemini Deep Research Agent 進行全面重構(gòu),可視為其正式加入智能體戰(zhàn)爭的關(guān)鍵節(jié)點。

      新版 Deep Research Agent 具有三大亮點:

      • 基于 Gemini 3 Pro 全面重寫推理鏈路

      • 采用多步強化學(xué)習(xí)訓(xùn)練,保持長鏈任務(wù)中決策一致性,顯著降低幻覺概率

      • 提供全鏈路引用,可追溯每個觀點的證據(jù)來源

      這使其從“報告生成工具”升級為“可執(zhí)行完整研究任務(wù)的專業(yè)智能體”。更關(guān)鍵的是,谷歌推出了結(jié)構(gòu)化控制智能體行為的 Interactions API,開發(fā)者可以對智能體的每一階段、每一子任務(wù)進行高度可控的調(diào)度與狀態(tài)管理。這意味著 Deep Research Agent 不再是谷歌產(chǎn)品線內(nèi)部的能力,而是一個通用的智能體執(zhí)行引擎。

      OpenAI 的智能體體系則更側(cè)重通用性和自由度。

      Agent API、OpenAI Swarm、BrowserAgent、CodeAgent 已形成一個完整的智能體開發(fā)框架,加上 GPT-5.2 的推理一致性提升,讓其在自動化任務(wù)執(zhí)行、工具調(diào)用復(fù)雜度和環(huán)境適應(yīng)性上保持優(yōu)勢。

      兩者競爭的是:未來軟件開發(fā)將以智能體為核心,而誰掌握了智能體框架標(biāo)準(zhǔn),誰就掌握了新一代計算范式的主導(dǎo)權(quán)。

      https://ai.google.dev/gemini-api/docs/deep-research?hl=zh-cn

      https://techcrunch.com/2025/12/11/google-launched-its-deepest-ai-research-agent-yet-on-the-same-day-openai-dropped-gpt-5-2/

      聲明:本文為 InfoQ 翻譯整理,不代表平臺觀點,未經(jīng)許可禁止轉(zhuǎn)載。

      InfoQ 老友!請留步!極客邦 1 號客服上線工作啦!

      后續(xù)我將通過微信視頻號,以視頻的形式持續(xù)更新技術(shù)話題、未來發(fā)展趨勢、創(chuàng)業(yè)經(jīng)驗、商業(yè)踩坑教訓(xùn)等精彩內(nèi)容,和大家一同成長,開啟知識交流之旅

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點推薦
      夫妻間發(fā)送淫穢信息也違法?胡錫進發(fā)聲:沒有對性的興趣,生育如何提高?

      夫妻間發(fā)送淫穢信息也違法?胡錫進發(fā)聲:沒有對性的興趣,生育如何提高?

      可達鴨面面觀
      2025-12-23 08:42:26
      新F4演唱會上,周渝民就快讓人認(rèn)不出來了,這濃濃的“人夫感”啊

      新F4演唱會上,周渝民就快讓人認(rèn)不出來了,這濃濃的“人夫感”啊

      安寧007
      2025-12-22 23:55:02
      分手、死亡、重病、入獄····《艾米莉在巴黎》劇組疑似被詛咒!

      分手、死亡、重病、入獄····《艾米莉在巴黎》劇組疑似被詛咒!

      新歐洲
      2025-12-23 20:57:59
      打翻女孩水杯母女社死!被全網(wǎng)怒罵 視頻已傳外網(wǎng) 丟人到國外了

      打翻女孩水杯母女社死!被全網(wǎng)怒罵 視頻已傳外網(wǎng) 丟人到國外了

      現(xiàn)代小青青慕慕
      2025-12-24 11:18:33
      徹底瘋狂!溢價高達70%,引來眾多投資者瘋狂套利!連續(xù)三天漲停,卻鬧出烏龍?

      徹底瘋狂!溢價高達70%,引來眾多投資者瘋狂套利!連續(xù)三天漲停,卻鬧出烏龍?

      雪球
      2025-12-24 17:00:51
      一上午11人,全部確診癌癥晚期!醫(yī)生提醒,天再冷也不要做這事

      一上午11人,全部確診癌癥晚期!醫(yī)生提醒,天再冷也不要做這事

      新時代的兩性情感
      2025-12-23 04:42:27
      大爆冷!聯(lián)盟第一轟然倒下,馬刺雙殺雷霆這一戰(zhàn)!我認(rèn)清4個現(xiàn)實

      大爆冷!聯(lián)盟第一轟然倒下,馬刺雙殺雷霆這一戰(zhàn)!我認(rèn)清4個現(xiàn)實

      籃球掃地僧
      2025-12-24 15:11:54
      19:30 中國男足vs泰國!邵佳一關(guān)注7大國腳 U23亞洲杯出線=創(chuàng)歷史

      19:30 中國男足vs泰國!邵佳一關(guān)注7大國腳 U23亞洲杯出線=創(chuàng)歷史

      侃球熊弟
      2025-12-24 00:10:03
      俄油輪突然擠滿中國港口,印度人破防:是我們讓中國賺了大錢

      俄油輪突然擠滿中國港口,印度人破防:是我們讓中國賺了大錢

      兵器海陸空視頻
      2025-12-24 19:09:54
      為了得到巔峰期的伊萬卡,姆巴佩到底花了多少“轉(zhuǎn)會費”?

      為了得到巔峰期的伊萬卡,姆巴佩到底花了多少“轉(zhuǎn)會費”?

      羅氏八卦
      2025-12-24 11:56:24
      南博院的瓜越挖越多,真相呼之欲出:沒什么不可能!

      南博院的瓜越挖越多,真相呼之欲出:沒什么不可能!

      大道微言
      2025-12-23 09:59:48
      土耳其中部農(nóng)業(yè)區(qū)出現(xiàn)近700個巨大天坑,疑因氣候變化導(dǎo)致

      土耳其中部農(nóng)業(yè)區(qū)出現(xiàn)近700個巨大天坑,疑因氣候變化導(dǎo)致

      環(huán)球網(wǎng)資訊
      2025-12-24 13:51:56
      張?zhí)m冬至現(xiàn)身汪小菲家,舉動揭示馬筱梅地位,小菲臉色難看

      張?zhí)m冬至現(xiàn)身汪小菲家,舉動揭示馬筱梅地位,小菲臉色難看

      孤酒老巷QA
      2025-12-24 21:53:02
      劉結(jié)一,擔(dān)任新聞發(fā)言人

      劉結(jié)一,擔(dān)任新聞發(fā)言人

      上觀新聞
      2025-12-24 17:42:07
      北控73-87吉林 球員評價:3人良好,2人及格,7人低迷

      北控73-87吉林 球員評價:3人良好,2人及格,7人低迷

      籃球資訊達人
      2025-12-24 22:36:56
      黨渣末日到來!鄭麗文對“藍(lán)皮綠骨”開刀,侯友宜盧秀燕跪地求饒

      黨渣末日到來!鄭麗文對“藍(lán)皮綠骨”開刀,侯友宜盧秀燕跪地求饒

      野史日記
      2025-12-24 08:30:45
      東莞小伙王帥投湖身亡年僅20歲,被罕見病折磨4年剛復(fù)學(xué)1個月

      東莞小伙王帥投湖身亡年僅20歲,被罕見病折磨4年剛復(fù)學(xué)1個月

      九方魚論
      2025-12-24 13:32:02
      新型和隱性腐敗發(fā)現(xiàn)取證定性難 中央紀(jì)委國家監(jiān)委印發(fā)證據(jù)指引

      新型和隱性腐敗發(fā)現(xiàn)取證定性難 中央紀(jì)委國家監(jiān)委印發(fā)證據(jù)指引

      新京報
      2025-12-24 13:41:08
      “養(yǎng)不起別養(yǎng)了!”媽媽曬出初中兒子午餐,一塊正經(jīng)肉都沒有!

      “養(yǎng)不起別養(yǎng)了!”媽媽曬出初中兒子午餐,一塊正經(jīng)肉都沒有!

      知曉科普
      2025-12-19 09:57:32
      南博《江南春》暗箱操作丑聞的五個關(guān)鍵要害,被一個女人無意泄密

      南博《江南春》暗箱操作丑聞的五個關(guān)鍵要害,被一個女人無意泄密

      雪中風(fēng)車
      2025-12-22 19:12:14
      2025-12-24 23:19:00
      InfoQ incentive-icons
      InfoQ
      有內(nèi)容的技術(shù)社區(qū)媒體
      11864文章數(shù) 51647關(guān)注度
      往期回顧 全部

      科技要聞

      智譜和MiniMax拿出了“血淋淋”的賬本

      頭條要聞

      61歲女"老虎"王峻被查 一直在西藏自治區(qū)工作

      頭條要聞

      61歲女"老虎"王峻被查 一直在西藏自治區(qū)工作

      體育要聞

      26歲廣西球王,在質(zhì)疑聲中成為本土得分王

      娛樂要聞

      懷孕增重30斤!闞清子驚傳誕一女夭折?

      財經(jīng)要聞

      北京進一步放松限購 滬深是否會跟進?

      汽車要聞

      “運動版庫里南”一月份亮相???或命名極氪9S

      態(tài)度原創(chuàng)

      家居
      教育
      手機
      藝術(shù)
      游戲

      家居要聞

      法式大平層 智能家居添彩

      教育要聞

      183cm初中生為了10塊錢撒嬌,家長無奈吐槽:已經(jīng)激發(fā)不出母愛了

      手機要聞

      小米17 Ultra徠卡版確認(rèn),徠卡紅標(biāo)+大師變焦環(huán)

      藝術(shù)要聞

      2026第一福!孫曉云親筆“福”字出爐

      BLG又被0-2了!不敵JDG,苦吞德杯第二敗!HongQ猛如戰(zhàn)神

      無障礙瀏覽 進入關(guān)懷版 主站蜘蛛池模板: 人妻激情文学| 精品国产卡二2卡3卡4卡乱码| 精品久久久久久无码国产| 青青草原亚洲| 欧美性群另类交| 欧美人与物videos另类xxxxx| 亚洲精品无amm毛片| 欧美熟妇乱子伦XX视频| 武安市| 欧美成人综合| 国产精品流白浆无遮挡 | 欧美午夜精品一区二区三区电影| 5d肉蒲团之性战奶水| 又黄又爽又色的免费网站| 性爱综合网| 色婷婷婷丁香亚洲综合| 国产免费丝袜调教视频| 亚洲中文字幕在线观看| 4虎四虎永久在线精品免费| 四虎www永久在线精品| 亚洲456| 欧美丝袜另类| 漂亮人妻被修理工侵犯| 成人区人妻精品一熟女| 欧洲天堂网| 麻豆国产尤物av尤物在线观看 | 麟游县| 欧美视频网站www色| www.30p| 99在线视频免费观看| 亚洲AV日韩AV综合在线观看 | 欧美视频亚洲| 欧美黑人又粗又大久久久| 尤物一区| 天堂a?中文在线| 无码人妻AV一区二区| 中文字幕人妻中文AV不卡专区| 乱熟女高潮一区二区在线| 国产午夜精品理论大片| 国产va在线| 久久做受www|