<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      谷歌最新版「深度研究」反擊GPT-5.2

      0
      分享至


      新智元報道

      編輯:定慧

      【新智元導讀】谷歌和OpenAI現在是針尖對麥芒!現在兩家公司是用各種新產品互相炮轟對方。

      而在GPT-5.2發布前一個多小時,谷歌就率先推出全新版Gemini Deep Research Agent


      谷歌對Gemini深度研究進行了重新構想,使其比以往任何時候都更加強大。

      • 新版Deep Research Agent基于Gemini 3 Pro構建;

      • 通過多步強化學習訓練,提高準確性并減少幻覺;

      • 它能夠處理海量上下文,并提供引用來源驗證提出的每一個觀點。


      除了Deep Research Agent功能更新,還放出了另外兩項全新能力:

      • 開源新網絡研究Agent基準DeepSearchQA,驗證智能體在網絡研究任務中的全面性;

      • 推出交互APIInteractions API)。

      雖然GPT-5.2剛剛發布無法對比,但谷歌DeepMind產品經理路Lukas Haas在社交平臺X上透露:


      最新版Gemini Deep Research Agent在谷歌新基準測試上得分46.4%,在BrowseComp上與GPT-5 Pro相當,價格卻低了一個數量級。


      深度研究,更「深度」了

      Gemini Deep Research是一款專為長時間上下文收集與綜合任務優化的智能體。

      該智能體的推理核心采用迄今為止最具事實準確性的Gemini 3 Pro模型,并經過專門訓練,以在復雜任務中減少幻覺生成并最大化報告質量。

      通過擴展多步強化學習在搜索中的應用,該智能體能夠以高精度自主駕馭復雜的信息環境。


      Gemini Deep Research在完整Humanity's Last Exam(HLE)測試集中達到46.4%的領先水平,在DeepSearchQA上取得66.1%的優異成績,并在BrowseComp測試中獲得59.2%的高分表現。

      DeepResearch采用迭代式研究規劃機制——它會制定查詢、閱讀結果、識別知識缺口并再次搜索。

      本次版本大幅改進了網絡搜索功能,使其能夠深入網站獲取特定數據。

      該智能體經過優化,能夠以更低成本生成經過充分研究的報告。

      不同于傳統的聊天機器人(Chatbot),Deep Research被設計為一個長時程運行的系統,其核心競爭力在于處理「非即時性」的復雜任務。

      簡單聊聊深度研究

      深度研究,算是日常使用AI工具中,最高頻的功能了。

      畢竟每個月20美元,就能享受到多次「博士級」的服務,何樂而不為。

      我的觀點就是,深度研究是普通人最能降維打擊知識服務的AI工具。


      Deep Research,這一類深度研究的智能并非源于單一模型的暴力計算,而是源于其復雜的智能體工作流(Agentic Workflow)。

      該工作流模擬了人類專家在面對陌生領域時的認知行為,主要包含規劃、執行、推理與報告四個閉環階段。


      當用戶提交一個模糊的宏觀指令(例如「分析2030年量子傳感器的商業化路徑」)時,DeepResearch首先啟動的是其規劃模塊。

      基于Gemini 3 Pro強大的推理能力,系統不會立即進行搜索,而是通過「后退一步提示」技術,將這一宏觀問題拆解為多個子維度的研究路徑,如技術成熟度、供應鏈瓶頸、政策監管環境及主要競爭對手分析。

      這一規劃過程是動態的。在傳統的鏈式思維中,路徑往往是線性的;而在DeepResearch中,規劃樹是可擴展的。

      如果在初步搜索中發現了未預見的新概念,系統會實時修改研究計劃,增加新的分支進行深入挖掘。

      DeepSearchQA:深度研究智能體的基準測試

      在上面的基準測試中,你應該注意到一個叫做DeepSearchQA。

      這就是谷歌專門針對深度研究智能體開發的測試基準,一個用于評估智能體在復雜多步驟信息檢索任務表現的全新基準。

      DeepSearchQA包含涵蓋17個領域的900項人工設計的因果鏈任務,其中每個步驟都依賴于先前的分析。

      與傳統基于事實的測試不同,DeepSearchQA通過要求智能體生成詳盡答案集來評估研究完整性,同時檢驗研究精確度與信息召回能力。

      DeepSearchQA還可作為思考時間效益的診斷工具。

      在內部評估中,谷歌發現當允許智能體執行更多搜索和推理步驟時,其性能獲得顯著提升。


      對比pass@8與pass@1的結果,證明了讓智能體通過并行探索多條軌跡進行答案驗證的價值。

      這些結果基于DeepSearchQA的200個提示子集計算得出。

      交互API:專為Agent應用開發設計


      交互API原生集成了一套專屬接口,該接口專為Agent應用開發場景設計,可高效處理交錯式消息、思維鏈、工具調用及其狀態信息的復雜上下文管理工作。

      Gemini模型套件外,交互API還提供其首個內置Gemini Deep Research Agent

      下一步,谷歌將擴展其內置Agent,并提供構建和引入其他Agent的功能,這將使開發者能夠通過一個API連接Gemini模型、谷歌內置Agent和開發者的定制Agent

      交互API提供了一個單一的RESTful端點,用于與模型和Agent交互。

      Interactions API擴展了generateContent的核心功能,為現代智能體應用提供所需特性,包括:

      • 可選服務器端狀態:將歷史記錄管理卸載到服務器的能力。這簡化了客戶端代碼,減少上下文管理錯誤,并可能通過提高緩存命中率來降低成本。

      • 可解釋且可組合的數據模型:專為復雜智能體歷史記錄設計的清晰架構。您可以對交錯排列的消息、思考過程、工具及其結果進行調試、操作、流式處理和邏輯推理。

      • 后臺執行:無需維持客戶端連接,即可將長時間運行的推理循環卸載到服務器端的能力。

      • 遠程MCP工具支持:模型可直接調用模型上下文協議(MCP)服務器作為工具。

      隨著InteractionsAPI的推出,Google試圖重新定義開發者構建AI應用的方式,從「無狀態的請求-響應」模式轉向「有狀態的智能體交互」模式。

      目前的LLM API大多是無狀態的。開發者必須在客戶端維護整個對話歷史,并在每次請求時將數萬token的上下文發送回服務器。

      這不僅增加了延遲和帶寬成本,還使得構建復雜的、多步驟的Agent變得異常繁瑣。

      Interactions API引入了服務器端狀態管理

      開發者只需通過/interactions端點創建一個會話,Google的服務器就會自動維護該會話的所有上下文、工具調用結果以及Agent的內部思維狀態。

      這才是我認為谷歌這個最新API恐怖的地方。

      Interactions API最革命性的特性在于它允許開發者直接調用谷歌預訓練的高級Agent,而不僅僅是基礎模型。

      比如開發者可以通過簡單的API調用(指定agent=deep-research-pro-preview-12-2025)將Google最頂尖的研究能力嵌入到自己的ERP、CRM或科研軟件中。

      考慮到DeepResearch一次任務可能消耗數十萬token的閱讀量和生成量,單次深度研究的成本可能達到數美元。

      然而,與其替代的人類初級分析師數小時甚至數天的工作成本相比,這一價格仍具有極高的投資回報率。

      DeepMind與英國政府達成合作

      最后,還有一個消息值得注意。

      在谷歌和OpenAI打生打死意外,谷歌DeepMIind已經在國家層面,展開合作。

      DeepMind作為誕生于倫敦的AI巨頭,正在通過DeepResearch及其底層技術,與英國政府展開一場規模空前的「AI治國」實驗。


      這一合作不僅涉及科學探索,更深入到公共行政的毛細血管,特別是在解決英國長期存在的住房危機和規劃效率低下問題上取得了突破性進展。

      Project Extract:破解城市規劃的「數據孤島」

      英國的城市規劃系統(Planning System)長期以來被視為阻礙經濟增長和住房建設的瓶頸。

      每年,地方議會需要處理約35萬份規劃申請,而大量的歷史規劃檔案仍以紙質、掃描PDF或手繪地圖的形式存在。

      規劃師往往需要花費數小時在一個布滿灰塵的檔案中尋找幾十年前劃定的地下管線或保護區邊界。


      為了解決這一痛點,DeepMind與英國政府AI孵化器(i.AI)合作開發了Extract工具。

      這不是一個簡單的OCR軟件,而是一個基于Gemini多模態推理能力的復雜地理空間智能系統。


      1. 非結構化信息理解:

        Extract首先利用Gemini的視覺語言能力讀取低質量的掃描文檔。它不僅能識別文字,還能理解手寫注釋的語義(例如,識別旁注中的「批準日期」而非「申請日期」),其日期識別準確率達到了94%。

      2. 視覺推理與多邊形提取:

        這是最核心的技術突破。Gemini能夠理解地圖上的視覺符號語言,例如區分「紅色實線」代表的產權邊界和「藍色虛線」代表的排水渠。一旦識別出目標區域,系統會調用OpenCVSAM等計算機視覺工具,像數字手術刀一樣精確地從像素圖像中提取出地理多邊形,其形狀匹配度(IoU)達到了90%。

      3. 時空特征匹配:

        歷史地圖的比例尺和參照系往往與現代衛星地圖不同。Extract利用LoFTR算法,能夠在舊地圖和現代地圖之間找到共同的特征點(如古老的教堂、路口),計算出精確的變換矩陣,將幾十年前的手繪紅線精確映射到今天的數字地圖坐標系中。

      4. 全流程自動化:

        通過這一流程,Extract將一份復雜規劃文檔的處理時間從平均2小時壓縮至40秒到3分鐘。這意味著一個地方議會每天可以數字化處理上百份積壓檔案,效率提升了百倍。


      目前,Extract已在威斯敏斯特(Westminster)、希靈登(Hillingdon)等四個地區進行試點。

      英國政府計劃在2026年春季將其推廣至全國所有地方議會。

      這不僅將釋放數千小時的行政人力,更重要的是,它將構建一個全國統一的數字規劃數據庫,為英國政府承諾的「建設150萬套新住房」計劃提供數據底座。

      這是DeepResearch技術在垂直領域應用的最佳范例——將通用的多模態推理能力轉化為具體的行政生產力。

      科學新基建:從AlphaFold到自動化材料實驗室

      在基礎科學領域,DeepMind與英國政府的合作旨在通過AI加速科學發現的飛輪效應。

      DeepMind宣布將于2026年在英國建立其首個自動化AI科學實驗室

      • 閉環發現系統:實驗室將運行一個由Gemini和GNoME(Graph Networks for Materials Exploration)驅動的閉環系統。AI負責基于量子化學原理設計新的晶體結構,預測其穩定性。

      • 機器人合成:這些設計指令直接發送給全自動化的機器人平臺,機器人負責配料、合成、燒結和測試。

      • 數據反饋:實驗結果實時反饋給AI,用于修正下一輪的預測。目標是將新材料(如室溫超導體、高效電池電解質)的發現周期從數十年縮短至數月甚至數天。這一舉措直接服務于英國的凈零排放(NetZero)戰略和能源安全。

      除了硬件實驗室,DeepMind還向英國科學家開放了一系列前沿AI模型:

      國家安全與數字免疫系統

      在安全領域,合作重點從「進攻性能力」轉向了「防御性韌性」。

      DeepMind與英國AI安全研究所(UKAI Security Institute)合作,部署了基于DeepResearch技術的網絡防御工具。

      • BigSleep(原Project Naptime):這是一個利用LLM在大規模代碼庫中尋找潛伏漏洞的智能體。它曾成功在SQLite等核心開源基礎設施中發現了人類專家未能察覺的內存安全漏洞。

      • Code Mender:與BigSleep配合,不僅發現漏洞,還能自動生成修復代碼補丁。這一套「發現-修復」的自動化閉環,旨在為英國的國家關鍵信息基礎設施(CII)構建一套實時的「數字免疫系統」,抵御日益復雜的網絡攻擊。

      以上就是谷歌這次針對GPT 5.2的更新內容。

      個人認為谷歌目前還是最強的。

      雖然昨夜GPT 5.2閃擊Gemini 3成功,但是在多模態能力依然還是稍微落后的,或者在年底會有一個對標Nano Banana Pro的產品出現。

      而且從最新的深度研究智能體來看,以及DeepMind在英國的深度戰略布局,谷歌更加領先一步。

      這種領先性向我們展示了AI技術發展的一個清晰圖景:

      通用人工智能(AGI)的雛形正在從對話框中走出,演變為能夠感知、規劃并改變物理與數字世界的智能體。

      參考資料:

      https://blog.google/technology/developers/deep-research-agent-gemini-api/

      https://x.com/GoogleDeepMind/status/1999165701811015990

      https://deepmind.google/blog/strengthening-our-partnership-with-the-uk-government-to-support-prosperity-and-security-in-the-ai-era/

      秒追ASI

      ?點贊、轉發、在看一鍵三連?

      點亮星標,鎖定新智元極速推送!

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      王勵勤大動作,26年WTT首站國乒名單出爐,球迷:頭撞墻知道拐了

      王勵勤大動作,26年WTT首站國乒名單出爐,球迷:頭撞墻知道拐了

      古木之草記
      2025-12-17 19:22:48
      破案了!場均32分郭昊文今年突然爆發原因找到,得感謝浙江隊1人

      破案了!場均32分郭昊文今年突然爆發原因找到,得感謝浙江隊1人

      后仰大風車
      2025-12-17 09:10:10
      中組部:公職人員退休后未經批準經商(包括當律師)的,不再保留黨政機關退休金等待遇

      中組部:公職人員退休后未經批準經商(包括當律師)的,不再保留黨政機關退休金等待遇

      新浪財經
      2025-11-18 12:46:38
      8噸因大雪滯留的草莓,在山東成武縣被“分了”

      8噸因大雪滯留的草莓,在山東成武縣被“分了”

      閃電新聞
      2025-12-17 13:09:00
      網傳廖京生不離不棄照顧生病的何晴10年,廖京生的回應來了!

      網傳廖京生不離不棄照顧生病的何晴10年,廖京生的回應來了!

      叨嘮
      2025-12-16 06:05:06
      收評:今天A股漲到3881了,明天,12月18號,大概率會這樣走

      收評:今天A股漲到3881了,明天,12月18號,大概率會這樣走

      丁丁鯉史紀
      2025-12-17 14:59:01
      直線拉升!000546,1分鐘漲停

      直線拉升!000546,1分鐘漲停

      中國基金報
      2025-12-17 10:47:12
      愛沙尼亞外長叫囂:中國再不甩了俄羅斯,就別指望我們會搭理你!

      愛沙尼亞外長叫囂:中國再不甩了俄羅斯,就別指望我們會搭理你!

      觸摸史跡
      2025-12-17 18:34:31
      歷史玩笑!烏克蘭還沒倒下,壟斷全球富豪資產的瑞士,先頂不住了

      歷史玩笑!烏克蘭還沒倒下,壟斷全球富豪資產的瑞士,先頂不住了

      至死不渝的愛情
      2025-12-10 15:32:29
      80歲老太感染上艾滋,女兒查看監控后瞠目結舌,連捅男保姆43刀

      80歲老太感染上艾滋,女兒查看監控后瞠目結舌,連捅男保姆43刀

      民間精選故事匯
      2025-05-12 08:01:12
      格力電器:公司目前持有盾安環境38.46%的股份,為其控股股東

      格力電器:公司目前持有盾安環境38.46%的股份,為其控股股東

      每日經濟新聞
      2025-12-17 08:54:28
      退休陪伴母親生活五年,明白一個道理:人到晚年,親情早已淡薄

      退休陪伴母親生活五年,明白一個道理:人到晚年,親情早已淡薄

      蟬吟槐蕊
      2025-12-16 12:29:25
      定了!天津一片區啟動大規模拆遷!

      定了!天津一片區啟動大規模拆遷!

      天津人
      2025-12-17 11:25:02
      隨著12月17日的來臨,勇士隊傳來了兩條新信息非常值得關注!

      隨著12月17日的來臨,勇士隊傳來了兩條新信息非常值得關注!

      田先生籃球
      2025-12-17 10:01:52
      真相大白!李盈瑩留洋首秀遲遲不來原因曝光,擔心的事情會發生嗎

      真相大白!李盈瑩留洋首秀遲遲不來原因曝光,擔心的事情會發生嗎

      曹說體育
      2025-12-17 14:47:26
      又揪出來一個巨貪,金額高達9.7億,首富夫人郝斌跨境逃亡失敗了

      又揪出來一個巨貪,金額高達9.7億,首富夫人郝斌跨境逃亡失敗了

      軍機Talk
      2025-12-16 11:06:32
      從上海電視臺消失的主持人,曾經是一代人的美好記憶

      從上海電視臺消失的主持人,曾經是一代人的美好記憶

      尋途
      2025-12-17 14:04:05
      公主遠嫁波斯,中途突然懷孕,就地建國,如今此地是中國領土!

      公主遠嫁波斯,中途突然懷孕,就地建國,如今此地是中國領土!

      銘記歷史呀
      2025-12-13 17:03:07
      還要繼續打,泰軍警告柬方:若敢用中國戰略武器,將直接縱深打擊

      還要繼續打,泰軍警告柬方:若敢用中國戰略武器,將直接縱深打擊

      時時有聊
      2025-12-15 07:30:21
      范思琦阻礙孫穎莎奪金牌,說出為什么離開國家隊,大家紛紛祝福

      范思琦阻礙孫穎莎奪金牌,說出為什么離開國家隊,大家紛紛祝福

      做一個合格的吃瓜群眾
      2025-12-17 18:38:12
      2025-12-17 20:08:49
      新智元 incentive-icons
      新智元
      AI產業主平臺領航智能+時代
      14122文章數 66388關注度
      往期回顧 全部

      科技要聞

      特斯拉值1.6萬億靠畫餅 Waymo值千億靠跑單

      頭條要聞

      中方被指對日本提出批評并要多國支持立場 外交部回應

      頭條要聞

      中方被指對日本提出批評并要多國支持立場 外交部回應

      體育要聞

      短短一年,從爭冠到0勝墊底...

      娛樂要聞

      狗仔曝熱播劇姐弟戀真談了???

      財經要聞

      重磅信號!收入分配制度或迎重大突破

      汽車要聞

      一車多動力+雙姿態 長城歐拉5上市 限時9.18萬元起

      態度原創

      親子
      家居
      旅游
      藝術
      公開課

      親子要聞

      遇到孩子生病哭鬧,當眾調皮,我們做家長的第一反應是什么?

      家居要聞

      溫馨獨棟 駝色與淺色碰撞

      旅游要聞

      新聞8點見丨Z世代年輕人的冰雪游;快評:控煙黑科技需答好隱私考題

      藝術要聞

      毛主席書寫林則徐詩詞,字跡超凡,引發關注。

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 欧美牲交videossexeso欧美| 广东少妇大战黑人34厘米视频| 国产日韩综合av在线| 探花无码| 中文字幕无码专区亚洲一区18P| 亚洲中文字幕无码中文字| 青青草大香焦在线综合视频| 91久久精品美女高潮不断| A片A级毛片| 闻喜县| 不卡av电影在线| 亚洲中文字幕久久精品无码喷水| 漂亮的保姆hd完整版免费韩国| 草久视频| 人人澡人人妻人人爽人人蜜桃| 日本japanese丰满少妇| 久久天天躁狠狠躁夜夜躁2o2o| 丝袜一级A片| 无码中文字幕网| 国产94在线 | 亚洲| 精品无人乱码一区二区三区的优势 | 91丝袜高潮流白浆潮喷在线观看| 狠狠cao日日穞夜夜穞av| 超级碰碰色偷偷免费视频| 在线精品自拍亚洲第一区| 亚洲成人Av| 最新国产在线拍揄自揄视频| 伊人久久精品一区二区三区| 五月婷婷五月天| 绵阳市| 99国产精品久久久久久久日本竹| 无码电影在线观看一区二区三区| 国产精品久久久影院色| 女同综合网| 国产产无码乱码精品久久鸭| 一本色道国产在线观看二区| 操逼不卡| 国产精品99精品久久免费| 国产激情视频一区二区三区| 性交大片| 人妻丝袜一区|