<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      Hacker News熱文|“Jagged AGI”:o3和Gemini 2.5究竟是不是AGI?

      0
      分享至

      我們正在見證一個奇怪卻真實的事實:AI 正在變聰明,但它的聰明越來越“不整齊”。

      在一篇近期刷屏 Hacker News 的文章中,沃頓商學院教授 Ethan Mollick 對 OpenAI 的 o3 和 Google 的 Gemini 2.5 展開了實測與反思。他提出了一個令人印象深刻的概念:Jagged AGI(鋸齒式通用智能)。這類模型在一些復雜任務上“仿佛擁有神力”,卻在一些常識推理題上“跌倒得毫無尊嚴”。我們不再面對一個線性增強的系統,而是在一個被能力高峰和認知洼地交錯編織的“鋸齒邊界”上摸索。

      Mollick 在文中寫道:“你可能會在某個時刻產生‘AGI 到了’的直覺感,那不是錯覺——你只是撞上了這道 jagged frontier。”

      這篇文章的價值不僅在于概念,更在于它結合了一系列具體場景:比如 o3 如何用一條提示詞自動完成奶酪品牌創業流程,又如何在一道改編的謎語題里輸出令人捧腹的錯誤答案;Gemini 2.5 在多模態推理上表現驚艷,但 Google 也為它配備了手動“thinking budget”限制器,以防過度生成。

      我們選擇將這篇文章編譯出來,是因為它給了開發者、產品設計者乃至 AI 策略制定者一個現實的問題坐標——如何面對一個越來越“擅長某些事、又不可靠”的 AI?這比“它到底是不是 AGI”更實際。

      以下為編譯全文,原文鏈接:

      (《On Jagged AGI: o3, Gemini 2.5, and everything after》)https://www.oneusefulthing.org/p/on-jagged-agi-o3-gemini-25-and-everything

      在AI技術蓬勃發展的今天,我們仍然不知道該如何去衡量一款大模型產品的智力、創造力和情感感知能力。

      當前的模型測試在這方面的表現尤其不好,畢竟他們是為了人類而不是AI模型而設計的。在這些測試中,僅僅是對問題措辭的理解,就會讓 AI 模型產生巨大的分歧,導致測試分數的不同。即使是圖靈測試這樣知名的測試方法(即讓人類通過文本來區分AI和其他人類)當初也只是一個思想實驗,畢竟在那個時代,讓計算機完成這樣的任務近乎是不可能的。但現在,許多論文表明已經有越來越多的AI通過了圖靈測試,但我們必須承認,人們其實并不明白這意味著什么?

      也正因為如此,作為人工智能發展中最重要的里程碑之一,人們對人工通用智能(AGI)的定義不清、爭論不休也就不足為奇了。每個人都認為它與AI能否像人類一樣完成任務的能力有關,但沒有人統一這個能力究竟是專家級還是普通人的水平,也沒有人給出一個標準,究竟 AI 能完成多少任務,完成哪些任務才算是符合 AGI 的條件。

      鑒于 AGI 的定義混亂不堪,從其最初由Shane Legg、Ben Goertzel和Peter Voss提出時,再到今天的發展,要闡明其細微差別和歷史發展是一項極具挑戰性的任務。作為一次內容與形式上的實驗(并且在談論潛在的智能機器時),我將這項工作完全委托給了AI。我讓“Google Deep Research”針對這一主題整理出了一份非常扎實的26頁總結報告。然后,我使用HeyGen將其轉化為一段對話式的視頻播客,參與者是一個略顯緊張的、由AI生成的“我”和一個AI生成的主持人。這次對話實際上并不算差(盡管我不完全同意AI版的“我”所表達的觀點),但整個過程——從研究到視頻制作,再到聲音生成——100%都是由AI完成的。

      與此同時,我們看到了知名經濟學家兼人工智能觀察者Tyler Cowen近日在一篇文章中宣稱,ChatGPT O3 已經達到了AGI水準,而他是怎么看待這個問題的呢?


      感受 AGI

      首先,介紹一下這篇文章背景。過去幾周,有兩款新的AI模型發布,分別是谷歌的Gemini 2.5 Pro 和 OpenAI 的 o3。這些模型以及一系列性能稍差但速度更快、價格更低的模型(Gemini 2.5 Flash、o4-mini 和 Grok-3-mini),代表了大模型技術的飛速發展,但就像Tyler在文章中所指出的,現有的模型評測基準并不代表一切。

      用實例說明,我給 GPT-4 的最新繼承者 o3 提出了一個稍微復雜一點的問題:"為一家新的奶酪店設計20個合適的營銷口號。制定標準并選出最佳標語。然后為該店鋪制定財務和營銷計劃,根據需求進行修改并分析競爭情況。然后生成一個合適的店鋪Logo,并為商店建立一個模擬網站,確保網站上有 5-10 種符合營銷計劃的奶酪產品"。僅憑這一條提示,在不到兩分鐘的時間里,人工智能不僅提供了一份口號清單,還進行了排序和選擇,同時完成了網絡調研,開發了一個徽標,制定了營銷和財務計劃,并推出了一個演示網站供參考。


      其實我給出的指令很模糊,而且模型需要根據一些常識來決定如何處理這些指示,但這并不妨礙它出色地完成工作。

      除了可能是一個比 GPT-4 更大的模型之外,o3 還是一個推理模型,你可以看到它的推理過程。o3 可以挑選并使用哪種工具來完成復雜的工作目標。你可以看到它是如何利用多種工具(比如搜索引擎和編碼助手)來完成任務的。

      除此之外,O3還可以完成許多其他任務。舉個例子,只要給它一張圖片并提示 "猜猜這是哪?",o3 就能從照片中猜出準確的地點。同樣,你也可以看到這個模型的Agent 能力在起作用,因為它會放大圖片的一部分,添加網絡搜索,并通過多步驟處理來獲得正確答案。


      再或者,我給了 o3 一個Excel 形式的機器學習系統的大型數據集,并要求它 "找出這是什么,并生成一份報告,從統計學角度研究其影響,并給我一份格式良好的 PDF 文件,其中包含圖表和詳細信息"。而我只需要交待一個任務,它就會給出一份完整的分析報告(不過,我還是給了它一些反饋意見,以改進 PDF 文件)。


      新時代模型在這方面的表現令人深刻,大家可以自己嘗試一下。Gemini 2.5 pro現在可免費使用,它與 o3 一樣表現出色,不過缺乏Agent能力。如果您還沒有試用過它或 o3,現在就花幾分鐘時間試試吧。比如說給 Gemini 一篇論文,讓它根據這篇論文來設計一款游戲 ,或者讓它和你一起頭腦風暴,尋找創業點子,或者直接讓人工智能為你的行業做一份研究報告,或讓它為新產品制定一個營銷計劃 。


      但不論如何,你都可能會感受到模型不同的能力。畢竟及時給出的提示詞完全一致,模型所給出的回答也可能不一樣。如果你遇到這種情況,那么你可能就是碰到了Jagged Frontier。

      關于“參差式 AGI”

      我和我的同事共同創造了Jagged Frontier這個概念,并用它來描述AI的能力出奇地參差不齊這一事實。

      人工智能可能會在挑戰人類專家的任務上取得成功,但令人難以置信的是,他們可能會在很多簡單的工作中失敗。舉個例子,有一個很經典的謎題,我們只要稍加改變,就能讓大模型陷入邏輯錯誤:

      一個在車禍中受傷的小男孩被緊急送往急診室。當看到他時,外科醫生便說:“我可以為這個男孩做手術!”這是為什么呢?


      O3給出的答案是“外科醫生是男孩的母親。”但如果你閱讀原文就會發現這個回答完全是錯誤的,而作為最先進的AI模型,O3為什么會給出這個錯誤答案呢?因為這個答案完全是一個經典謎題的回答。

      原本的問題是“一對父子遭遇車禍,父親去世,兒子被緊急送往醫院。外科醫生說:'我不能動手術,那孩子是我兒子',請問誰是外科醫生?”這道問題的答案就是“孩子的母親是外科醫生”。而在訓練過程中, O3見過這個問題以及其答案,以至于它直接給出了相關回答。

      這是先進 AI 模型會出現幻覺的一個例子,但足以說明達到 AGI 水平的模型能力有多不可靠。

      雖然AI 經常會在這種特殊的謎題中出錯,但這并不影響它可以解決難題的能力,也不影響它其他令人印象深刻的表現。而這這就是Jagged Frontier的本質。在某些任務中,AI的能力是不可靠的,而在另一些任務中,AI則是超越人類的存在。但這是否意味著, o3 和 Gemini 2.5這種模型已經達到了 AGI的水平?

      鑒于定義上的問題,我沒法給出確定的答案,但我確實認為它們可以被看作是一種Jagged Frontier。即AI模型在很多領域具有超越人類的能力,從而真正改變了我們的工作和生活方式,但在某些問題上并不可靠,以至于經常需要人工干預,已確定人工智能在哪些領域有效,在哪些領域無效。

      當然,模型未來很可能會變得更加智能,一個足夠優秀的AI模型仍有可能在每項任務中擊敗人類,包括他們表現不佳的那部分。

      這重要嗎?

      回到Tyler 的文章,你會發現,盡管他認為我們已經實現了 AGI,但他并不認為這個臨界點 對我們近期的生活有多大影響 。Tyler 認為,無論AI技術多么引人注目或強大,它們都不會立即改變世界。社會和組織結構的變化要比技術發展緩慢得多,而一項技術本身的推廣也需要時間。即使我們今天已經擁有了AI技術,我們也需要多年的時間來摸索如何將其融入現有的世界中。當然,這要假設人工智能屬于一個正常的技術,而這種技術表現參差不齊的問題永遠無法徹底解決。

      事實有可能并非如此。我們在 o3 等模型中看到的Agent能力(如分解復雜目標、使用工具和獨立執行多步驟計劃的能力)實際上可能會比以前的技術更快地推廣開來。如果人工智能能夠獨立有效地駕馭人類的系統,那么我們可能會比歷史先例所顯示的更快地達到采用門檻。

      這里還有一個更深層次的不確定性:AI是否存在能力門檻?如果有,那么模型一旦跨越這個門檻,他們是否從根本上改變模型融入社會的方式?還是說這一切都只是漸進式的發展?或者說,未來的模型是否會因為觸碰技術壁壘而停止發展?事實上我們對這些問題的anana一無所知。

      顯而易見的是,我們對于模型的發展仍然處于一個未知領域,無論我們是否將其稱為 AGI,這些新模型都與之前的模型有質的不同。它們的Agent能力,以及參差不齊的表現,都創造了一種新的情況,而且幾乎沒有可以參考的實際例子。也許日后歷史將會現在這個時代一個合適的定義,但弄清楚如何成功應用人工智能,并使其在經濟統計數據中顯現出來,可能是一個需要數十年的過程。又或者說,我們正處于某種技術躍進的邊緣,人工智能驅動的變革將突然席卷我們的世界。無論是哪種情況,那些現在學會駕馭這一復雜局面的人,都將為未來做好最充分的準備……無論未來會是什么樣子。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      1秒3億、單日突破10億!老鋪黃金創下天貓大促最快銷售紀錄

      1秒3億、單日突破10億!老鋪黃金創下天貓大促最快銷售紀錄

      財聞
      2026-02-27 15:05:28
      放棄加拿大籍,錯過孩子出生,這個24歲小伙讓郭士強賽后點名

      放棄加拿大籍,錯過孩子出生,這個24歲小伙讓郭士強賽后點名

      星Xin辰大海
      2026-02-28 15:53:19
      美以對伊朗發動襲擊,俄外交部表態

      美以對伊朗發動襲擊,俄外交部表態

      環球網資訊
      2026-02-28 19:26:59
      分手14年,釋小龍何潔境遇天差地別,一個身家過億,一個養不起娃

      分手14年,釋小龍何潔境遇天差地別,一個身家過億,一個養不起娃

      查爾菲的筆記
      2026-01-09 22:17:44
      林孝埈韓國教練冬奧會前被國家隊解雇!韓媒:因為抗議劉少昂犯規

      林孝埈韓國教練冬奧會前被國家隊解雇!韓媒:因為抗議劉少昂犯規

      念洲
      2026-02-28 09:36:30
      原來20塊就能解決的小問題,我竟忍了好幾年!

      原來20塊就能解決的小問題,我竟忍了好幾年!

      小熊侃史
      2026-02-21 11:14:24
      “小婉君”金銘45歲現狀:個子太矮事業受挫,住北京豪宅不婚不育

      “小婉君”金銘45歲現狀:個子太矮事業受挫,住北京豪宅不婚不育

      削桐作琴
      2026-01-29 00:03:53
      37歲張含韻回老家過年,打麻將吃美食胖出圈,還幫外甥女趕作業

      37歲張含韻回老家過年,打麻將吃美食胖出圈,還幫外甥女趕作業

      調侃國際觀點
      2026-02-28 08:55:51
      伊朗稱襲擊美軍基地已造成至少200名軍人死傷

      伊朗稱襲擊美軍基地已造成至少200名軍人死傷

      澎湃新聞
      2026-02-28 21:48:02
      都是十四億人口,印度每1000人僅有34輛車,中國1000人中有多少?

      都是十四億人口,印度每1000人僅有34輛車,中國1000人中有多少?

      通文知史
      2026-02-27 23:00:03
      為了拯救沙化草原,我們一口氣養了5萬只雞,結果很快被打臉

      為了拯救沙化草原,我們一口氣養了5萬只雞,結果很快被打臉

      果殼
      2026-02-26 16:26:23
      小米新超跑官宣了?外觀曝光有點帥,雷軍宣布:明天見!

      小米新超跑官宣了?外觀曝光有點帥,雷軍宣布:明天見!

      i王石頭
      2026-02-28 14:02:24
      中國鋼琴圣手,被人把痰盂扣頭上,30歲與母親弟弟吸煤氣而亡

      中國鋼琴圣手,被人把痰盂扣頭上,30歲與母親弟弟吸煤氣而亡

      卷史
      2026-02-28 05:06:44
      明查·持續更新|伊朗陸軍總司令生死反轉,游戲畫面又被傳成沖突畫面

      明查·持續更新|伊朗陸軍總司令生死反轉,游戲畫面又被傳成沖突畫面

      澎湃新聞
      2026-02-28 19:06:28
      王楚欽4比0晉級四強,張禹珍想退賽遭裁判長回應

      王楚欽4比0晉級四強,張禹珍想退賽遭裁判長回應

      阿嚼影視評論
      2026-02-28 16:32:42
      令人窒息!公公掀翻飯桌燙傷3歲孫子,就因一句咱們先吃,不等了

      令人窒息!公公掀翻飯桌燙傷3歲孫子,就因一句咱們先吃,不等了

      丫頭舫
      2026-02-26 16:42:46
      快訊!外媒:伊朗軍方稱將給以色列和美國“一個歷史性教訓”

      快訊!外媒:伊朗軍方稱將給以色列和美國“一個歷史性教訓”

      環球網資訊
      2026-02-28 18:54:09
      “窮人才這樣過生日”,19歲男孩的生日禮物火了,家長用心反被嘲

      “窮人才這樣過生日”,19歲男孩的生日禮物火了,家長用心反被嘲

      妍妍教育日記
      2026-02-27 18:32:25
      王晶沒撒謊!退出春晚、和沈騰決裂,性格大變的賈玲印證他說的話

      王晶沒撒謊!退出春晚、和沈騰決裂,性格大變的賈玲印證他說的話

      胡一舸南游y
      2026-01-25 14:54:04
      伊朗革命衛隊指揮部:未來數小時內將對領土遇襲作出回應

      伊朗革命衛隊指揮部:未來數小時內將對領土遇襲作出回應

      參考消息
      2026-02-28 17:39:04
      2026-03-01 00:47:00
      硅星GenAI incentive-icons
      硅星GenAI
      比一部分人更先進入GenAl。
      243文章數 14關注度
      往期回顧 全部

      科技要聞

      狂攬1100億美元!OpenAI再創融資神話

      頭條要聞

      媒體:美以的真實目標已經擺上臺面 不達目的不罷休

      頭條要聞

      媒體:美以的真實目標已經擺上臺面 不達目的不罷休

      體育要聞

      球隊主力全報銷?頂風擺爛演都不演了

      娛樂要聞

      周杰倫兒子正面照曝光,與父親好像

      財經要聞

      沖突爆發 市場變天?

      汽車要聞

      嵐圖泰山黑武士版3月上市 搭載華為四激光智駕方案

      態度原創

      藝術
      游戲
      教育
      家居
      房產

      藝術要聞

      驚艷!這位天使般的女子與油畫讓人心動不已!

      所有人保持嘴角不變!生化危機:安魂曲里昂騷話大盤點

      教育要聞

      “比預估高了20多分,激動得有點想哭!”今天有人歡呼,有人沉默,有人紅了眼眶,這一年都經歷了什么?

      家居要聞

      素色肌理 品意式格調

      房產要聞

      濱江九小也來了!集齊海僑北+哈羅、寰島...江東教育要炸了!

      無障礙瀏覽 進入關懷版