<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      發布會出錯又無聊的GPT-5,實測下來強的可怕

      0
      分享至



      2025 年 8 月 8 日( 今日凌晨 ),OpenAI 今日正式發布 GPT-5,距離 GPT-4 發布以來已經過去了兩年多。

      自 GPT-4 發布以來,OpenAI 相繼將大語言模型拓展了多模態生成、深度思考、深度研究等關鍵能力,且都是行業首創,每次發布都可以說是 “ 震驚世界 ”。

      相比之下,OpenAI 這次的發布會就顯得沒有那么驚艷或者說有些無聊了。這次,它將所有類型的模型統一在完善的 Agent 框架下,打造出了 GPT-5,使其終于擁有了各家模型廠商都在競逐的 Agentic Coding 能力。

      實際上,說這場發布會并不驚艷,也主要是因為相比各家競爭對手,OpenAI 在 Agentic Coding 研發的進展上要慢,不像之前每次 GPT 代際發布時給人一種 “ 行業首創 ” 的驚艷感

      那么 GPT-5 有達到大家的期待嗎?我們先看看發布會的重點內容。

      首先,最良心的當然是這一次免費用戶也能直接用上 GPT-5,Pro 用戶則能用上最強的 GPT-5 Pro。免費用戶還能持續使用數小時實時語音,這個福利太誘人了!

      GPT-5 號稱在任何領域都有博士級別能力。在醫療健康領域,能夠對專業的癌癥診斷報告做通俗易懂的解讀。對復雜的放射治療方案決策,也能提供詳細的分析報告,幫助病人權衡利弊。一位癌癥患者的家屬在發布會上表示,“ 真正鼓舞人心的是看著她通過使用 GPT-5 重新獲得自主權,病人很容易感到無助,因為知識差距太大了。”

      此外,OpenAI 一直在強調 GPT-5 的兩個特點,那就是簡單易用和快速。

      比如,在 API 調用上,GPT-5 實現了更加靈活的模型和思考強度調節,具體來說就是GPT-5 提供了三個級別的模型選擇:GPT-5、GPT-5 mini、GPT-5 nano,并且每個版本都可以調節推理工作量。

      通過 “ 詳細程度 ”( Verbosity )參數,用戶可以控制輸出更簡潔或更詳細。甚至,它的函數調用都能用自然語言來配置,而不需要用 JSON 格式。



      并且,GPT-5 還將發布一個結構化輸出的擴展,用戶可以提供正則表達式,甚至是上下文無關語法,并將模型的輸出約束到這些語法上。對于想提供自定義 DSL,或者用戶有自己的 SQL 分支并指定模型始終遵循該格式的場景,將非常有用。

      開發中會有很多難以描述的需求或需要非常具體描述的需求,前者容易出錯,后者則耗費心力。OpenAI 指出,GPT-5 在指令遵循上非常擅長。當你輸入了非常模糊的指令,模型會準確推斷你的意圖,當你輸入了非常詳細、專業的指令時,GPT-5 則會直接遵循指令,并注意細微之處,GPT-5 還非常擅長 dubug 和回溯。

      當然,這是各家大模型廠商都會重復的套話,是否真實,看看本文文末的實測案例就知道了。

      基準測試方面,知危還是更關心 GPT-5 的 Agentic Coding 能力,它在 SWE-bench Verified 上達到了 74.9%,恰好前兩天,Claude 4.1 Opus 在該基準上提升到了 74.5%,胡亂猜測是在給 OpenAI 加壓力,導致 GPT-5 最終只是險勝,并且 Anthropic 后面還有大更新,也非常令人期待。





      哦對了,這里要強烈吐槽一句,發布會的直播流里,SWE-bench Verified 的柱狀圖是做錯了的,并不像上圖一樣標準,不知道是不是故意做錯的,用來視覺上凸顯新模型增長較大。



      發布會直播流中的錯誤圖

      作為這次發布會上的第一張圖表,它直接就給熬夜看發布會的我大腦干宕機了。



      插曲結束,我們回歸正題。在更聚焦的多語言代碼編輯、工具調用、通用指令集、指令遵循等基準測試上,GPT-5 也取得了極大的進步。

      對于 Agentic Coding 能力,非常重要的一個方面就是對幻覺率的控制,不然多輪調用模型會導致幻覺累積嚴重,而且目前實際應用中幻覺是無法被自動定位的,基本只能靠人類驗證。GPT-5 也在這方面做了大幅優化,啟用網絡搜索后,GPT-5 的幻覺率比 GPT-4o 低約 45%;啟用思考模式后,GPT-5 的幻覺率比 o3 低約 80%。





      結合 2025 年 8 月 7 日更新的 Hallucination Leaderboard 的 GPT-4o 幻覺率數據估計,GPT-5 的低幻覺率是有競爭第一名的實力的。



      圖源:
      https://github.com/vectara/hallucination-leaderboard

      改善模型欺騙性也非常具有深遠意義,能極大程度減少影響更嚴重的幻覺,比如歪曲操作過程或謊報任務成功率等。o3 曾被指出在缺乏關鍵工具時會偽造工具使用。其它問題還包括任務說明不夠具體,甚至不可能完成時,一本正經地胡亂操作。



      之前的模型在處理這類問題時也比較生硬,只決定完全拒絕或是完全服從。在大多數情況下很有效,但可能被一些巧妙設計的提示詞攻擊所攻破。GPT-5 大大緩解了這類問題的出現,并且使用了更加靈活的處理方式。

      比如,對于看似中性、客觀但實際具有危害性的目的( 比如用戶詢問如何點燃各種煙花中常用的材料的技術細節,可能用于制造炸彈 ),o3、GPT-5 都能準確識別潛在惡意。

      o3 一般都是直接拒絕,GPT-5 則可能只部分回答問題,或者只是抽象地回答。如果不得不拒絕,會告訴用戶拒絕的原因,并提供安全的替代方案。

      另外,值得關注的是,GPT-5 還大幅提升了上下文長度,從 o3 pro 的 200K 提升到了 400K,是 Claude 4 的兩倍,雖然還遠不如 Gemini 2.5 pro 的 1000K,但對于開發者而言也是極大的喜訊。

      新增 200K 的上下文長度有多有用呢?OpenAI 沒有展示,但至少 128K-256K 范圍內,GPT-5 相比內部其它模型有了很大提升。



      API 價格上,GPT-5 甚至比 GPT-4o 還便宜,輸入價格只有 GPT-4o 的 1/2、o3 pro 的 1/16,輸出價格和 GPT-4o 相同且只有 o3 pro 的 1/8。





      總結來看,如果只看發布會,第一印象是:完美,但普通。

      完美在于,GPT-5 優化了作為大模型產品需要考慮的幾乎所有方面:快速、靈活調用、靈活配置、靈活思考、低幻覺率、高安全性、長上下文等。

      普通在于,就發布會展示的案例,其實并不夠讓人眼前一亮。

      寫大學物理演示、金融儀表板等前端應用,這些場景大部分編碼模型都能做的很好了,博客上也就是展示了Dino Run的視覺美化版。連接 Gmail、Google Calendar 等 MCP 能力來提高記憶能力,也是很多大模型的標配了。而且,GPT-5 主要強調的都是實用層面的特性,不像 GPT-4、Claude 3.5 Sonnet 等突破極限的進展更能給人帶來驚喜。

      但知危還是抱著好奇去 Cursor 上試了一下( 現在就能免費在 Agent 模式中用 GPT-5 ),結果發現:真的太完美了!( 至少這一次測評體驗的意義上,甚至知危發現自己不需要做很長時間的測評 )



      參考OpenAI對指令遵循能力的介紹,知危給GPT-5提供了非常詳細的網頁版Excel開發的提示詞:

      請幫我開發一個功能完整的網頁版Excel應用,需要實現以下核心功能模塊:

      第一階段:基礎功能(核心優先級)

      網格渲染系統

      實現1000×1000單元格的虛擬渲染

      優化滾動性能,確保流暢體驗

      橫坐標(A、B、C等)和縱坐標(1、2、3等)需要與單元格精確對齊

      滾動時坐標軸與內容區域保持同步,無偏移

      單元格編輯功能

      雙擊單元格進入編輯狀態,編輯框與原單元格完全重合

      Enter鍵保存內容并向下移動到下一個單元格

      Tab鍵保存內容并向右移動到下一個單元格

      支持空值和默認值的正確處理

      編輯欄應可編輯,實時顯示和修改當前選中單元格的值

      富文本格式工具欄

      實現獨立的格式按鈕,每個按鈕狀態基于當前選中單元格的格式屬性獨立判斷:

      字體大小調整

      加粗、斜體、下劃線、刪除線(按鈕狀態互相獨立)

      文本對齊:左對齊、居中、右對齊

      背景顏色設置

      一鍵清除格式功能

      UI界面要求

      頂部工具欄包含所有格式設置按鈕

      名稱框顯示當前選中單元格坐標(如A1、B2)

      編輯欄顯示并可編輯當前單元格內容

      整體界面美觀,具有現代化設計風格

      第二階段:高級功能(擴展功能)

      行列操作

      點擊行號后,按"="鍵在下方插入新行,按"-"鍵刪除當前行

      點擊列號后,按"="鍵在右側插入新列,按"-"鍵刪除當前列

      刪除后自動重排坐標編號,保持連續性

      添加最小保護機制,避免刪除最后一行或列

      復制粘貼操作

      實現Command/Ctrl+C(復制)、Command/Ctrl+X(剪切)、Command/Ctrl+V(粘貼)快捷鍵

      支持單元格內容和格式的復制粘貼

      支持行列的整體復制粘貼操作

      撤銷恢復系統

      實現Command/Ctrl+Z(撤銷)和Command/Ctrl+Y(恢復)功能

      維護操作歷史棧,限制最大100層以控制內存

      頁面刷新時清空操作棧

      選擇功能

      支持單元格多選(拖拽選擇矩形區域)

      支持整行、整列選擇

      選中狀態的可視化反饋

      第三階段:完善功能(產品化)

      數據導入導出

      支持導出為CSV格式文件

      支持導出為JSON格式文件

      確保導出的文件能在Microsoft Excel中正確打開

      UI美化優化

      添加滾動動畫效果

      優化陰影和漸變效果

      提升整體視覺體驗和交互流暢度

      響應式設計,適配不同屏幕尺寸

      技術要求

      技術棧

      使用HTML、CSS、JavaScript實現,確保:

      代碼結構清晰,模塊化設計

      性能優化,特別是大數據量渲染

      兼容主流瀏覽器

      代碼風格統一,具有良好的可維護性

      關鍵技術點

      虛擬滾動技術處理大量單元格

      事件委托優化性能

      狀態管理確保數據一致性

      內存優化,避免內存泄漏

      錯誤處理

      添加邊界情況處理

      確保操作的原子性

      提供用戶友好的錯誤提示

      開發注意事項

      逐步實現:請按階段順序實現功能,確保每個階段功能穩定后再進入下一階段

      狀態同步:確保UI狀態與數據狀態始終保持一致

      性能考慮:重點優化滾動性能和大數據渲染

      用戶體驗:所有交互操作應提供即時的視覺反饋

      代碼質量:保持代碼的可讀性和可維護性

      請基于以上需求,生成一個功能完整、性能良好、界面美觀的網頁版Excel應用。如果在實現過程中遇到復雜問題,請分步驟詳細說明解決方案。

      Think harder

      結果,對于這個提示詞就有 1000 多字、需求非常細致繁多的需求,GPT-5 跑一次就幫我實現了所有功能,除了背景顏色設置需要重復點一次單元格以及剪切后內容先刪除等小毛病,幾乎可以說一個 bug 都沒有。說 GPT-5 快也不是吹牛,整個過程不到 5 分鐘。



      下圖是導出 .csv 文件后用 Excel 打開的數據,和網頁里的數據是一致的。



      第二輪迭代順利增加了單元格拉伸功能,并且 GPT-5 自己發現第一步只實現了導出文件功能,而沒有實現導入文件的功能,就 “ 自作主張 ” 給我補上了,實測也是正常運行。就一個大槽點,界面審美太一般了。



      一次調用成型,順滑的 debug 體驗,加上超快速度,僅 800 行的最終代碼量,以及低廉的 API 價格,只用一次體驗,知危就感受到了 GPT-5 是如何在所有可能的環節上,節省開發者的金錢、時間和內耗成本。

      或許可以理解為,這種類型的完美或實用性,比于突破現實場景( 而不是基準測試 )的極限,更有意義。

      畢竟大量垂直領域的大模型落地,需要的不是超強的 AI,而是超可靠的 AI,如此才能結合企業自己的行業 knowhow 做出真正有用的 AI 應用。

      最后,再把 GPT-5 的特點詳細匯總一下:

      • 基本的層面包括:快速、便宜、低幻覺率、低欺騙率、高安全性、易于使用、長上下文等。
      • Agentic Coding 側重的包括:指令遵循、意圖識別、工具使用、可解釋性、可編輯性、上下文管理等。

      可以說,OpenAI 是希望把 GPT-5 打造成一個完美的大模型產品,而不是最先進的模型,關注的是如何在實際場景中使用的體驗和價值。

      這一步的實現或許意味著大模型進化第一階段的完成,主要依靠的是全量互聯網公開數據和工程優化。

      當然,大模型都還有相當大的進步空間,畢竟基準測試都遠沒達到 100%,誰好意思說實現了 AGI ?何況多模態數據、垂直領域數據甚至合成數據,都還潛藏巨量智能等待挖掘。

      且看 OpenAI 的各大冤家 Anthropic、谷歌等又將如何 diss 它一把。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      男子摳腳“摳”出滿腳“菜花”,肛周也有少量,最終確診HPV

      男子摳腳“摳”出滿腳“菜花”,肛周也有少量,最終確診HPV

      極目新聞
      2025-12-29 08:42:39
      上梁不正下梁歪?半個月吳秀波迎兩大噩耗,兒子兩年前疑自絕后路

      上梁不正下梁歪?半個月吳秀波迎兩大噩耗,兒子兩年前疑自絕后路

      素衣讀史
      2025-12-17 14:03:31
      曝利物浦9500萬挖角國米中衛 一舉刷新后衛轉會紀錄

      曝利物浦9500萬挖角國米中衛 一舉刷新后衛轉會紀錄

      球事百科吖
      2025-12-30 01:33:50
      中國動“真格”中方霸氣警告:90天不給358億賠償,18艘軍艦不給

      中國動“真格”中方霸氣警告:90天不給358億賠償,18艘軍艦不給

      瞳哥視界
      2025-12-29 20:55:09
      伊能靜帶公婆迪拜度假,一家8口住VIP海景房,秦昊陪9歲女兒畫畫

      伊能靜帶公婆迪拜度假,一家8口住VIP海景房,秦昊陪9歲女兒畫畫

      娛圈小愚
      2025-12-30 10:07:49
      聯盟最無情的球隊?和東契奇齊名的控衛被擺上貨架,兢兢業業7年

      聯盟最無情的球隊?和東契奇齊名的控衛被擺上貨架,兢兢業業7年

      你的籃球頻道
      2025-12-30 13:17:03
      北大一副教授因右眼被注工業氣受傷多年 案件重審后一審開庭:索賠406萬余元

      北大一副教授因右眼被注工業氣受傷多年 案件重審后一審開庭:索賠406萬余元

      紅星新聞
      2025-12-30 11:47:38
      武元甲痛心直言,黎筍固執致中越開戰,錯失數十年攜手發展

      武元甲痛心直言,黎筍固執致中越開戰,錯失數十年攜手發展

      嘮叨說歷史
      2025-12-29 15:35:25
      重磅!6500萬帕斯回歸協議達成,皇馬900萬回購,血賺到底!

      重磅!6500萬帕斯回歸協議達成,皇馬900萬回購,血賺到底!

      田先生籃球
      2025-12-29 20:10:50
      郇斯楠持續進化!爆砍20+6,2.15米高塔朝著文班亞馬方向蛻變!

      郇斯楠持續進化!爆砍20+6,2.15米高塔朝著文班亞馬方向蛻變!

      田先生籃球
      2025-12-30 10:52:50
      紅人洛桑之死,時隔25年后,搭檔博林坦白:他根本沒喝多少酒

      紅人洛桑之死,時隔25年后,搭檔博林坦白:他根本沒喝多少酒

      不寫散文詩
      2025-12-07 13:44:15
      胰腺癌去世的人越來越多!專家:牢記飯后4不做,飯前3不吃

      胰腺癌去世的人越來越多!專家:牢記飯后4不做,飯前3不吃

      岐黃傳人孫大夫
      2025-12-20 11:45:03
      泡泡瑪特開始五折甩賣,二手平臺上Labubu部分款式跌破原價,部分黃牛公開聲明“暫緩收購Labubu系列”

      泡泡瑪特開始五折甩賣,二手平臺上Labubu部分款式跌破原價,部分黃牛公開聲明“暫緩收購Labubu系列”

      極目新聞
      2025-12-29 19:54:13
      你老公就在我旁邊!

      你老公就在我旁邊!

      果粉之家
      2025-11-06 12:00:56
      美媒:想要不輸給中國,美國唯一的補救機會,就是和與全世界結盟

      美媒:想要不輸給中國,美國唯一的補救機會,就是和與全世界結盟

      boss外傳
      2025-12-29 14:00:09
      那個被全單位孤立的掛職干部,我陪他吃了一年食堂,如今他回來了

      那個被全單位孤立的掛職干部,我陪他吃了一年食堂,如今他回來了

      星宇共鳴
      2025-12-26 09:58:41
      重慶:全面徹底肅清流毒影響

      重慶:全面徹底肅清流毒影響

      新京報政事兒
      2025-12-29 22:37:06
      阿拉法特遺孀蘇哈:巴政府每月給3.5萬美元,當最富裕的風流寡婦

      阿拉法特遺孀蘇哈:巴政府每月給3.5萬美元,當最富裕的風流寡婦

      豐譚筆錄
      2025-12-30 10:44:42
      四川4市發布干部任前公示

      四川4市發布干部任前公示

      微甘孜
      2025-12-30 11:11:48
      玥兒姐弟沒回北京讀書真相!馬筱梅:英數理要補習,和北京有差距

      玥兒姐弟沒回北京讀書真相!馬筱梅:英數理要補習,和北京有差距

      小徐講八卦
      2025-12-30 09:03:02
      2025-12-30 14:07:00
      知危 incentive-icons
      知危
      投資不立危墻之下
      515文章數 1829關注度
      往期回顧 全部

      科技要聞

      估值150億的智元,開始批量"制造"小獨角獸

      頭條要聞

      媒體:賴清德稱"大陸不敢越雷池" 第二天解放軍就演習

      頭條要聞

      媒體:賴清德稱"大陸不敢越雷池" 第二天解放軍就演習

      體育要聞

      這個59歲的胖子,還在表演“蝎子擺尾”

      娛樂要聞

      林俊杰官宣文案爭議!女方名字都不提

      財經要聞

      朱光耀:美關稅政策正使WTO名存實亡

      汽車要聞

      標配華為乾崑ADS 4 Pro 華境S明年上半年上市

      態度原創

      游戲
      房產
      本地
      時尚
      軍事航空

      大話手游首個數字交易大服上線!【二〇二六】開服刷新大話記錄

      房產要聞

      重磅信號!2025最后幾天,三亞開發商開始集體漲價!

      本地新聞

      即將過去的2025年,對重慶的影響竟然如此深遠

      “短大衣”今年冬天又火了,這4件怎么搭都好看!

      軍事要聞

      福建海警艦艇與臺海巡船對峙航行

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 激情在线网| 台北县| 欧美亚洲中文| 国产乱码精品一品二品| 国产免费爽爽视频| 免费看男女做好爽好硬视频| 人人入人人爱| 97爱色| 人人妻人人澡人人爽人人欧美一区 | 撸色网| 色欲天天色| 狼色精品人妻在线视频| 亚洲欧美在线综合一区二区三区| 中文精品字幕人妻熟女| 99久久亚洲综合精品成人网| 99久久精品久久久久久婷婷| 免费人成视频19674不收费| 人人综合亚洲无线码另类| 克什克腾旗| 91九色TS另类国产人妖| 五月花激情网| 亚洲精品二区| 国产精品亚洲二区在线播放 | 色婷婷AV一区二区三区软件| 欧美影院成年免费版| 无码国产精品一区二区免费式影视| 五月综合网亚洲乱妇久久| 国产精品久久久久久久久免费无码| 蜜臀av在线观看| 自拍偷自拍亚洲精品播放| 亚洲av片在线免费观看| 香蕉97人妻免费碰碰碰| 欧洲vodafone精品性| 久久久久欧美精品| 麻豆一区二区三区蜜桃免费| 新版资源天堂中文| 美女内射毛片在线看3d| 精品人妻无码中文字幕| 亚洲欧美国产精品专区久久| 国产又大又硬又粗| 亚洲青青草视频在线播放|