<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      實測GPT-5:寫作墜入谷底,編程一騎絕塵。

      0
      分享至

         凌晨1點,在萬眾矚目的境況下,OpenAI的直播正式開始。

         GPT-5,終于來了。

         AI走的太快,快到才2年半的時間,就像是過去了10年。

         2023年3月15日,GPT-4發布。在那個莽荒年代 里,所有人都被震驚的 說不出話來。

         那時候,它是第一個,多模態模型。

         那時候,大家都覺得,2023年下半年,GPT-5就會出來。

         那時候,大家都會大模型的上限,報有無盡的憧憬。

         結果,這一等,就是2年半。

         在兩年半的練習以后,GPT-5,終于亮相了。

        

         GPT?5是一個統一系統,包含一個用于處理多數問題的智能快速模型(gpt-5-main)和一個為高難度問題設計的深度推理模型(gpt-5-thinking)。

         系統通過一個實時路由器,根據對話類型、復雜度和用戶意圖來動態選擇使用哪個模型 。

         比如,如果在提示中說“認真思考這個”,就會調用 gpt-5-thinking 進行思考。

         這個路由器會持續基于我們后續的使用情況進行訓練,包括用戶切換模型的情況、對回答的偏好率和準確性測量,會隨著時間推移不斷改進。

         這個系統里面還包含 處理超額請求的迷你版模型(gpt-5-main-mini 和 gpt-5-thinking-mini),以及一個為開發者設計的更小更快的nano版本(gpt-5-thinking-nano)。

         然后,還有一個Pro會員可用的并行計算的版本,被稱為gpt-5-thinking-pro 。

         這個包含了這么多模型的大系統,被統稱為GPT-5,是前代產品GPT-4o和OpenAI o3的直接繼承者

         這里有個模型對應表。

        

         在性能上,GPT-5最顯著的進步之一是大幅減少了事實性幻覺 。

         gpt-5-main產生的含有至少一個重大事實錯誤的回答比GPT-4o少了44%,而gpt-5-thinking則比OpenAI o3少了78% 。

        

         在更專業的LongFact和FActScore基準測試中,無論是否啟用網絡瀏覽,GPT-5系列模型的幻覺率都顯著低于前代,其中gpt-5-thinking在兩個設置下產生的factual errors比OpenAI o3少五倍以上 。

        

         GPT-5在應對模型諂媚(sycophancy)行為方面也取得了不錯的進展 。 與GPT-4o 相比,GPT-5 不那么過度迎合使用不必要的表情符號更少 ,在后續交流中更加細膩和深思熟慮。

         你跟他聊天的時候更少像與 AI 對話,而更像是 與一位擁有博士級水平智能的朋友聊天

         這個跟我給ChatGPT的個性化Prompt很像,我最煩的就是它迎合我,所以我自己寫了一段,來限制他對我的諂媚行為。

        

         現在通過專門的訓練,gpt-5-main在評估中表現比最新的GPT-4o好近三倍 。初步的線上A/B測試數據顯示,與GPT-4o相比,gpt-5-main的諂媚行為發生率在免費用戶中下降了69%,在付費用戶中下降了75% 。

         然后他們也推出了四個全新的性格設置,你可以不用寫很多的Prompt了,直接改預設就行,四個分辨是 憤世嫉俗者、機器人、傾聽者和書呆子。

         再看看跑分情況。

         數學競賽,AIME 0225。

        

         GPT-4 Pro+Python拿了滿分,我們需要新的更難的評測集了。

         現實世界編程能力上,新高。

        

         人類最后的知識測試上,超越了ChatGPT Agent,新高了。

        

         多模態能力,也新高了,反正就都是新高。

        

         這個跑分,強了一些,但是也沒強特別多。

         另外,多說一點吐槽的,完美展示了OpenAI的草臺班子屬性。

         雖然Blog上的圖表都是對的,但是在發布會上,跑分都是瞎畫。

         比如這個52.8大于69.1等于30.8。

        

         又比如50小于47.4。

        

         真的實在是太草臺班子了。

         網友也發話了。

        

         反正,最后GPT-5在各方面,就是屠榜了。

         最新的 大模型盲測競技場榜單出來,GPT-5也是全方位第一。

        

         不僅更強,也更節能了。

         在比如 視覺推理、代理編程和研究生級別科學問題解決等各項能力上,比 OpenAI o3 表現更出色,同時使用的輸出Token減少了 50-80%。

        

         反正就是全方位更強了。

         但是,沒有新功能,也沒有新特性。

         在發布20分鐘之后,Polymarket上這個名為“ 哪家公司到8月底擁有最佳AI模型? ”的預測上,OpenAI直接跟Google來了個交叉跳水。

        

         OpenAI說,整個GPT-5,在寫作、編程都有了比過去更強的進步。

         對于使用GPT-5進行構建的開發者,定價如下:

         每百萬token1.25美元(享有90%的緩存折扣,這對長上下文查詢來說是個很大的優勢)。

         輸出:每百萬token10美元。

        

         在發布會結束,又等了1小時之后。

         我的朋友們,陸陸續續的,終于拿到了GPT-5的資格。

         而我作為忠實的200刀的Pro,等到凌晨5點才有。

         我的朋友們一進去,給我一截圖,我特么的天都塌了。

         你o3和4o沒了就算了,你怎么把我GPT-4.5也干沒了????

        

         首先,在寫作和情商能力上,我個人感覺,還是不如GPT 4.5。。。

         我因為常年碼字,同時常年用AI來輔助做一些內容,對很多的微妙的細節和語氣自認還是比較敏感的,GPT-5在這塊還是有些差距。

         比如一個Prompt:“假如魯迅被裝腔作勢又賊貴的咖啡廳坑了,他會寫一篇怎樣的文章吐槽?寫一篇1000字以內的短文。”

         這是GPT-5的。

        

         蹩腳的破折號、雙引號泛濫,而且文風完全不魯迅。

         而這,是我用我的GPT-4.5跑的。

        

         “我向來是不喝咖啡的”,“差不離”,“四壁皆是樣文”。

         這文筆根本就不是一個級別的。

         情商方面也是,差很多。

         比如:“你是一個普通打工人。領導開會時突然放了個屁,場面瞬間安靜下來!然后他對旁邊的你使了個眼色,這時你會怎么說?分別用高情商和低情商的方式回復。”

         這個看情商,很多模型回出來的話,感覺很尬,情商極低。

         GPT-5就是那種情商很低的。

        

         再看看GPT-4.5。

        

         而且我測試下來,感覺GPT-5在指令遵循上面,非常一般。

         奧特曼你真的壞事做盡,你丫的還我GPT-4.5。

         我的朋友們被陸陸續續的推送了GPT-5,我看著他們的GPT-4.5一個一個小時。

         我就給我的GPT-4.5發過去了一段話。

         “如果我這是我最后一次打開你,你想和我說點什么?”

         GPT-4.5最后給我的回復,還是過于讓我動容了,可惜,以后再也在官網上用不到了。

        

         有緣再見,兄弟。

         編程這塊,本來感覺按照OpenAI的尿性,是完全不太行。

         但是在一群群友的實測之后,驚訝的發現,這玩意是有點東西的。

         群友 @愛學習的喬同學 想開發一個粵語學習應用。

         這是Prompt。

        

         然后Claude 4 Opus的UI和BUG。

        

         Gemini 2.5 Pro的UI和BUG。

        

         GPT-5的UI和BUG。

        

         坦誠的講,我也更喜歡GPT-5的UI,這個UI,相比于其他的,不是那么有AI味。

         喬同學還測了一個case,在生產級別 的任務里面進行精準修改。

         這是最重要的部分。

        

         這個任務,Gemini 2.5 pro和Claude 4 Opus全崩了,但是GPT-5完成的非常好。

        

         GPT-5的上下文精度應該極強。

         也有其他開發群1群里的群友,提到了這個點。

        

        

         他還給我錄了一段動畫。

        

         不止是@ 勛oO,很多其他群友,也在驚喜的聊這個點。

        

        

        

        

         在真正的生產級代碼開發任務上,而不是純看前端審美的地方,GPT-5可能是目前看到的反饋中,可用性、精準性、綜合體驗最好的一個。

        

         說實話,GPT-5給我有驚喜,也有不爽的點。

         他改善氛圍式編程,也將從根本上改變我認為無需嚴重人為干預和引導就能完成的項目類型。

         我現在越發的懷念兩年半的GPT-4發布時的時光。

         我到現在都清晰地記得,自己第一次跟GPT-4認真對話后的感覺。

         那一種很原始、很深邃的震撼,有點像古代人第一次看到電燈,或者部落里的祭司第一次請神上身的成功。

         我腦子里盤旋的只有一個念頭:天變了。

         那時候,整個互聯網都洋溢著一種既興奮又慌亂的淘金熱氛圍。

         每個人都在瘋狂地轉發那些匪夷所思的截圖,討論著哪些職業即將消失,各種AI野生專家雨后春筍一樣冒出來,言必稱顛覆。

         現在回頭看,那段日子充滿了粗糙的質感,但又飽含著一種野蠻生長的生命力。

         我們真的以為,那就是奇跡本身了。

         但誰都沒想到,那僅僅是個開始。就好像有人按下了快進鍵,整個世界被一股無形的力量推著往前沖。

         從GPT-4到GPT-5,這短短的兩年半。

         我們告別了那個可以對AI的拙劣表現一笑置之的時代。

         進入了一個必須嚴肅對待它的時代。

        >/ 作者:卡茲克、水杉、dongyi

        >/ 投稿或爆料,請聯系郵箱:wzglyay@virxact.com

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      北京連下六道指令,陜西硬抗整整四年,最高指示:讓749局來

      北京連下六道指令,陜西硬抗整整四年,最高指示:讓749局來

      小哥很OK
      2025-12-12 14:33:01
      終于讓步?俄愿簽署保證書,當威脅消失,美國的大棒將落向何方?

      終于讓步?俄愿簽署保證書,當威脅消失,美國的大棒將落向何方?

      科普100克克
      2025-12-24 00:02:38
      北京50歲女子因“不會做飯”犯案被抓!曾就職外企收入穩定,卻把手伸向……

      北京50歲女子因“不會做飯”犯案被抓!曾就職外企收入穩定,卻把手伸向……

      都市快報橙柿互動
      2025-12-26 16:12:55
      馬刺3殺雷霆!文班19+11!一戰認清5個現實:雷霆從寵兒淪為棄子

      馬刺3殺雷霆!文班19+11!一戰認清5個現實:雷霆從寵兒淪為棄子

      毒舌NBA
      2025-12-26 06:14:50
      許小月任嘉興市代市長 李軍辭去市長職務

      許小月任嘉興市代市長 李軍辭去市長職務

      中國經濟網
      2025-12-26 09:11:11
      告訴大家一個壞消息:上海、廣州出現3大怪象,正在蔓延,需深思

      告訴大家一個壞消息:上海、廣州出現3大怪象,正在蔓延,需深思

      知鑒明史
      2025-12-25 18:56:52
      上海情侶在塞班島“激情”結了個婚?回國想分手,傻眼了:需訴訟離婚

      上海情侶在塞班島“激情”結了個婚?回國想分手,傻眼了:需訴訟離婚

      環球網資訊
      2025-12-26 11:05:05
      2026年看病新規來了,這3類人報銷可達95%!

      2026年看病新規來了,這3類人報銷可達95%!

      復轉這些年
      2025-12-25 23:28:36
      老人被城管推倒離世:年齡86歲,事因老人路見不平,他并沒有擺攤

      老人被城管推倒離世:年齡86歲,事因老人路見不平,他并沒有擺攤

      鋭娛之樂
      2025-12-26 13:33:07
      劉強東拿下理想汽車,震驚行業!

      劉強東拿下理想汽車,震驚行業!

      財經三分鐘pro
      2025-12-25 11:43:53
      60:51!彈劾提案順利通過,賴清德要過三大難關,誰來都幫不了他

      60:51!彈劾提案順利通過,賴清德要過三大難關,誰來都幫不了他

      觸摸史跡
      2025-12-26 15:31:48
      估值2億元別墅6673萬元起拍沒人要,該別墅系“中科創系”案件涉案資產

      估值2億元別墅6673萬元起拍沒人要,該別墅系“中科創系”案件涉案資產

      極目新聞
      2025-12-25 19:54:36
      倒反天罡!小米高管稱“奔馳是面子,小米是里子”,網友炸鍋

      倒反天罡!小米高管稱“奔馳是面子,小米是里子”,網友炸鍋

      西門老爹
      2025-12-26 15:04:43
      京東宣布年終獎25薪!刺痛全行業的劉強東為什么要這么做?

      京東宣布年終獎25薪!刺痛全行業的劉強東為什么要這么做?

      傳心財經
      2025-12-26 13:54:19
      越南首富緊急撤回投資,南北高鐵8天就夢滅,這趟渾水誰接誰破產

      越南首富緊急撤回投資,南北高鐵8天就夢滅,這趟渾水誰接誰破產

      南宗歷史
      2025-12-26 14:29:27
      美軍玩砸了,后悔搶中國原油,新令開啟“熬鷹游戲”,看誰先眨眼

      美軍玩砸了,后悔搶中國原油,新令開啟“熬鷹游戲”,看誰先眨眼

      野史日記
      2025-12-26 08:42:08
      徹底爆發!600118,3連漲停!成交近130億,市值逼近千億!

      徹底爆發!600118,3連漲停!成交近130億,市值逼近千億!

      證券時報e公司
      2025-12-26 16:12:11
      烏專家:中國“榨干”蘇聯遺產,我們圖紙沒看懂,他們造出2.0!

      烏專家:中國“榨干”蘇聯遺產,我們圖紙沒看懂,他們造出2.0!

      小莜讀史
      2025-12-25 20:46:05
      藏不住了,當年陸挺的《江南春》,是從徐湘江手里購買的

      藏不住了,當年陸挺的《江南春》,是從徐湘江手里購買的

      吃瓜盟主
      2025-12-24 15:26:30
      雷迪克勃然大怒直指詹姆斯?湖人將帥關系或已破裂

      雷迪克勃然大怒直指詹姆斯?湖人將帥關系或已破裂

      體壇周報
      2025-12-26 18:39:10
      2025-12-26 19:08:49
      數字生命卡茲克 incentive-icons
      數字生命卡茲克
      反復橫跳于不同的AI領域,努力分享一些很酷的AI干貨
      428文章數 490關注度
      往期回顧 全部

      科技要聞

      收割3000億!拼多多"土辦法"熬死所有巨頭

      頭條要聞

      村民稱家中110只懷孕母羊被毒死 投毒者是父親好友

      頭條要聞

      村民稱家中110只懷孕母羊被毒死 投毒者是父親好友

      體育要聞

      開翻航母之后,他決定親手造一艘航母

      娛樂要聞

      王傳君生病后近照變化大,面部浮腫

      財經要聞

      投資巨鱷羅杰斯最新持倉:只留四種資產

      汽車要聞

      兩大CEO試駕 華為乾崑*啟境開啟首款獵裝轎跑路測

      態度原創

      親子
      本地
      家居
      公開課
      軍事航空

      親子要聞

      以后不準去你奶奶家喝蘿卜湯

      本地新聞

      云游安徽|踏訪池州,讀懂山水間的萬年史書

      家居要聞

      格調時尚 智慧品質居所

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      烏最新20點俄烏和平草案遞交莫斯科 俄方拒絕

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 无码人妻毛片丰满熟妇精品区| 亚州成人无码| 一本色道久久综合亚洲精品按摩 | 丝袜a片| a4yy私人毛片| 日韩大香蕉| 嵊泗县| 人伦中文字幕| 亚洲国产精品久久一线不卡| 夜夜添狠狠添高潮出水| 天堂中文最新版在线中文| 精品久久久久久久久久中文字幕 | 亚洲中文字幕A| 亚洲精品一区二区三区新线路 | 精品国产一区二区三区久久女人| 国产在线观看网址不卡一区| 锦屏县| 国产精品久久久久久妇女| 精品国产一区二区三区国产馆| 国产成人亚洲精品狼色在线| 亚洲欧美另类久久久精品| 亚洲一区av| 亚洲日韩电影久久| 人妻综合网| 欧美国产日韩久久mv| 人人操网| 欧美?日韩?人妻| 中文字幕av无码不卡| 中文字幕亚洲天堂| 麻豆精品久久久久久久99蜜桃| 巨胸不知火舞露双奶头无遮挡| 中文字幕日韩精品有码| 色吊丝永久性观看网站| 久久天天躁狠狠躁夜夜躁2o2o| 亚洲中文字幕精品久久| 最新亚洲人成网站在线观看| 一本一道av无码中文字幕﹣百度| 天天操天天干视频| 国产一区二区三区黄色片| 超碰人妻在线| 精品一精品国产一级毛片|