<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      同一天,OpenAI 和 Google 各甩出一張牌——但你知道自己在用哪個模型嗎?

      0
      分享至


      今天,AI 圈又熱鬧了。

      北京時間3月4日,OpenAI 正式推送 GPT-5.3 Instant,覆蓋全量 ChatGPT 用戶;同一天,Google 也發布了 Gemini 3.1 Flash-Lite,宣稱這是 Gemini 3 系列"速度最快、最具成本效益"的模型。


      兩場發布,相差不到兩小時。

      技術媒體在刷屏,X 上的 AI 博主在解讀基準測試,開發者群里在討論 API 價格。與此同時,Reddit 上有人直接發帖:“GPT-5.3 is awful”,101 人點贊,好評率 98%。

      這就是 2026 年 AI 圈的日常:發布密度比手機廠商還高,社區永遠兩極分化,普通用戶被淹沒在一堆從沒聽說過的模型名字里。

      但在吐槽之前,我們還是得先把事情講清楚——今天到底發了什么。

      一、GPT-5.3 Instant:終于不說教了

      OpenAI 這次發布,罕見地沒有端出一堆跑分圖表。官方博客的重點只有一個詞:tone(語氣)

      用 OpenAI 官方的說法,GPT-5.2 Instant 有時會"對本可以安全回答的問題拒絕作答",在涉及敏感話題時"過于保守,帶著說教色彩"。就是那種你問它"幫我寫一段反派臺詞",它先用三句話告訴你"暴力內容可能……"然后再寫,或者干脆拒絕的感覺。


      更多案例在這里查看:https://openai.com/zh-Hans-CN/index/gpt-5-3-instant/

      GPT-5.3 Instant 的主要改動有三點:

      ① 去掉"AI腔"式開場白。不再以"這是個很好的問題!""首先,我想提醒你……"等免責宣言開頭,能直接回答的就直接回答。減少了不必要的拒絕,削減了過度防御式的說教鋪墊。

      ② 幻覺率顯著下降。OpenAI 在醫療、法律、金融等高風險領域做了內部測試,聯網模式下幻覺率降低26.8%,僅依靠自身知識庫時降低19.7%。在基于用戶真實反饋的評估中,聯網下降 22.5%,非聯網下降 9.6%。這次沒有拿 benchmark 說話,而是用"真實對話中被用戶標記為事實錯誤的樣本"做的測試,更接地氣。

      ③ 聯網搜索整合更聰明。以前的版本有時會把搜索結果直接堆砌出來,像個鏈接收集器。現在它能用自己的知識圖譜為實時信息提供背景,不再是"我幫你搜到了,原文如下"。

      GPT-5.3 Instant 即日起面向所有 ChatGPT 用戶開放,API 標識符為 gpt-5.3-chat-latest。舊版 GPT-5.2 Instant 將保留至2026 年 6 月 3 日后退役。

      再來個彩蛋:GPT-5.4即將到來。(評論區有說是明天)


      二、Google 最近其實發了兩個模型

      GPT-5.3 Instant 的聲量蓋住了 Google 這邊的動靜,但 Google 最近其實發了兩張牌。

      這是這波升級的核心。Google 在發布時直接給出了一個震撼的數字:在 ARC-AGI-2 基準測試中,Gemini 3.1 Pro 得分77.1%,而上一代 Gemini 3 Pro 只有31.1%——推理能力翻超兩倍。

      ARC-AGI-2 不是知識型考題,考的是模型面對"從沒見過的邏輯模式"時能否推理出正確答案,是目前公認最難刷分的測試之一。77.1% 是經過 ARC Prize 官方驗證的數據。


      其他核心指標:

      • SWE-Bench Verified(代碼能力):80.6%

      • Terminal-Bench 2.0:68.5%

      • 在 16 項主流基準測試中,Gemini 3.1 Pro 贏了 13 項(對比 GPT-5.2 和 Claude Opus 4.6)

      模型現已面向開發者、企業和消費者全面鋪開,可通過 Gemini API、Vertex AI、AI Studio、Gemini Enterprise、NotebookLM 以及 Gemini CLI 訪問,消費端則需要 Google AI Pro 或 Ultra 訂閱。

      第二張:Gemini 3.1 Flash-Lite(3月4日,今天)

      定位完全不同:這是給開發者用的"量大管飽"版本。

      核心參數:

      • 輸出速度363 tokens/s,比 Gemini 2.5 Flash 快 45%

      • 首字符響應時間比 Gemini 2.5 Flash快 2.5 倍

      • 支持最大 100 萬 token 輸入、6.4 萬 token 輸出

      • 多模態:文本、圖像、視頻、音頻全支持

      • 定價:輸入$0.25/百萬 tokens,輸出$1.50/百萬 tokens,約為 Pro 版的八分之一

      GPQA Diamond 測試達到 86.9%,MMMU Pro 達到 76.8%,在多項指標上超越了上一代 Gemini 2.5 Flash。

      它還內置了可調節的"思考層級(thinking levels)"——開發者可以根據任務復雜度自由控制模型的推理深度,高頻簡單任務省算力,復雜任務加預算,相當實用。

      三、但社區并不買賬

      說完優點,來說說用戶怎么看。

      GPT-5.3 Instant 推送當天,Reddit 上的 r/ChatGPTcomplaints 版塊迅速出現了一篇熱帖,標題直接:“GPT-5.3 is awful”。帖子獲得 101 個點贊,好評率 98%,評論區清一色在罵。

      原帖作者寫道:

      “Arrogant: Often sounds like an annoying teacher correcting a student(傲慢:聽起來像個煩人的老師在糾正學生)。Condescending: Uses phrases like ‘take a breath, writer…’ in a patronizing tone(居高臨下:用’停一下,深呼吸,寫作者……'這種居高臨下的語氣)。”

      評論區有人補刀:

      “我真以為他們造不出比 5.2 更爛的模型了。結果 OpenAI 再次超越了我的預期。” “5.3 本質上就是 5.2,沒用、有限制、情感操控,但是多加了一些 emoji。”

      當然,也有理性的聲音。一位用戶寫道:“回答確實更直接了,少了很多修飾語和限定詞,我覺得是有進步的。”

      Hacker News 上的討論更有意思。一位自稱 OpenAI 員工的用戶親自下場回復,澄清了一個很多人不知道的事實:ChatGPT 后臺實際上運行的是兩個系列——Instant 系列(更快但更弱)和 Thinking 系列(更準但更慢),系統會自動切換。


      討論鏈接:https://news.ycombinator.com/item?id=47236169

      然后就有另一個企業用戶回復說:

      “我們公司用 ChatGPT Enterprise,每次有人抱怨效果差,回頭一查,全都是在用 Instant 模型。”

      還有人一針見血:

      “我感覺 OpenAI 又要回到 GPT-5 之前那個狀態了——一堆不同的選項,沒人知道該用哪個。”
      四、模型命名,正在成為行業公害

      這句話值得展開聊。

      先來做個測試。請問以下這串名字,你能全部對上號嗎:

      GPT-5 / GPT-5.1 / GPT-5.2 / GPT-5.2 Pro / GPT-5.2-Codex / GPT-5.3 Instant / GPT-5.3-Codex / GPT-5.3-Codex-Spark…… Gemini 3 / Gemini 3 Pro / Gemini 3 Deep Think / Gemini 3.1 Pro / Gemini 3.1 Flash-Lite / Gemini 3.1 Flash-Image……

      順便提一句,Gemini 3 Pro Preview 將于3月9日正式下線,取而代之的是 Gemini 3.1 Pro——就在用戶剛剛搞清楚 3 和 3.1 的區別之前,Flash-Lite 又來了。

      這還只是過去三個月內的變化。

      科技媒體 The Verge 有一篇文章,標題用的是"Google’s AI product names are confusing as hell(Google 的 AI 產品名字亂得要命)",文中直接用了"diabolical(魔鬼級混亂)"來形容 Google 的命名邏輯。文章里列出的一串名字讀起來像是在背咒語:Deep Think、Deep Search、AI Pro、AI Ultra、Gemini Live、Project Astra、Project Mariner、Veo、Flow、Lyria、Imagen……


      Anthropic CEO Dario Amodei 曾在公開場合自嘲說:“我們可能在學會命名模型之前,就先造出 AGI 了。

      這句話是個玩笑,但背后的現實不好笑:普通用戶面對這張越來越密的模型矩陣,早已失去了辨別的動力。

      五、這么頻繁發布,究竟是為了什么?

      公平起見,我們不該只是嘲笑。

      這種高頻迭代不是沒有原因的。Google 和 OpenAI 都清楚地知道對方在做什么——Gemini 3.1 Flash-Lite 發布兩小時內,GPT-5.3 Instant 就上線了;GPT-5.3 Instant 推送當天,GitHub 上已經出現了 GPT-5.4 相關代碼的泄露痕跡。在這種實時博弈的節奏下,沒人敢停下來。

      同時,這兩次發布也對應著不同的競爭邏輯。

      Google 用 Flash-Lite 打的是 B 端成本戰:$0.25 的輸入價格擺在那里,對于每天要跑數百萬次調用的開發者來說,這比性能分數更有說服力。

      OpenAI 用 GPT-5.3 打的是 C 端留存戰:就在發布前后,因為與美國軍方合作的風波,網上正在蔓延一場 運動,Anthropic 甚至趁勢推出了"一鍵遷移 ChatGPT 對話記錄"的服務。在這個時間節點優化用戶體驗,有多少是技術驅動,有多少是公關救火,恐怕只有內部人士才清楚。

      但無論背后動機如何,頻繁發布本身開始變成一種信息噪音

      當每次發布都叫"最強"“突破性”“全面領先”,當版本號以小數點 0.1 的速度疊加,當用戶連自己在用第幾代模型都說不清楚的時候——這場軍備競賽的受益者,可能已經不是用戶了。

      結語

      今天兩家公司的發布,有真進步,也有真問題。

      GPT-5.3 Instant 在體驗層上做了有意義的改進,幻覺率下降的數據如果屬實,對實際使用是有價值的;Gemini 3.1 Flash-Lite 的價格策略很有攻擊性,對開發者生態的影響會慢慢顯現。

      但我們也應該正視:當"發布新模型"本身成為一種競爭信號,而不只是技術成熟的標志時,這個行業的敘事節奏已經跑偏了一點。

      你現在打開 ChatGPT,用的是 Instant 還是 Thinking?你上次問 Gemini 問題,用的是 3 還是 3.1?

      大概率,你也不確定。


      整理:周華香

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      江西“射里頭”火了!全國奇葩地名大賞

      江西“射里頭”火了!全國奇葩地名大賞

      深度報
      2026-04-18 21:53:14
      不想訪華了?特朗普召回美國駐華大使密談,貝森特公開指責中國

      不想訪華了?特朗普召回美國駐華大使密談,貝森特公開指責中國

      今墨緣
      2026-04-19 05:24:42
      女子車禍截癱案開庭,截癱女子只求賠償活下去,肇事男友首度發聲

      女子車禍截癱案開庭,截癱女子只求賠償活下去,肇事男友首度發聲

      杜鱂手工制作
      2026-04-09 10:54:29
      賴清德背后主子浮出水面,大陸擒賊先擒王,誓要斬斷幕后黑手!

      賴清德背后主子浮出水面,大陸擒賊先擒王,誓要斬斷幕后黑手!

      花謝依然美
      2026-04-19 05:27:20
      越南和云南誰更強?越南超1億人創造4763億美元GDP,云南有多少?

      越南和云南誰更強?越南超1億人創造4763億美元GDP,云南有多少?

      白淺娛樂聊
      2026-04-18 10:09:01
      16強誕生首席,趙心童10-7力克大黑馬,豪取十連勝下輪靜候丁俊暉

      16強誕生首席,趙心童10-7力克大黑馬,豪取十連勝下輪靜候丁俊暉

      郝小小看體育
      2026-04-19 05:43:11
      央國企里最嚴重的幾大形式主義!

      央國企里最嚴重的幾大形式主義!

      黯泉
      2026-04-18 20:12:15
      成都人注意了!這兩個區域將有大動作,未來會成為成都頂流

      成都人注意了!這兩個區域將有大動作,未來會成為成都頂流

      苗苗情感說
      2026-04-19 01:35:46
      孫楊老婆張豆豆真的太不解風情了,情商極低!連朱丹都看不下去了

      孫楊老婆張豆豆真的太不解風情了,情商極低!連朱丹都看不下去了

      小娛樂悠悠
      2026-04-17 11:46:02
      本田被曝將關停廣州、武漢兩座燃油車工廠 年產能砍至72萬輛

      本田被曝將關停廣州、武漢兩座燃油車工廠 年產能砍至72萬輛

      金融界
      2026-04-17 13:45:07
      遼寧錦州警方通報:楊某軍等人以民間借貸為幌子,實施詐騙、敲詐勒索、強迫交易等違法犯罪活動,知情人可向公安機關提供線索

      遼寧錦州警方通報:楊某軍等人以民間借貸為幌子,實施詐騙、敲詐勒索、強迫交易等違法犯罪活動,知情人可向公安機關提供線索

      大象新聞
      2026-04-18 21:48:05
      文章和馬伊琍合影,文章和姚笛合影,誰是生理性喜歡答案顯而易見

      文章和馬伊琍合影,文章和姚笛合影,誰是生理性喜歡答案顯而易見

      君笙的拂兮
      2026-04-18 00:51:19
      美以狂轟濫炸之際,猛然回頭才發現,原來中東早已鋪滿中國光伏!

      美以狂轟濫炸之際,猛然回頭才發現,原來中東早已鋪滿中國光伏!

      顧蔡衛
      2026-04-19 04:42:48
      李敖之子李勘:大陸網民以為邱毅在臺灣很有影響力!邱毅的價值

      李敖之子李勘:大陸網民以為邱毅在臺灣很有影響力!邱毅的價值

      風雨與陽光
      2026-02-25 10:10:44
      煮蝦時,用“開水”還是“冷水”?區別很大,做錯了蝦又老腥味重

      煮蝦時,用“開水”還是“冷水”?區別很大,做錯了蝦又老腥味重

      阿龍美食記
      2026-04-11 14:10:04
      陳麗華的前丈夫叫王友發,但她的孩子們卻都姓趙,令人費解

      陳麗華的前丈夫叫王友發,但她的孩子們卻都姓趙,令人費解

      草莓解說體育
      2026-04-19 01:17:58
      新版《重案六組》開拍,季潔一露面,才懂王茜當年有多“封神”

      新版《重案六組》開拍,季潔一露面,才懂王茜當年有多“封神”

      娛樂圈十三太保
      2026-04-16 15:16:11
      不服 35歲對手:我只是打丟了簡單球 趙心童回應:壓力讓我有些亂

      不服 35歲對手:我只是打丟了簡單球 趙心童回應:壓力讓我有些亂

      風過鄉
      2026-04-19 06:36:27
      英法德“反骨”暴露無遺,把邀請函發給中國,卻將美國排除在外

      英法德“反骨”暴露無遺,把邀請函發給中國,卻將美國排除在外

      瓦倫西亞月亮
      2026-04-19 06:19:35
      “8小時生999娃”下架,違規出品方應納入黑名單丨新京報娛論

      “8小時生999娃”下架,違規出品方應納入黑名單丨新京報娛論

      新京報
      2026-04-17 12:19:37
      2026-04-19 07:07:00
      硅星GenAI incentive-icons
      硅星GenAI
      比一部分人更先進入GenAl。
      270文章數 36關注度
      往期回顧 全部

      科技要聞

      傳Meta下月擬裁8000 大舉清退人力為AI騰位

      頭條要聞

      伊朗革命衛隊向油輪開火 伊朗最高領袖發聲

      頭條要聞

      伊朗革命衛隊向油輪開火 伊朗最高領袖發聲

      體育要聞

      時隔25年重返英超!沒有人再嘲笑他了

      娛樂要聞

      劉德華回應潘宏彬去世,拒談喪禮細節

      財經要聞

      "影子萬科"2.0:管理層如何吸血萬物云?

      汽車要聞

      奇瑞威麟R08 PRO正式上市 售價14.48萬元起

      態度原創

      藝術
      家居
      游戲
      健康
      公開課

      藝術要聞

      夜色下的歐洲

      家居要聞

      法式線條 時光靜淌

      讓老粥批直呼“計劃有變”的歲獸代理人,到底是什么東西?

      干細胞抗衰4大誤區,90%的人都中招

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版