<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      受夠了AI總是胡說八道,OpenAI讓GPT變笨!但這才是對你負責

      0
      分享至


      抓住風口

      本期要點:如何讓AI值得依賴?靠更大的模型嗎?

      你好,我是王煜全,這里是王煜全要聞評論。

      2025年終,AI行業出現了一個分裂狀況,究竟是要追求“靠譜”,還是要顯得“聰明”?

      前段時間,在谷歌壓力之下,OpenAI不僅亮起了所謂紅色警報,還提前上線了GPT-5.2模型。


      可是,第三方評測結果顯示,GPT-5.2并沒有飛躍性的進步,甚至有的報告稱GPT-5.2仍落后于Gemini 3 Pro。

      更是有不少用戶吐槽,GPT-5.2的回答變得冰冷生硬,甚至邏輯推理能力還有倒退的跡象。種種主觀感受匯成一個結論,那就是GPT-5.2好像“降智”了。

      被寄予厚望的GPT-5.2 怎么反而沒那么聰明了?GPT-5.2滑鐵盧的背后,其實反映出整個AI大模型產業撞到了一個隱形的天花板。


      2025年12月9日,谷歌DeepMind低調推出了FACTS基準測試套件 (FACTS Benchmark Suite),用科學的評估數據給所有大模型潑了一盆冷水:在基于長文檔進行問答時,沒有任何模型的事實準確率突破70%。

      這意味著,即使你用著最昂貴的模型,還是有超過30%的概率接收到錯誤的、或者憑空捏造的信息。

      在我們看來,當整個行業在瘋狂堆疊算力與參數后仍無法突破瓶頸時,就意味著發展方式要從追求更大更強的模型,轉向通過系統工程和商業模式的創新來突破準確率瓶頸,讓AI真正變成值得依賴的伙伴。

      煉金術

      首先,我們認為,在靠譜面前,AI顯得“沒那么聰明”也無傷大雅。

      現在的GPT-5.2,確實是問什么就回答什么,不再像以前那樣樂于延展和調侃,給人一種刻板木訥的印象。初步使用谷歌Gemini模型的人,反而會覺得谷歌的模型充滿靈氣,似乎總能領悟到用戶的弦外之音。

      但這只是在大語言模型(LLM)架構進入平臺期后,OpenAI和谷歌選擇了不同的優化方向,而產生了不同的表現。

      對于大部分人而言,不僅是GPT-5.2沒有什么飛躍,GPT-5相比于OpenAI O3等之前的模型也并沒有什么顯著變化。同樣,在日常使用中,又有多少人能清晰區分Gemini 3和Gemini 2.5的差異呢?


      但長期用戶一定能感到一個普遍的問題,所有大模型都時常會一本正經的胡說八道。

      其實,DeepMind去年12月發布的《FACTS Grounding》基準測試報告就已經指出,沒有一個大模型的事實準確率能超過70%。也就是說,一年過去了,幻覺問題沒有得到顯著改善。

      歸根結底,這是LLM本身的局限使然,從底層原理上講,LLM就是下一個Token的預測器。它通過海量文本學會了在特定上下文的后面接哪個詞的概率最高,從而“猜”出看似合理的回答,但并不真正理解事實與其中的邏輯。

      這就像古代的煉金術士,能憑經驗煉出閃亮的產物,卻無法保證每次產物的質量。而現代社會需要的,是基于嚴謹的化學原理,在嚴格的環境下,能重復生產出的可靠產品。

      因此,不管給AI喂多少數據、增加多少參數,它都可能被無關信息干擾,幻覺概率難以根本性地下降。哪怕GPT-6、GPT-7出來了,出錯的問題還是會存在。

      靠譜更重要

      這時,AI公司就必須做出選擇,究竟是要讓AI成為玩具、還是工具。

      新用戶可能覺得,充滿想象力、不斷制造驚喜的AI會更好玩。

      當年GPT-4o就是妙語連珠、侃侃而談,OpenAI的o1模型也會耍小聰明,盡力滿足用戶的各種要求。

      但金融、法律、醫療等領域的專業用戶一定更看重AI的可信賴程度。

      舉個最簡單的例子,當生病的用戶拿著一堆檢驗報告來問AI時,他們一定不希望AI在那天馬行空的推理、或充滿發散思維的抖機靈,而是要AI給他們最嚴謹、最可靠的答案。

      對于企業而言,70%的可靠性更是難以托付重任。對內發錯一筆工資,對外簽錯一個合同,都是實實在在的損失。

      所以,OpenAI把模型優化方向定位為更加嚴謹、減少幻覺,從而打開模型的商業化前景,也就不難理解了。但單純模型優化并不能解決幻覺問題,看來OpenAI還是沒能理解自己的真正優勢是AI顧問,幻覺問題是建立信任的最大障礙。

      此前我們就曾指出,既然OpenAI已經擁有了數億用戶,就應該更進一步培養用戶的“AI依賴”—— 任何拿不準的問題都習慣于問一下AI,讓ChatGPT成為用戶的AI顧問。

      一旦用戶建立起這種依賴,就很難被其他產品搶走。

      閃電戰

      那么,更關鍵的問題來了,既然更大的模型不再等于更可靠,又該怎么辦呢?

      我們的答案也很明確:從“造坦克”轉到“打閃電戰”。

      之前,領先的AI公司都聚焦于提升單體模型的能力,這就是典型的“造坦克”思維,看誰的鋼板厚、火力猛。

      可是,當坦克的性能提升遇到瓶頸,戰爭的勝負就取決于誰能打出閃電戰。

      正如二戰初期,德軍的坦克并非最強,但憑借無線電協同與空軍的配合,就能快速突破防線,從而40多天擊敗法國。


      未來AI領域的玩家也應該著力讓多個模型和外部工具互相配合,構建出能產出可靠結果的系統。只有這樣,人們才敢真正把重要工作交給它。

      比如,隨機出現的幻覺和錯誤雖然令人頭疼,但OpenAI可以通過分級服務來解決。

      對于關鍵任務,如關乎生死、財務等高風險問題,OpenAI完全在生成初步答案后,自動調用額外的驗證Agent從多個角度對答案重新檢查和補充幾遍,再給出終審后的回答。這個過程確實會多耗費一些算力和時間,但可以大幅降低錯誤概率。

      當然,屆時OpenAI也就可以理直氣壯地對“無幻覺服務”收費,比如200美元甚至2000美元一個月,或者一天幾十美元。畢竟提供“可靠性”本身就是一種高價值的服務。

      而在平時,用戶只需每月支付20美元,就能滿足日常所需。

      這無疑會極大地提升用戶AI依賴的程度,別忘了,對于把ChatGPT當成專家顧問的用戶,每一次幻覺都是對OpenAI的可信度的傷害。

      要打出閃電戰,除了要轉變思想,從單純賣大模型技術變成賣可信賴的泛領域的專家顧問服務,速度也至關重要。

      目前,OpenAI為了應對谷歌的競爭,已經決定在未來幾周內收縮應用層面的投入,以求在核心技術層面實現突破。

      可是,我們很懷疑這個決定的正確性。

      在不脫離現有LLM架構的前提下,OpenAI真的能在幾周內實現革命性突破嗎?而且,如果多數用戶要的是可信賴的AI顧問,模型性能提升真的能解決幻覺問題、進而解決信任問題嗎?

      同時,在這幾周,如果OpenAI的競爭對手,比如一向標榜自己更真實、更可靠的Anthropic,率先推出無幻覺的專業服務,提前占據了市場心智,那么OpenAI辛苦積攢的高價值用戶也就可能快速流失。要想再把這些用戶搶回來,無疑又要付出高昂代價。

      以上就是今天的內容,毫無疑問,未來是AI時代,而盡早開啟孩子AI時代的進化之旅是掌握時代機遇的關鍵。也在此向各位家長推薦前哨AI冬令營。我們認為,最好的學習不是學理論,而是親手實踐。我們將通過一周的集訓,讓孩子能親自上手完成一個真實的AI項目,從理解AI到駕馭AI,快快點擊鏈接了解詳情吧。

      更多科技產業的新趨勢和底層規律,歡迎加入科技特訓營學習,和我一起,先人一步,領先一路!

      王煜全要聞評論,我們明天見。

      ↓長按圖片掃碼報名先人一步,領先一路

      最后, 鑒于公眾 號推送機制的改變,你未來刷 到要聞評論的機會可能沒那么多了,建議你加入粉絲群,第一時間 得到我的獨家前沿分析,而且我們還會每天在粉絲群里發布獨家資料,快快掃碼加入吧!

      此外,我們還為您準備了一個思維導圖,掃描加群即可領取

      “AI應用的未來分析”

      ↓點擊學習王煜全老師最新大師課,掌握馬斯克的賺錢底層邏輯!

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      45歲任家萱胖到160斤,穿百褶裙腿部疤痕明顯,2歲腰果身高超1米

      45歲任家萱胖到160斤,穿百褶裙腿部疤痕明顯,2歲腰果身高超1米

      瘋說時尚
      2026-02-23 09:31:20
      卷走53億!又一大佬帶全家跑路,欠中國銀行20億,投資者血本無歸

      卷走53億!又一大佬帶全家跑路,欠中國銀行20億,投資者血本無歸

      以茶帶書
      2025-12-09 23:33:58
      “我就是她取精生子的工具”清華學霸哭訴,撕開了女富豪的遮羞布

      “我就是她取精生子的工具”清華學霸哭訴,撕開了女富豪的遮羞布

      北緯的咖啡豆
      2026-02-20 19:12:17
      外媒:華爾街加速流出,轉向新興市場

      外媒:華爾街加速流出,轉向新興市場

      環球網資訊
      2026-02-23 09:46:25
      中央定調,延遲退休后,62歲退休,比60歲退休的多領10%養老金?

      中央定調,延遲退休后,62歲退休,比60歲退休的多領10%養老金?

      另子維愛讀史
      2026-02-17 19:02:27
      “第一軟飯男”去世,伺候美國老婦13年,繼承268億,死后錢給誰

      “第一軟飯男”去世,伺候美國老婦13年,繼承268億,死后錢給誰

      來科點譜
      2026-02-23 07:04:53
      《鏢人:風起大漠》成影史武俠片票房冠軍

      《鏢人:風起大漠》成影史武俠片票房冠軍

      界面新聞
      2026-02-22 20:00:38
      李亞鵬年初六到陳光標家做客!為陳光標兒子送行,其妻子罕見露臉

      李亞鵬年初六到陳光標家做客!為陳光標兒子送行,其妻子罕見露臉

      無心小姐姐
      2026-02-23 06:31:12
      16年,母親虎口救女被咬身亡,女兒至今未得到父親原諒:能怪誰呢

      16年,母親虎口救女被咬身亡,女兒至今未得到父親原諒:能怪誰呢

      紀中百大事
      2025-12-27 11:45:15
      高速春節堵車一老板原地賣甘蔗,目擊者發聲:10元一根,不稱重,選好就走

      高速春節堵車一老板原地賣甘蔗,目擊者發聲:10元一根,不稱重,選好就走

      環球網資訊
      2026-02-22 12:21:07
      世界第2,中國第1!趙心童單賽季排名創紀錄,連超4大世界冠軍!

      世界第2,中國第1!趙心童單賽季排名創紀錄,連超4大世界冠軍!

      劉姚堯的文字城堡
      2026-02-23 09:32:38
      8000元相親餐男子尿遁逃單!女子被迫買單,婚介甩鍋:與我們無關

      8000元相親餐男子尿遁逃單!女子被迫買單,婚介甩鍋:與我們無關

      今朝牛馬
      2026-02-01 21:14:04
      平安產險應對貝加爾湖溺亡事件

      平安產險應對貝加爾湖溺亡事件

      財聞
      2026-02-22 21:10:43
      《飛馳人生3》被超越,《鏢人》成功登頂冠軍,《鏢人2》穩了

      《飛馳人生3》被超越,《鏢人》成功登頂冠軍,《鏢人2》穩了

      影視高原說
      2026-02-22 18:22:59
      財政壓力的下半場:退休人員占比近四成,才是硬賬

      財政壓力的下半場:退休人員占比近四成,才是硬賬

      超先聲
      2026-01-09 16:45:39
      哈登20+9吞加盟首敗!騎士負殘陣雷霆無緣8連勝 喬22分5斷

      哈登20+9吞加盟首敗!騎士負殘陣雷霆無緣8連勝 喬22分5斷

      羅說NBA
      2026-02-23 04:46:37
      平頂山15歲女孩被鞋扇磚砸事件后續,女孩傷重未醒,全網求嚴懲

      平頂山15歲女孩被鞋扇磚砸事件后續,女孩傷重未醒,全網求嚴懲

      觀察鑒娛
      2026-02-22 15:19:39
      CCTV5直播!中國男籃VS日本男籃退路全無,郭士強或重用兩位新人

      CCTV5直播!中國男籃VS日本男籃退路全無,郭士強或重用兩位新人

      老葉評球
      2026-02-23 17:14:00
      破防!谷愛凌接連傳來“噩耗”,比外婆去世更糟心的事兒發生了

      破防!谷愛凌接連傳來“噩耗”,比外婆去世更糟心的事兒發生了

      陳意小可愛
      2026-02-23 12:57:32
      卡萊爾:哈利伯頓患上帶狀皰疹 將暫時離隊數周!

      卡萊爾:哈利伯頓患上帶狀皰疹 將暫時離隊數周!

      體壇周報
      2026-02-23 10:30:13
      2026-02-23 19:44:49
      王煜全 incentive-icons
      王煜全
      王煜全帶你一起看創新
      1026文章數 769關注度
      往期回顧 全部

      科技要聞

      智譜、MiniMax合計蒸發近千億市值,為何?

      頭條要聞

      鄭麗文接受外媒專訪:若臺海爆發沖突臺灣將成最大輸家

      頭條要聞

      鄭麗文接受外媒專訪:若臺海爆發沖突臺灣將成最大輸家

      體育要聞

      哈登版騎士首敗:雷霆的冠軍課

      娛樂要聞

      田亮一家新年全家福!森碟變清純少女

      財經要聞

      美國海關將停止征收被裁定違法的關稅

      汽車要聞

      續航1810km!smart精靈#6 EHD超級電混2026年上市

      態度原創

      時尚
      本地
      親子
      旅游
      教育

      今年春天一定要擁有的針織,這樣穿減齡又好看!

      本地新聞

      春花齊放2026:《駿馬奔騰迎新歲》

      親子要聞

      嬰兒誤吸異物無法呼吸,家長千萬保持冷靜

      旅游要聞

      正月初六赴千年之約!廣濟橋人山人海,美到窒息

      教育要聞

      道歉不是認輸,是愛孩子的方式

      無障礙瀏覽 進入關懷版