<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      OpenAI的新論文,為什么被業內嘲諷是營銷?

      0
      分享至



      近期,OpenAI 發布了一篇新論文《 Why Language Models Hallucinate 》,指出當前大模型幻覺的主要來源,引發了廣泛關注。

      他們給出了一個簡潔卻顛覆性的解釋:大模型之所以出現幻覺,并非由于模型架構的失靈,而是當前技術社區的訓練與評測機制傾向于獎勵猜測,并且懲罰承認不確定的行為,迫使模型在高度不確定時,也傾向猜測性作答以博取準確率分數。

      換句話說,大多數評估基準采用一種 “ 應試考試 ” 的方式,迫使大語言模型成為 “ 應試者 ”,不管是選擇題、填空題還是解答題,如果不知道正確答案,那就猜一個甚至蒙一個,這樣在概率上也比不答分數高。

      預訓練層面上,大模型通常只接觸正面示例,也就是給定提示詞,然后接著輸出完整的回答,沒有在這個過程中接觸任何拒絕回答的示例,所以自然學不會這種拒絕回答的行為。

      OpenAI 拿自家模型舉了一個例子,在 SimpleQA 基準中,舊模型 o4-mini 相比新模型 GPT-5-thinking-mini 準確率略高( 22% vs. 24% ),但也有高得多的錯誤率( 75% vs. 26% ),因為它更少 “ 棄答 ”。



      OpenAI據此主張:在往后的評估基準中,應對高自信的錯誤施以懲罰,并為恰當的不確定表達給出適當分數,使激勵從 “ 大膽猜 ” 轉向 “ 知之為知之 ”,改變主流排行榜長期以 “ 準確率 ” 一項稱王的局面。

      可以說,這篇研究是在把 “ 幻覺 ” 從工程缺陷轉化為技術社區的 “ 激勵設計 ” 問題。

      如果真的往這個方向發展,以后真正值得關注的,將不再是誰的準確率小幅上漲,而是誰愿意重寫評測與產品規則,讓模型在不確定時自然地說:“ 我不知道 ”。

      技術社區對該話題討論熱烈,其中對論文的詬病也不少。

      有人認為這篇論文既不新穎,水平也不高,即相關研究早已經出現,并且這篇論文的技術水平更像是初級研究人員寫出來的。

      紐約大學數據中心助理教授 Ravid Shwartz Ziv 直言這篇論文更像是一場營銷,而不是研究。



      有人指出,問題的核心其實在于,幻覺的概念實際上到現在為止都還沒有被嚴格地定義。

      雖然已有不少研究指出了幻覺的可能原因,例如模型過度自信、解碼隨機性、滾雪球效應、長尾訓練樣本、誤導性對齊訓練、虛假相關性、曝光偏差、逆轉詛咒以及上下文劫持等,但這些方法毋寧說是一種幻覺的分類。

      幻覺的本質,或許可以用一個很簡單的例子來說明。

      以機器學習中的曲線擬合為例,假設下圖的數據點是被用于訓練的事實,我們需要擬合一條曲線來對數據進行回歸,使其能夠準確地預測新數據。這條曲線,代表的就是模型。



      圖源:網絡

      嚴格意義上來講,不存在唯一正確的模型。因為每一種模型都具備不同的擬合度和泛化性,也都有各自的適用場景。

      比如上圖中最右邊的復雜曲線擬合度更強甚至過擬合( 訓練數據準確率高 ),但泛化性弱( 測試數據準確率低 );最左邊的簡單曲線擬合度更弱甚至欠擬合( 訓練數據準確率低 ),但泛化性強( 測試數據準確率高 )。

      不同曲線,可以生成不同的新數據。而任何曲線,生成的不同于訓練數據的新數據,都有可能是錯的,也就是都有可能是幻覺。至于幻覺的確認,原則是只能與現實進行直接對比校驗,其它方式都是間接性的。

      而且,機器學習或大語言模型其實都不擅長分布外泛化,也就是其泛化能力更多是在已有觀測點的范圍內估計未知值。

      近期的理論研究比如 2024 年發表的論文《On the Limits of Language Generation: Trade-Offs Between Hallucination and Mode Collapse 》形式化地闡述了一致性( 避免無效輸出 )和廣度( 生成多樣化、語言豐富的內容 )之間的內在權衡。這些研究表明,對于廣泛的語言類別,任何在其訓練數據之外進行泛化的模型,要么會產生幻覺,要么會遭遇模式崩潰,無法生成所有有效的響應。

      所以,如果保證訓練數據和測試數據( 或實際應用數據 )在大致相同的數據分布范圍內,并且模型是過擬合的,基本能保證很低的錯誤率或幻覺率。

      假設 “ 低幻覺 ” 大模型發展成了這個樣子,那其實它基本上就是更高效地串聯已知事實點、知識點的自然語言搜索引擎而已。

      這會是OpenAI希望的結果嗎?我們假設是,然后繼續推測一下。

      回過頭看《 Why Language Models Hallucinate 》這篇論文,幻覺表現方面,OpenAI 指出,大模型在拼寫和括號等細節基本不會出錯,但在低頻任意事實上很容易出錯。

      他們引用了一個有趣的研究成果,論文 《 Calibrated Language Models Must Hallucinate 》表明即使訓練數據沒有錯誤,產生幻覺的概率也接近于訓練數據中恰好出現一次的事實的比例( “ Good-Turing ” 估計 )。相比之下,大型語言模型很少會在經常引用的事實上出錯,例如愛因斯坦的生日或論文標題。

      并且,該論文還指出,沒有統計學理由表明預訓練會導致對訓練數據中可能出現多次的事實( 例如對文章、書籍的引用 )或系統性事實( 例如算術計算 )產生幻覺。

      所以,盡管這個自然語言搜索引擎很死板,但在使用時,對于查詢提示詞的拼寫、標點符號、語言表達習慣等還是能做出靈活的響應,并且對于人類多次引用或應用的知識、事實,基本能保證準確。如果是涉及單次出現的事實,則很可能出錯,這時候大模型會選擇拒絕回答。

      這樣的大模型自然會變得很安全、可靠。對于 AI Agent 產品的構建或企業 AI( 企業 AI 將主要以 Agent 的形式交付 )的落地,都是非常好的底座。因為要發揮AI Agent 的最大限度的能力,首先要保證低幻覺,避免錯誤累積的乘積效應。

      而且,企業數據通常領域獨立、長尾、稀疏,訓練出來的大模型潛在的幻覺點會很多,增加拒答率,其實類似于在代碼里增加了 Bug 日志,可以幫助企業更好地優化模型。

      但另一方面,我們能信任這個死板的自然語言搜索引擎的泛化能力嗎?也就是應對實際新問題的能力?

      當然,這只是一種對 OpenAI 描繪的設想在經典概念上的理解。對于泛化能力這一部分,其實目前沒有很好的量化方法。

      這個 “ 低幻覺 ” 大模型將不會只能解決已知場景下的問題。至于在解決一個具體問題時,是否保證準確,還是需要一些間接指標來判斷。

      當前并沒有很好地自動化檢測幻覺的方法,很多復雜的檢測方法,甚至只和分析響應長度方法效果相當。

      最簡單粗暴的方法,就是讓 LLM 生成多個獨立答案,然后比較這些答案的一致性,但計算成本高昂,因為每個查詢都需要生成多個答案。

      后續研究則在這個基礎上,利用多個答案之間的重復部分的緩存來節省計算成本。另一些方法則是比較不同模型對同一個查詢的輸出差異來分析幻覺。

      目前可能最高效的方法,是在推理過程中,一邊推理,一邊計算模型內部的置信度信號,在推理過程中或推理結束后動態過濾掉低質量的推理路徑。該方法無需額外的模型訓練或超參數調整。比如論文《 DEEP THINK WITH CONFIDENCE 》依靠這種方法,基于開源模型在 AIME 2025 達到了 99.9% 的 “ @512 準確率 ”( Best-of-512 sampling ),生成的文本長度也比全并行推理方法減少了 84.7% 。



      圖源:DEEP THINK WITH CONFIDENCE

      置信度是非常典型的度量大模型自信程度的信號,這也是 OpenAI 指出的大模型拒絕回答時的依據。

      如何理解置信度呢?簡單來說,有一種簡單的定義是,大模型推理生成下一個 token 時,下一個 token 的所有候選詞的概率分布越不均勻,越集中在少量詞,置信度越大。比如下圖中的下一個 token 的概率分布就比較符合高置信度的特點。



      圖源:網絡

      客觀來講,關于置信度的相關研究確實已經出現,而且還不少,概念定義和方法也非常多樣。上述提到的讓 LLM 生成多個獨立答案再分析一致性的方式,也是一種度量置信度的方法。

      甚至,你可以直接讓大模型在輸出時,附加一句 “ 我有約80%的把握 ” 之類的話,或使用詞語如 “ 可能 ”、“ 不確定 ”來表達置信度。這就有點 “ 玄學 ” 的味道了,但確實實驗統計上有效。論文《 Just Ask for Calibration 》通過實驗發現,在提示詞中加入不確定性表達,可以顯著提高 GPT-3 答案的準確性和模型校準度。

      OpenAI 這篇論文的創新之處不在于提出的方法,更像是一種面向大模型技術社區的倡議,如果社區集體能夠認同其觀點,后續大模型將會朝著不鼓勵猜測答案的方向發展。

      在論文中,OpenAI 也確實指出,“ 這種懲罰不確定答案的 ‘ 流行病 ’ 只能通過社會技術緩解措施來解決 ”。

      而作為大模型時代的奠基者,OpenAI 確實具備這樣的號召力。

      那么,OpenAI 如此倡導,背后有沒有更深層次的理由?

      結合 GPT-5 的低幻覺招牌,低幻覺率對 AI Agent、企業AI的重要性,企業數據的稀疏性,以及 OpenAI 近期的關鍵舉措,包括收購并合并 io Products 推進硬件布局、成立 “ 應用 ” 板塊并任命 Fidji Simo 為 Applications CEO 等。

      只能猜測,OpenAI 希望社區認可 GPT-5的 成就,強調 GPT-5 或后續模型( 如果有的話 )對AI Agent、企業應用的優勢所在。

      以及,他們自己也要認真做應用了。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      俄記者曝大瓜:俄軍進攻潛力耗盡,英國否定英法用核彈保護烏克蘭

      俄記者曝大瓜:俄軍進攻潛力耗盡,英國否定英法用核彈保護烏克蘭

      史政先鋒
      2026-02-25 19:08:44
      【環時深度】被中國管制的日本實體什么來頭?

      【環時深度】被中國管制的日本實體什么來頭?

      環球網資訊
      2026-02-26 06:54:23
      我見過最傻的父母,攥著大把的存款和退休金,卻等著給子女當遺產

      我見過最傻的父母,攥著大把的存款和退休金,卻等著給子女當遺產

      i書與房
      2026-02-25 17:22:34
      中國50后還有多少人?多少人能活到80歲?權威數據告訴你

      中國50后還有多少人?多少人能活到80歲?權威數據告訴你

      芭比衣櫥
      2026-02-19 21:00:42
      演員陳麗君殺瘋了:臺北5場演出售票秒空,越劇演員憑借實力爆紅

      演員陳麗君殺瘋了:臺北5場演出售票秒空,越劇演員憑借實力爆紅

      影像溫度
      2026-02-25 14:17:14
      高速服務區如何盈利?多數人只上廁所或接熱水,聽保安怎么說?

      高速服務區如何盈利?多數人只上廁所或接熱水,聽保安怎么說?

      寄星夜幕星河
      2026-02-17 20:39:30
      馬筱梅兒子被質疑不是新生兒,疑在大S忌日出生,行程被扒惹爭議

      馬筱梅兒子被質疑不是新生兒,疑在大S忌日出生,行程被扒惹爭議

      古希臘掌管月桂的神
      2026-02-25 12:42:43
      太可惜!武漢知名連鎖餐廳已全部關閉

      太可惜!武漢知名連鎖餐廳已全部關閉

      趣味萌寵的日常
      2026-02-26 00:42:06
      震驚!網傳河南一老人93歲去世,此前自殺3次,起因不想住女兒家

      震驚!網傳河南一老人93歲去世,此前自殺3次,起因不想住女兒家

      火山詩話
      2026-02-25 17:10:36
      一場5-0,讓榜首易主,前3只差3分,C羅點射:21場轟入21球

      一場5-0,讓榜首易主,前3只差3分,C羅點射:21場轟入21球

      足球狗說
      2026-02-26 07:09:06
      伊朗用血淚換來的教訓:一旦中美開戰,中國必須首先鎖定這一點

      伊朗用血淚換來的教訓:一旦中美開戰,中國必須首先鎖定這一點

      冷峻視角下的世界
      2026-02-20 07:45:35
      斯諾克戰報!5場4-0,2大世界冠軍被橫掃,趙心童常冰玉創紀錄!

      斯諾克戰報!5場4-0,2大世界冠軍被橫掃,趙心童常冰玉創紀錄!

      劉姚堯的文字城堡
      2026-02-25 07:04:40
      養一臺奧迪A6L有多費錢?中年車主含淚吐槽:面子有了,卻養不起

      養一臺奧迪A6L有多費錢?中年車主含淚吐槽:面子有了,卻養不起

      搗蛋窩
      2026-02-17 18:54:35
      巴拿馬總統慌了,他猛然發現:強吞中國18億資產,竟是自尋死路

      巴拿馬總統慌了,他猛然發現:強吞中國18億資產,竟是自尋死路

      東極妙嚴
      2026-02-25 16:40:08
      哈登0罰20分創隊史最老紀錄!騎士賽季首勝尼克斯 米切爾23分

      哈登0罰20分創隊史最老紀錄!騎士賽季首勝尼克斯 米切爾23分

      醉臥浮生
      2026-02-25 11:14:21
      比亞迪宣布跟進7年低息購車政策

      比亞迪宣布跟進7年低息購車政策

      IT之家
      2026-02-25 18:30:11
      全程呲大牙還被狂吹捧?梅婷也帶不動,這位綜藝咖到底毀了多少戲

      全程呲大牙還被狂吹捧?梅婷也帶不動,這位綜藝咖到底毀了多少戲

      胡一舸南游y
      2026-02-25 21:41:38
      神劇情!歐冠慘遭翻盤,科瓦奇不敢相信,隊史恥辱紀錄誕生

      神劇情!歐冠慘遭翻盤,科瓦奇不敢相信,隊史恥辱紀錄誕生

      足球狗說
      2026-02-26 07:25:32
      許家印身后,江蘇包工頭黃裕輝被恒大拖欠360億,82個項目停工

      許家印身后,江蘇包工頭黃裕輝被恒大拖欠360億,82個項目停工

      復轉小能手
      2026-02-25 23:39:49
      中國斯諾克5勝4負!趙心童11場不敗,周躍龍下克上,肖國棟翻車!

      中國斯諾克5勝4負!趙心童11場不敗,周躍龍下克上,肖國棟翻車!

      劉姚堯的文字城堡
      2026-02-26 06:53:30
      2026-02-26 08:20:49
      知危 incentive-icons
      知危
      投資不立危墻之下
      536文章數 1832關注度
      往期回顧 全部

      科技要聞

      “機器人只跳舞,沒什么用”

      頭條要聞

      日本計劃部署導彈部隊距臺灣僅110公里 中方強硬表態

      頭條要聞

      日本計劃部署導彈部隊距臺灣僅110公里 中方強硬表態

      體育要聞

      勇士爆冷惜敗鵜鶘 梅爾頓28分賽季新高

      娛樂要聞

      黃曉明新戀情!與小22歲美女同游新加坡

      財經要聞

      上海樓市放大招,地產預期別太大

      汽車要聞

      750km超長續航 2026款小鵬X9純電版將于3月2日上市

      態度原創

      教育
      時尚
      親子
      數碼
      本地

      教育要聞

      圓內接四邊形第1講,非常重要!

      “復古甜心”穿搭突然大火!春天穿時髦又減齡

      親子要聞

      產后性生活冷淡?找回“高潮”,是修復夫妻關系的第一步

      數碼要聞

      音質降噪全升級!三星Buds 4系列正式發布 179美元起

      本地新聞

      津南好·四時總相宜

      無障礙瀏覽 進入關懷版