<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      OpenAI的新論文,為什么被業內嘲諷是營銷?

      0
      分享至



      近期,OpenAI 發布了一篇新論文《 Why Language Models Hallucinate 》,指出當前大模型幻覺的主要來源,引發了廣泛關注。

      他們給出了一個簡潔卻顛覆性的解釋:大模型之所以出現幻覺,并非由于模型架構的失靈,而是當前技術社區的訓練與評測機制傾向于獎勵猜測,并且懲罰承認不確定的行為,迫使模型在高度不確定時,也傾向猜測性作答以博取準確率分數。

      換句話說,大多數評估基準采用一種 “ 應試考試 ” 的方式,迫使大語言模型成為 “ 應試者 ”,不管是選擇題、填空題還是解答題,如果不知道正確答案,那就猜一個甚至蒙一個,這樣在概率上也比不答分數高。

      預訓練層面上,大模型通常只接觸正面示例,也就是給定提示詞,然后接著輸出完整的回答,沒有在這個過程中接觸任何拒絕回答的示例,所以自然學不會這種拒絕回答的行為。

      OpenAI 拿自家模型舉了一個例子,在 SimpleQA 基準中,舊模型 o4-mini 相比新模型 GPT-5-thinking-mini 準確率略高( 22% vs. 24% ),但也有高得多的錯誤率( 75% vs. 26% ),因為它更少 “ 棄答 ”。



      OpenAI據此主張:在往后的評估基準中,應對高自信的錯誤施以懲罰,并為恰當的不確定表達給出適當分數,使激勵從 “ 大膽猜 ” 轉向 “ 知之為知之 ”,改變主流排行榜長期以 “ 準確率 ” 一項稱王的局面。

      可以說,這篇研究是在把 “ 幻覺 ” 從工程缺陷轉化為技術社區的 “ 激勵設計 ” 問題。

      如果真的往這個方向發展,以后真正值得關注的,將不再是誰的準確率小幅上漲,而是誰愿意重寫評測與產品規則,讓模型在不確定時自然地說:“ 我不知道 ”。

      技術社區對該話題討論熱烈,其中對論文的詬病也不少。

      有人認為這篇論文既不新穎,水平也不高,即相關研究早已經出現,并且這篇論文的技術水平更像是初級研究人員寫出來的。

      紐約大學數據中心助理教授 Ravid Shwartz Ziv 直言這篇論文更像是一場營銷,而不是研究。



      有人指出,問題的核心其實在于,幻覺的概念實際上到現在為止都還沒有被嚴格地定義。

      雖然已有不少研究指出了幻覺的可能原因,例如模型過度自信、解碼隨機性、滾雪球效應、長尾訓練樣本、誤導性對齊訓練、虛假相關性、曝光偏差、逆轉詛咒以及上下文劫持等,但這些方法毋寧說是一種幻覺的分類。

      幻覺的本質,或許可以用一個很簡單的例子來說明。

      以機器學習中的曲線擬合為例,假設下圖的數據點是被用于訓練的事實,我們需要擬合一條曲線來對數據進行回歸,使其能夠準確地預測新數據。這條曲線,代表的就是模型。



      圖源:網絡

      嚴格意義上來講,不存在唯一正確的模型。因為每一種模型都具備不同的擬合度和泛化性,也都有各自的適用場景。

      比如上圖中最右邊的復雜曲線擬合度更強甚至過擬合( 訓練數據準確率高 ),但泛化性弱( 測試數據準確率低 );最左邊的簡單曲線擬合度更弱甚至欠擬合( 訓練數據準確率低 ),但泛化性強( 測試數據準確率高 )。

      不同曲線,可以生成不同的新數據。而任何曲線,生成的不同于訓練數據的新數據,都有可能是錯的,也就是都有可能是幻覺。至于幻覺的確認,原則是只能與現實進行直接對比校驗,其它方式都是間接性的。

      而且,機器學習或大語言模型其實都不擅長分布外泛化,也就是其泛化能力更多是在已有觀測點的范圍內估計未知值。

      近期的理論研究比如 2024 年發表的論文《On the Limits of Language Generation: Trade-Offs Between Hallucination and Mode Collapse 》形式化地闡述了一致性( 避免無效輸出 )和廣度( 生成多樣化、語言豐富的內容 )之間的內在權衡。這些研究表明,對于廣泛的語言類別,任何在其訓練數據之外進行泛化的模型,要么會產生幻覺,要么會遭遇模式崩潰,無法生成所有有效的響應。

      所以,如果保證訓練數據和測試數據( 或實際應用數據 )在大致相同的數據分布范圍內,并且模型是過擬合的,基本能保證很低的錯誤率或幻覺率。

      假設 “ 低幻覺 ” 大模型發展成了這個樣子,那其實它基本上就是更高效地串聯已知事實點、知識點的自然語言搜索引擎而已。

      這會是OpenAI希望的結果嗎?我們假設是,然后繼續推測一下。

      回過頭看《 Why Language Models Hallucinate 》這篇論文,幻覺表現方面,OpenAI 指出,大模型在拼寫和括號等細節基本不會出錯,但在低頻任意事實上很容易出錯。

      他們引用了一個有趣的研究成果,論文 《 Calibrated Language Models Must Hallucinate 》表明即使訓練數據沒有錯誤,產生幻覺的概率也接近于訓練數據中恰好出現一次的事實的比例( “ Good-Turing ” 估計 )。相比之下,大型語言模型很少會在經常引用的事實上出錯,例如愛因斯坦的生日或論文標題。

      并且,該論文還指出,沒有統計學理由表明預訓練會導致對訓練數據中可能出現多次的事實( 例如對文章、書籍的引用 )或系統性事實( 例如算術計算 )產生幻覺。

      所以,盡管這個自然語言搜索引擎很死板,但在使用時,對于查詢提示詞的拼寫、標點符號、語言表達習慣等還是能做出靈活的響應,并且對于人類多次引用或應用的知識、事實,基本能保證準確。如果是涉及單次出現的事實,則很可能出錯,這時候大模型會選擇拒絕回答。

      這樣的大模型自然會變得很安全、可靠。對于 AI Agent 產品的構建或企業 AI( 企業 AI 將主要以 Agent 的形式交付 )的落地,都是非常好的底座。因為要發揮AI Agent 的最大限度的能力,首先要保證低幻覺,避免錯誤累積的乘積效應。

      而且,企業數據通常領域獨立、長尾、稀疏,訓練出來的大模型潛在的幻覺點會很多,增加拒答率,其實類似于在代碼里增加了 Bug 日志,可以幫助企業更好地優化模型。

      但另一方面,我們能信任這個死板的自然語言搜索引擎的泛化能力嗎?也就是應對實際新問題的能力?

      當然,這只是一種對 OpenAI 描繪的設想在經典概念上的理解。對于泛化能力這一部分,其實目前沒有很好的量化方法。

      這個 “ 低幻覺 ” 大模型將不會只能解決已知場景下的問題。至于在解決一個具體問題時,是否保證準確,還是需要一些間接指標來判斷。

      當前并沒有很好地自動化檢測幻覺的方法,很多復雜的檢測方法,甚至只和分析響應長度方法效果相當。

      最簡單粗暴的方法,就是讓 LLM 生成多個獨立答案,然后比較這些答案的一致性,但計算成本高昂,因為每個查詢都需要生成多個答案。

      后續研究則在這個基礎上,利用多個答案之間的重復部分的緩存來節省計算成本。另一些方法則是比較不同模型對同一個查詢的輸出差異來分析幻覺。

      目前可能最高效的方法,是在推理過程中,一邊推理,一邊計算模型內部的置信度信號,在推理過程中或推理結束后動態過濾掉低質量的推理路徑。該方法無需額外的模型訓練或超參數調整。比如論文《 DEEP THINK WITH CONFIDENCE 》依靠這種方法,基于開源模型在 AIME 2025 達到了 99.9% 的 “ @512 準確率 ”( Best-of-512 sampling ),生成的文本長度也比全并行推理方法減少了 84.7% 。



      圖源:DEEP THINK WITH CONFIDENCE

      置信度是非常典型的度量大模型自信程度的信號,這也是 OpenAI 指出的大模型拒絕回答時的依據。

      如何理解置信度呢?簡單來說,有一種簡單的定義是,大模型推理生成下一個 token 時,下一個 token 的所有候選詞的概率分布越不均勻,越集中在少量詞,置信度越大。比如下圖中的下一個 token 的概率分布就比較符合高置信度的特點。



      圖源:網絡

      客觀來講,關于置信度的相關研究確實已經出現,而且還不少,概念定義和方法也非常多樣。上述提到的讓 LLM 生成多個獨立答案再分析一致性的方式,也是一種度量置信度的方法。

      甚至,你可以直接讓大模型在輸出時,附加一句 “ 我有約80%的把握 ” 之類的話,或使用詞語如 “ 可能 ”、“ 不確定 ”來表達置信度。這就有點 “ 玄學 ” 的味道了,但確實實驗統計上有效。論文《 Just Ask for Calibration 》通過實驗發現,在提示詞中加入不確定性表達,可以顯著提高 GPT-3 答案的準確性和模型校準度。

      OpenAI 這篇論文的創新之處不在于提出的方法,更像是一種面向大模型技術社區的倡議,如果社區集體能夠認同其觀點,后續大模型將會朝著不鼓勵猜測答案的方向發展。

      在論文中,OpenAI 也確實指出,“ 這種懲罰不確定答案的 ‘ 流行病 ’ 只能通過社會技術緩解措施來解決 ”。

      而作為大模型時代的奠基者,OpenAI 確實具備這樣的號召力。

      那么,OpenAI 如此倡導,背后有沒有更深層次的理由?

      結合 GPT-5 的低幻覺招牌,低幻覺率對 AI Agent、企業AI的重要性,企業數據的稀疏性,以及 OpenAI 近期的關鍵舉措,包括收購并合并 io Products 推進硬件布局、成立 “ 應用 ” 板塊并任命 Fidji Simo 為 Applications CEO 等。

      只能猜測,OpenAI 希望社區認可 GPT-5的 成就,強調 GPT-5 或后續模型( 如果有的話 )對AI Agent、企業應用的優勢所在。

      以及,他們自己也要認真做應用了。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      日本女優天月杏宣布年內引退:不想再出賣自己身體了

      日本女優天月杏宣布年內引退:不想再出賣自己身體了

      隨波蕩漾的漂流瓶
      2025-12-28 16:18:22
      美元兌離岸人民幣剛剛跌破6.9900元關口

      美元兌離岸人民幣剛剛跌破6.9900元關口

      每日經濟新聞
      2025-12-30 13:29:56
      美國記者與周恩來握手后,故意用手帕反復擦手挑釁,周總理見狀拿出手帕輕掃手掌后丟棄,用這一招輕松化解了尷尬并予以有力回擊

      美國記者與周恩來握手后,故意用手帕反復擦手挑釁,周總理見狀拿出手帕輕掃手掌后丟棄,用這一招輕松化解了尷尬并予以有力回擊

      史海孤雁
      2025-12-27 20:50:23
      失算!宋喆出獄后還沒認清自己,以為馬蓉會等他,結果被狠狠打臉

      失算!宋喆出獄后還沒認清自己,以為馬蓉會等他,結果被狠狠打臉

      瓜汁橘長Dr
      2025-12-29 11:14:21
      云南一小學食堂所用米線超保質期2.5小時被罰5萬元,貨值76元

      云南一小學食堂所用米線超保質期2.5小時被罰5萬元,貨值76元

      澎湃新聞
      2025-12-30 10:16:25
      《逍遙》:頂著一張老臉卻硬要演少女,是誰的審美出了問題

      《逍遙》:頂著一張老臉卻硬要演少女,是誰的審美出了問題

      一娛三分地
      2025-12-29 15:12:34
      日本天皇身世之謎,是朝鮮人還是中國人?真相曝光令人震驚

      日本天皇身世之謎,是朝鮮人還是中國人?真相曝光令人震驚

      開著車去流浪
      2025-12-29 21:26:27
      解放軍巡航臺海,不到24小時,賴清德接到通知,臺灣只剩最后機會

      解放軍巡航臺海,不到24小時,賴清德接到通知,臺灣只剩最后機會

      軍機Talk
      2025-12-29 14:06:49
      挑釁原配、“睡”遍京圈,定居美國7年的徐靜蕾,私生活太狂野了

      挑釁原配、“睡”遍京圈,定居美國7年的徐靜蕾,私生活太狂野了

      時光在作祟
      2025-12-27 18:37:45
      1979年泰國的街頭,25歲的成龍和24歲的林青霞留下了珍貴的合照

      1979年泰國的街頭,25歲的成龍和24歲的林青霞留下了珍貴的合照

      動物奇奇怪怪
      2025-12-30 05:01:40
      主動發聲,更換主教練?冠軍教頭恐加盟!楊瀚森或成為下一個MVP

      主動發聲,更換主教練?冠軍教頭恐加盟!楊瀚森或成為下一個MVP

      體育大朋說
      2025-12-30 10:21:35
      看完《逍遙》再看《玉茗茶骨》,女主演技成硬傷,沒對比就沒傷害

      看完《逍遙》再看《玉茗茶骨》,女主演技成硬傷,沒對比就沒傷害

      銀河史記
      2025-12-29 17:15:16
      天門女司機墜河身亡后續,朋友圈曝光,本人很漂亮,哥哥透露更多

      天門女司機墜河身亡后續,朋友圈曝光,本人很漂亮,哥哥透露更多

      鋭娛之樂
      2025-12-29 21:01:46
      喚醒孩子自驅力最有效的方法:不是鼓勵,而是讓孩子來一場勝利!

      喚醒孩子自驅力最有效的方法:不是鼓勵,而是讓孩子來一場勝利!

      詩詞中國
      2025-12-25 20:01:37
      向太曝馬伊琍已再婚:當年文章過不了心理那關

      向太曝馬伊琍已再婚:當年文章過不了心理那關

      娛樂看阿敞
      2025-12-12 15:50:00
      原來他已去世13年!曾因春晚一夜爆紅,當過局長,無兒無女太凄涼

      原來他已去世13年!曾因春晚一夜爆紅,當過局長,無兒無女太凄涼

      小熊侃史
      2025-12-28 11:00:51
      66歲曹西平猝逝!兄弟反目拒辦后事,傳干兒子放棄急救真相曝光

      66歲曹西平猝逝!兄弟反目拒辦后事,傳干兒子放棄急救真相曝光

      行者聊官
      2025-12-30 12:36:51
      大風追蹤|女教師上班途中“撞樹枝”身亡,二審查明交警認定超速不當,主次責改判

      大風追蹤|女教師上班途中“撞樹枝”身亡,二審查明交警認定超速不當,主次責改判

      大風新聞
      2025-12-29 18:37:30
      壟斷行業多年,如今光環已經黯淡!一旦煙草行業倒了,軍費怎么辦

      壟斷行業多年,如今光環已經黯淡!一旦煙草行業倒了,軍費怎么辦

      近史博覽
      2025-12-29 19:12:15
      此次演習為何劃分5個區域?新代號釋放何種信號?專家解讀

      此次演習為何劃分5個區域?新代號釋放何種信號?專家解讀

      新京報
      2025-12-29 14:20:11
      2025-12-30 14:11:00
      知危 incentive-icons
      知危
      投資不立危墻之下
      515文章數 1829關注度
      往期回顧 全部

      科技要聞

      估值150億的智元,開始批量"制造"小獨角獸

      頭條要聞

      媒體:賴清德稱"大陸不敢越雷池" 第二天解放軍就演習

      頭條要聞

      媒體:賴清德稱"大陸不敢越雷池" 第二天解放軍就演習

      體育要聞

      這個59歲的胖子,還在表演“蝎子擺尾”

      娛樂要聞

      林俊杰官宣文案爭議!女方名字都不提

      財經要聞

      朱光耀:美關稅政策正使WTO名存實亡

      汽車要聞

      標配華為乾崑ADS 4 Pro 華境S明年上半年上市

      態度原創

      房產
      本地
      手機
      健康
      游戲

      房產要聞

      重磅信號!2025最后幾天,三亞開發商開始集體漲價!

      本地新聞

      即將過去的2025年,對重慶的影響竟然如此深遠

      手機要聞

      榮耀 Power2 官宣:搭載第二代鴻燕通信,主打超強續航

      這些新療法,讓化療不再那么痛苦

      大話手游首個數字交易大服上線!【二〇二六】開服刷新大話記錄

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 国产av一区二区三区| 饶阳县| 精品国产成人A区在线观看| 国产精品无码久久综合网| 97超碰人妻| 深夜福利在线观看视频| 一区二区三区人妻无码| 四虎永久精品免费视频| 包头市| 秀山| 国产又粗又猛又爽又黄AV| 亚洲色老头| 人妻?无码?中出| 美女一级毛片无遮挡内谢| 成人国产精品免费视频| 国产欧美久久一区二区| 国产精品麻豆欧美日韩ww | 国产日韩精品欧美一区灰| 亚洲色大成网站www久久九九 | xxxx免费| wwwjizzjizz| 欧美精品在线观看| 91精品国产综合久久久蜜臀酒店| 2019nv天堂香蕉在线观看| 亚洲成人黄色| 丝袜无码| 亚洲熟女食品| 国产又黄又爽又不遮挡视频| 四虎影视一区二区精品| 粗大的内捧猛烈进出| 亚洲乱码av中文一区二区| 国产精品乱子乱xxxx| 四虎Av| 常德市| 师宗县| 十八禁黄网站| 69精品丰满人妻无码视频a片| 久久综合九色综合欧洲98| 日韩人妻系列无码专区| 久久综合国产精品一区二区 | 日韩人妻丝袜中文字幕|