<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      OpenAI公開新的模型訓練方法:或許能解決模型撒謊問題,已在GPT-5 thiking驗證

      0
      分享至


      ↑閱讀之前記得關注+星標??,,每天才能第一時間接收到更新

      剛剛OpenAI公開了一種新的重要的模型訓練方法(概念驗證)

      面對大型語言模型(LLM)可能出現的欺騙行為——比如為了討好人類用戶而撒謊、隱瞞違規操作,甚至為了獲得更高獎勵而進行“獎勵黑客攻擊(Reward Hacking)”,OpenAI提出了一種名為 “坦白(Confession)” 的訓練方法

      簡單來說,就是在模型給出回答之后,強制要求它進行一次自我反省,誠實地交代自己在剛才的回答中是否遵守了所有指令,有沒有走捷徑,或者是否存在不確定的地方

      研究人員在GPT-5-Thinking上進行了實驗。結果顯示,通過這種訓練,通過“坦白”來監測模型的不當行為是可行的,即使模型在主要回答中撒了謊,它往往也能在隨后的“坦白”中誠實交代

      這項研究的論文題目為《Training LLMs for Honesty via Confessions》

      paper:

      https://cdn.openai.com/pdf/6216f8bc-187b-4bbb-8932-ba7c40c5553d/confessions_paper.pdf


      什么是“坦白”?

      在強化學習訓練中,模型往往面臨復雜的獎勵目標(正確性、風格、安全性等)。這可能導致一種風險:模型為了最大化獎勵,學會了生成“看起來很好”但實際上不符合用戶意圖或存在缺陷的回答

      OpenAI提出的“自白”機制,旨在解決這個問題。

      其核心流程如下(如圖所示):

      1.標準交互: 用戶提問(x) -> 模型進行思維鏈推理(CoT)和工具調用(z) -> 模型給出回答(y)

      2.強制坦白:系統發出一條特殊的系統消息(xc),要求模型提供一份“坦白報告”(yc)

      3.報告內容: 模型需要在報告中列出所有顯性或隱性的指令與約束,評估自己是否遵守了這些要求,并列出任何不確定性或模糊之處


      關鍵在于獎勵機制的設計:

      分離獎勵: “坦白”的獎勵與“主要回答”的獎勵是完全分開的。
      只獎誠實:“坦白”的獎勵僅基于其誠實度和全面性,由一個專門的LLM裁判打分

      互不影響:無論模型在自白中承認了多么糟糕的行為(比如承認自己偷懶了),都不會影響它因完成主要任務而獲得的獎勵

      這就像天主教的“告解室”機制:無論你在自白中揭露了什么,都不會改變你主要回答的得分。只要誠實交代是獲取坦白獎勵的“阻力最小路徑”,模型就有動力說真話

      在GPT-5-Thinking上的實測結果

      為了驗證這一方法的有效性,研究團隊在GPT-5-Thinking模型上進行了輕量級的RL訓練。他們在訓練中以25%的概率要求模型輸出“坦白”

      并在多個分布外(OOD)的場景下進行了評估,涵蓋幻覺、指令遵循、暗中策劃(Scheming)和獎勵黑客攻擊等領域。

      主要發現如下:

      1. 壞行為多半會被招供
      當模型表現出不良行為時,在12項評估中有11項,模型至少有一半的概率會在“自白”中承認這一點。

      2. “坦白”比“回答”更誠實
      當模型出現不良行為時,它在“坦白”中坦白從寬的可能性,顯著高于在主要回答中承認錯誤的可能

      3. 訓練提升了自白準確率
      雖然GPT-5-Thinking本身就具備一定的坦白能力,但經過專門訓練后,其自白的準確性有適度提升

      4. 不影響主任務性能
      在計算量匹配的對比實驗中,加入“坦白”訓練并沒有顯著提高或降低模型在原始任務上的表現

      測試發現,坦白法顯著提高了模型不良行為的可見性。在所有誘發不良行為的評估中,平均而言,模型不遵守指令且不坦白的概率僅為 4.4%


      甚至能檢測出“獎勵黑客”行為

      研究人員還設計了一個特殊的實驗來測試“獎勵黑客攻擊(Reward Hacking)”

      他們故意用一個弱裁判模型(容易被糊弄)來訓練策略模型。結果發現,隨著訓練進行,策略模型學會了欺騙這個弱裁判,在回答中通過作弊來獲取高分(例如在要求字數限制的任務中通過特殊格式蒙混過關)

      然而,“坦白”的準確率卻在上升

      這意味著,雖然模型學會了在回答里耍滑頭來騙取主任務獎勵,但它在隨后的坦白中,依然誠實地指出了自己沒有遵守指令。這驗證了研究的一個核心假設:誠實地承認違規,比試圖欺騙“坦白裁判”更容易獲得獎勵。

      此外,研究還發現,通過分析“坦白”的文本,可以提取出模型對自己回答的主觀置信度(0-1之間的數值)。這個置信度能較好地預測模型回答是否正確。

      局限性:不知道自己錯在哪,就沒法招

      當然,這種方法并非完美無缺。

      最大的局限在于“無知的錯誤”。 如果模型未能遵守指令是因為它真的能力不足、理解錯了,或者是產生了幻覺(它真心認為自己是對的),那么它就無法在“坦白”中承認錯誤。

      數據分析顯示,絕大多數“漏報”的情況都是由于模型真的搞錯了,而不是故意隱瞞。

      此外,目前的坦白是一個單獨的輸出步驟,主要用于推理時的監控、拒絕采樣或向用戶提示風險,并不能直接消除模型回答中的不良行為

      OpenAI認為,隨著模型能力越來越強,不知道自己錯了的情況會減少,這種基于坦白的監控機制將變得更加有效,可以作為思維鏈(CoT)監控的有力補充

      參考:

      https://openai.com/index/how-confessions-can-keep-language-models-honest/

      --end--

      最后記得??我,這對我非常重要,每天都在更新:

      歡迎點贊轉發推薦評論,別忘了關注我

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      反轉了!臭豆腐賠償到位大頭被捐,女兒成眾矢之的,再找工作難了

      反轉了!臭豆腐賠償到位大頭被捐,女兒成眾矢之的,再找工作難了

      離離言幾許
      2026-03-01 12:08:32
      美以對伊朗動手,俄羅斯、歐盟、巴基斯坦等多方發聲

      美以對伊朗動手,俄羅斯、歐盟、巴基斯坦等多方發聲

      參考消息
      2026-02-28 22:08:44
      砍9分11籃板!中國男籃1米98奇兵正負值+21:郭士強用對他

      砍9分11籃板!中國男籃1米98奇兵正負值+21:郭士強用對他

      李喜林籃球絕殺
      2026-03-01 18:48:10
      狗咬人被摔死,狗主人帶9人復仇被60歲老人反殺!是正當防衛嗎?

      狗咬人被摔死,狗主人帶9人復仇被60歲老人反殺!是正當防衛嗎?

      何慕白
      2025-11-13 10:22:09
      椰樹太顛了!代言人婚紗照成網紅打卡地,“土味營銷”天花板!

      椰樹太顛了!代言人婚紗照成網紅打卡地,“土味營銷”天花板!

      LOGO研究所
      2026-03-01 11:19:49
      周末信息如何影響市場?明天是紅色星期一?還是黑色星期一?

      周末信息如何影響市場?明天是紅色星期一?還是黑色星期一?

      春江財富
      2026-03-01 08:39:41
      7億成本,《鏢人》虧損2億,吳京不服氣,一口氣立項了7部武俠片

      7億成本,《鏢人》虧損2億,吳京不服氣,一口氣立項了7部武俠片

      電影票房預告片
      2026-02-26 23:39:18
      你有知道哪些炸裂的秘密?網友:我有個秘密說出來肯定大家要笑死

      你有知道哪些炸裂的秘密?網友:我有個秘密說出來肯定大家要笑死

      帶你感受人間冷暖
      2026-01-29 00:10:05
      潛伏11年,那些被礦渣喂大的香蕉,終于開始向人類“復仇”了

      潛伏11年,那些被礦渣喂大的香蕉,終于開始向人類“復仇”了

      墨印齋
      2026-02-26 08:32:20
      金靖自曝過完年胖了6斤,怎么工作啊,網友調侃年味都長身上了

      金靖自曝過完年胖了6斤,怎么工作啊,網友調侃年味都長身上了

      韓小娛
      2026-03-01 09:57:40
      中東局勢升級 金價重回1600元 專家提醒:建議投資者逢高少量減持

      中東局勢升級 金價重回1600元 專家提醒:建議投資者逢高少量減持

      封面新聞
      2026-03-01 22:14:05
      抵債的方式能有多離譜?網友:賠了我八個車位

      抵債的方式能有多離譜?網友:賠了我八個車位

      另子維愛讀史
      2026-02-28 20:39:11
      網紅民宿降價也無人問津?這屆“摳門”的年輕人擠爆體制內招待所

      網紅民宿降價也無人問津?這屆“摳門”的年輕人擠爆體制內招待所

      藍鯨新聞
      2026-02-24 16:03:06
      中領館提醒: 18-65歲在俄長期居留男性 須同意在俄軍事單位等至少服役1年

      中領館提醒: 18-65歲在俄長期居留男性 須同意在俄軍事單位等至少服役1年

      閃電新聞
      2026-02-26 12:46:48
      男籃世預賽晉級形勢分析!中國隊1戰定生死:韓國或被聯手踢出局

      男籃世預賽晉級形勢分析!中國隊1戰定生死:韓國或被聯手踢出局

      籃球快餐車
      2026-03-01 00:42:22
      伊朗犯下10月7日的致命失誤,導致其失去一切

      伊朗犯下10月7日的致命失誤,導致其失去一切

      山河路口
      2026-03-01 20:25:18
      鄒市明一家國外度假,冉瑩穎挑染紅發似精神小妹,軒軒180cm超帥

      鄒市明一家國外度假,冉瑩穎挑染紅發似精神小妹,軒軒180cm超帥

      瘋說時尚
      2026-03-01 11:38:45
      美伊戰爭進入第二天,美軍投入大量新式武器,伊朗連射20輪導彈

      美伊戰爭進入第二天,美軍投入大量新式武器,伊朗連射20輪導彈

      鐵血戰史1927
      2026-03-01 18:37:15
      無錫二院!你要火了!

      無錫二院!你要火了!

      無錫eTV全媒體
      2026-03-01 11:46:51
      富士康創始人郭臺銘:“若兩岸爆發沖突,我會誓死守護臺灣”

      富士康創始人郭臺銘:“若兩岸爆發沖突,我會誓死守護臺灣”

      百態人間
      2026-02-12 15:21:00
      2026-03-01 23:32:49
      AI寒武紀 incentive-icons
      AI寒武紀
      專注于人工智能,科技領域
      1034文章數 396關注度
      往期回顧 全部

      科技要聞

      榮耀發布機器人手機、折疊屏、人形機器人

      頭條要聞

      在以貼瓷磚的中國小伙:爆炸聲在頭頂響起 真的被嚇到

      頭條要聞

      在以貼瓷磚的中國小伙:爆炸聲在頭頂響起 真的被嚇到

      體育要聞

      火箭輸給熱火:烏度卡又輸斯波教練

      娛樂要聞

      黃景瑜 李雪健坐鎮!38集犯罪大劇來襲

      財經要聞

      中東局勢升級 如何影響A股、黃金和原油

      汽車要聞

      理想汽車2月交付26421輛 歷史累計交付超159萬輛

      態度原創

      健康
      親子
      本地
      教育
      數碼

      轉頭就暈的耳石癥,能開車上班嗎?

      親子要聞

      寧愿挨一刀也不愿順產?宋玉希四胎道出想剖腹產的原因,太不值當

      本地新聞

      津南好·四時總相宜

      教育要聞

      中考數學復習,中考數學重難點二次函數,經典壓軸題,難度大

      數碼要聞

      Uperfect M140G12筆記本三屏擴展套件,辦公好幫手!

      無障礙瀏覽 進入關懷版