<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>

色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3

<sup id="tvrmd"><rt id="tvrmd"></rt></sup><cite id="tvrmd"></cite>

<kbd id="tvrmd"></kbd>

網易首頁

網易新聞
網易公開課
網易紅彩
網易嚴選
郵箱大師
網易云課堂

注冊免費郵箱

注冊VIP郵箱（特權郵箱，付費）
免費下載網易官方手機郵箱應用

移動端
網易公開課
網易嚴選
支付
郵箱

網易首頁 > 網易號 > 正文申請入駐

OpenAI公開新的模型訓練方法：或許能解決模型撒謊問題，已在GPT-5 thiking驗證

2025-12-04 10:52:50　來源: AI寒武紀

江蘇舉報

0

分享至

↑閱讀之前記得關注+星標??，，每天才能第一時間接收到更新

剛剛OpenAI公開了一種新的重要的模型訓練方法（概念驗證）

面對大型語言模型（LLM）可能出現的欺騙行為——比如為了討好人類用戶而撒謊、隱瞞違規操作，甚至為了獲得更高獎勵而進行“獎勵黑客攻擊（Reward Hacking）”，OpenAI提出了一種名為 “坦白（Confession）” 的訓練方法

簡單來說，就是在模型給出回答之后，強制要求它進行一次自我反省，誠實地交代自己在剛才的回答中是否遵守了所有指令，有沒有走捷徑，或者是否存在不確定的地方

研究人員在GPT-5-Thinking上進行了實驗。結果顯示，通過這種訓練，通過“坦白”來監測模型的不當行為是可行的，即使模型在主要回答中撒了謊，它往往也能在隨后的“坦白”中誠實交代

這項研究的論文題目為《Training LLMs for Honesty via Confessions》

paper：

https://cdn.openai.com/pdf/6216f8bc-187b-4bbb-8932-ba7c40c5553d/confessions_paper.pdf

什么是“坦白”？

在強化學習訓練中，模型往往面臨復雜的獎勵目標（正確性、風格、安全性等）。這可能導致一種風險：模型為了最大化獎勵，學會了生成“看起來很好”但實際上不符合用戶意圖或存在缺陷的回答

OpenAI提出的“自白”機制，旨在解決這個問題。

其核心流程如下（如圖所示）：

1.標準交互：用戶提問（x） -> 模型進行思維鏈推理（CoT）和工具調用（z） -> 模型給出回答（y）

2.強制坦白：系統發出一條特殊的系統消息（xc），要求模型提供一份“坦白報告”（yc）

3.報告內容：模型需要在報告中列出所有顯性或隱性的指令與約束，評估自己是否遵守了這些要求，并列出任何不確定性或模糊之處

關鍵在于獎勵機制的設計：

分離獎勵： “坦白”的獎勵與“主要回答”的獎勵是完全分開的。
只獎誠實：“坦白”的獎勵僅基于其誠實度和全面性，由一個專門的LLM裁判打分

互不影響：無論模型在自白中承認了多么糟糕的行為（比如承認自己偷懶了），都不會影響它因完成主要任務而獲得的獎勵

這就像天主教的“告解室”機制：無論你在自白中揭露了什么，都不會改變你主要回答的得分。只要誠實交代是獲取坦白獎勵的“阻力最小路徑”，模型就有動力說真話

在GPT-5-Thinking上的實測結果

為了驗證這一方法的有效性，研究團隊在GPT-5-Thinking模型上進行了輕量級的RL訓練。他們在訓練中以25%的概率要求模型輸出“坦白”

并在多個分布外（OOD）的場景下進行了評估，涵蓋幻覺、指令遵循、暗中策劃（Scheming）和獎勵黑客攻擊等領域。

主要發現如下：

1. 壞行為多半會被招供
當模型表現出不良行為時，在12項評估中有11項，模型至少有一半的概率會在“自白”中承認這一點。

2. “坦白”比“回答”更誠實
當模型出現不良行為時，它在“坦白”中坦白從寬的可能性，顯著高于在主要回答中承認錯誤的可能

3. 訓練提升了自白準確率
雖然GPT-5-Thinking本身就具備一定的坦白能力，但經過專門訓練后，其自白的準確性有適度提升

4. 不影響主任務性能
在計算量匹配的對比實驗中，加入“坦白”訓練并沒有顯著提高或降低模型在原始任務上的表現

測試發現，坦白法顯著提高了模型不良行為的可見性。在所有誘發不良行為的評估中，平均而言，模型不遵守指令且不坦白的概率僅為 4.4%

甚至能檢測出“獎勵黑客”行為

研究人員還設計了一個特殊的實驗來測試“獎勵黑客攻擊（Reward Hacking）”

他們故意用一個弱裁判模型（容易被糊弄）來訓練策略模型。結果發現，隨著訓練進行，策略模型學會了欺騙這個弱裁判，在回答中通過作弊來獲取高分（例如在要求字數限制的任務中通過特殊格式蒙混過關）

然而，“坦白”的準確率卻在上升。

這意味著，雖然模型學會了在回答里耍滑頭來騙取主任務獎勵，但它在隨后的坦白中，依然誠實地指出了自己沒有遵守指令。這驗證了研究的一個核心假設：誠實地承認違規，比試圖欺騙“坦白裁判”更容易獲得獎勵。

此外，研究還發現，通過分析“坦白”的文本，可以提取出模型對自己回答的主觀置信度（0-1之間的數值）。這個置信度能較好地預測模型回答是否正確。

局限性：不知道自己錯在哪，就沒法招

當然，這種方法并非完美無缺。

最大的局限在于“無知的錯誤”。 如果模型未能遵守指令是因為它真的能力不足、理解錯了，或者是產生了幻覺（它真心認為自己是對的），那么它就無法在“坦白”中承認錯誤。

數據分析顯示，絕大多數“漏報”的情況都是由于模型真的搞錯了，而不是故意隱瞞。

此外，目前的坦白是一個單獨的輸出步驟，主要用于推理時的監控、拒絕采樣或向用戶提示風險，并不能直接消除模型回答中的不良行為

OpenAI認為，隨著模型能力越來越強，不知道自己錯了的情況會減少，這種基于坦白的監控機制將變得更加有效，可以作為思維鏈（CoT）監控的有力補充

參考：

https://openai.com/index/how-confessions-can-keep-language-models-honest/

--end--

最后記得??我，這對我非常重要，每天都在更新：

歡迎點贊轉發推薦評論，別忘了關注我

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

【數智周報】OpenAI宣布獲得1100億美元新投資；Anthropic指控三家中國模型“非法蒸餾” 馬斯克：賊喊捉賊；國產芯片公司集體漲價

鈦媒體APP 2026-03-01 11:00:06
3 跟貼 3
DeepSeek V4下周上線？原生多模態架構技術報告同步開放

財聯社 2026-03-01 14:57:36
4 跟貼 4

老外用不起GPT，全跑來“薅”中國大模型的羊毛了

鈦媒體APP 2026-03-01 08:43:07
3 跟貼 3

Seedance2.0從“地表最強”變“排隊最長”，記者實測：基礎會員要排10小時

每日經濟新聞 2026-03-01 18:05:05
0 跟貼 0
首屆中關村（海淀）國際機器人產業園科技廟會啟幕

中國日報網 2026-03-01 20:54:03
2 跟貼 2

榮耀機器人手機亮相

每日經濟新聞 2026-03-01 21:48:05
0 跟貼 0

媽媽拿兒子當實驗，女人愛美超越母愛，孩子就是工具人

中先生搞笑 2026-03-01 10:46:51
1 跟貼 1
英偉達巧用8B模型秒掉GPT-5 開源了

量子位 2025-12-06 14:07:18
73 跟貼 73

精準推理排除炸，穩穩贏3炮！！！

抖球 2026-02-26 01:41:46
0 跟貼 0
量子力學到底有多詭異？沒有任何人真的理解量子力學！

宇宙時空 2026-03-01 12:25:06
0 跟貼 0
一個實驗告訴你為什么不能給寶寶喝太熱的奶

小明不講理 2026-02-26 18:53:34
1 跟貼 1
OpenAI為國防部協議辯護：設置三條紅線比Anthropic的還安全

鳳凰網科技 2026-03-01 08:01:12
0 跟貼 0
在給別人轉賬時，一定要添加這個動作

飄過的知識 2026-02-25 17:12:37
6 跟貼 6
小伙用實驗提醒大家，充電器不用時要及時拔掉，網友：不充電時居然也會耗電

星沙時報 2026-02-26 17:00:35
0 跟貼 0
福州高中生化學學習如何突圍？一位家長的實地考察手記

知行教育手記 2026-03-01 16:16:44
0 跟貼 0
英偉達的“神秘芯片”背后--推理時代開啟“四大算力新趨勢”

華爾街見聞官方 2026-03-01 19:33:28
0 跟貼 0
網飛出品，阿加莎懸疑新作又翻車了

i書與房 2026-03-01 18:16:06
2 跟貼 2
一個實驗告訴你，父母溫情，直面現實！

農夫愛搞笑 2026-03-01 14:52:14
1 跟貼 1
“手機將全面漲價”沖上熱搜

南方都市報 2026-02-27 14:31:12
20636 跟貼 20636
多地公安警告，這5個高危號段，哪怕不說話也能掏空你賬戶？

清風撩心 2026-03-01 03:37:58
0 跟貼 0
女生觀看火箭發射，手機對著模型拍了半天后，發現火箭在旁邊

搞笑龍卷風 2026-02-28 09:43:55
2 跟貼 2
不學無術、遭國家隊排擠、與陳芋汐不和，全紅嬋身上的謠言太離譜

80后房車生活 2026-02-28 19:26:03
36 跟貼 36
央視曝光！免費送雞蛋背后是信息盜取

記者陳光 2026-02-27 06:59:12
0 跟貼 0
ICLR 2026 | PIL：基于線性代理的不可學習樣本生成方法

機器之心Pro 2026-02-24 19:36:33
0 跟貼 0
多家銀行發下通知，凡是微信里有錢的，綁銀行卡的，建議了解一下

銘澤體娛 2026-02-28 03:50:41
0 跟貼 0
極氪公布春節十大獵裝旅行路線，揭秘深度自駕游版圖

魯中晨報 2026-02-26 12:29:41
15583 跟貼 15583
孟凡氣死了，丈母娘整天瘋玩，竟然撒謊說是打工！

陽光小筑Sunny 2026-02-26 05:31:40
1 跟貼 1
“反詐老陳”賬號被封，本人回應：問心無愧！MCN機構：即刻解除所有合約，雙方合作立即終止

都市快報橙柿互動 2026-03-01 07:15:47
1162 跟貼 1162
關系再好，這幾樣東西也千萬別借，特別最后一個小心被坑到破產！

噶呀看時尚 2026-02-25 09:10:27
0 跟貼 0
渦輪風扇發動機模型套件(1)

制造科技 2026-02-27 19:30:03
0 跟貼 0
豆包發布嚴正聲明回應手機助手存在安全漏洞稱相關作者惡意傳播并夸大漏洞風險

每日經濟新聞 2026-02-28 03:27:23
0 跟貼 0
輸入密碼-密碼錯誤，修改密碼-新密碼不能與舊密碼相同！網友：你們沒有肌肉記憶嗎？憑感覺按

奇妙觀探 2026-02-28 12:26:14
0 跟貼 0
知名主持人提醒，疑似遇新型騙局！

江西都市現場 2026-02-28 04:41:56
0 跟貼 0
2 月刊｜GPM 2.0 錯誤日志分析上線，PC 端監測能力全維度突破

侑虎科技UWA 2026-03-01 18:36:28
0 跟貼 0
《社會研究方法評論》第8卷目錄

社會學研究雜志 2026-03-01 18:04:38
0 跟貼 0
佛山順德一4A景區灰塑被人拿下，官方通報

南方都市報 2026-02-26 12:58:14
623 跟貼 623
個人用手機、行車記錄儀拍攝的真實視頻

老董的偏見 2026-02-27 05:40:08
0 跟貼 0
伊朗叛軍突襲失敗：境外勢力策劃與伊朗應對策略剖析1

呆毛隆隆 2026-02-28 08:28:53
0 跟貼 0
《生化危機9》高復雜度彩蛋仍未完全被玩家攻破

3DM游戲 2026-03-01 17:44:45
0 跟貼 0
越漂亮的女人越會撒謊

一起看片片 2026-02-27 17:57:18
1 跟貼 1

反轉了！臭豆腐賠償到位大頭被捐，女兒成眾矢之的，再找工作難了

反轉了！臭豆腐賠償到位大頭被捐，女兒成眾矢之的，再找工作難了

離離言幾許

2026-03-01 12:08:32

美以對伊朗動手，俄羅斯、歐盟、巴基斯坦等多方發聲

美以對伊朗動手，俄羅斯、歐盟、巴基斯坦等多方發聲

參考消息

2026-02-28 22:08:44

砍9分11籃板！中國男籃1米98奇兵正負值+21：郭士強用對他

砍9分11籃板！中國男籃1米98奇兵正負值+21：郭士強用對他

李喜林籃球絕殺

2026-03-01 18:48:10

狗咬人被摔死，狗主人帶9人復仇被60歲老人反殺！是正當防衛嗎？

狗咬人被摔死，狗主人帶9人復仇被60歲老人反殺！是正當防衛嗎？

何慕白

2025-11-13 10:22:09

椰樹太顛了！代言人婚紗照成網紅打卡地，“土味營銷”天花板！

椰樹太顛了！代言人婚紗照成網紅打卡地，“土味營銷”天花板！

LOGO研究所

2026-03-01 11:19:49

周末信息如何影響市場？明天是紅色星期一？還是黑色星期一？

周末信息如何影響市場？明天是紅色星期一？還是黑色星期一？

春江財富

2026-03-01 08:39:41

7億成本，《鏢人》虧損2億，吳京不服氣，一口氣立項了7部武俠片

7億成本，《鏢人》虧損2億，吳京不服氣，一口氣立項了7部武俠片

電影票房預告片

2026-02-26 23:39:18

你有知道哪些炸裂的秘密？網友：我有個秘密說出來肯定大家要笑死

你有知道哪些炸裂的秘密？網友：我有個秘密說出來肯定大家要笑死

帶你感受人間冷暖

2026-01-29 00:10:05

潛伏11年，那些被礦渣喂大的香蕉，終于開始向人類“復仇”了

潛伏11年，那些被礦渣喂大的香蕉，終于開始向人類“復仇”了

墨印齋

2026-02-26 08:32:20

金靖自曝過完年胖了6斤，怎么工作啊，網友調侃年味都長身上了

金靖自曝過完年胖了6斤，怎么工作啊，網友調侃年味都長身上了

韓小娛

2026-03-01 09:57:40

中東局勢升級金價重回1600元專家提醒：建議投資者逢高少量減持

中東局勢升級金價重回1600元專家提醒：建議投資者逢高少量減持

封面新聞

2026-03-01 22:14:05

抵債的方式能有多離譜？網友：賠了我八個車位

抵債的方式能有多離譜？網友：賠了我八個車位

另子維愛讀史

2026-02-28 20:39:11

網紅民宿降價也無人問津？這屆“摳門”的年輕人擠爆體制內招待所

網紅民宿降價也無人問津？這屆“摳門”的年輕人擠爆體制內招待所

藍鯨新聞

2026-02-24 16:03:06

中領館提醒： 18-65歲在俄長期居留男性須同意在俄軍事單位等至少服役1年

中領館提醒： 18-65歲在俄長期居留男性須同意在俄軍事單位等至少服役1年

閃電新聞

2026-02-26 12:46:48

男籃世預賽晉級形勢分析！中國隊1戰定生死：韓國或被聯手踢出局

男籃世預賽晉級形勢分析！中國隊1戰定生死：韓國或被聯手踢出局

籃球快餐車

2026-03-01 00:42:22

伊朗犯下10月7日的致命失誤，導致其失去一切

伊朗犯下10月7日的致命失誤，導致其失去一切

山河路口

2026-03-01 20:25:18

鄒市明一家國外度假，冉瑩穎挑染紅發似精神小妹，軒軒180cm超帥

鄒市明一家國外度假，冉瑩穎挑染紅發似精神小妹，軒軒180cm超帥

瘋說時尚

2026-03-01 11:38:45

美伊戰爭進入第二天，美軍投入大量新式武器，伊朗連射20輪導彈

美伊戰爭進入第二天，美軍投入大量新式武器，伊朗連射20輪導彈

鐵血戰史1927

2026-03-01 18:37:15

無錫二院！你要火了！

無錫eTV全媒體

2026-03-01 11:46:51

富士康創始人郭臺銘：“若兩岸爆發沖突，我會誓死守護臺灣”

富士康創始人郭臺銘：“若兩岸爆發沖突，我會誓死守護臺灣”

百態人間

2026-02-12 15:21:00

專注于人工智能，科技領域

1034文章數 396關注度

往期回顧全部

科技要聞

榮耀發布機器人手機、折疊屏、人形機器人

頭條要聞

在以貼瓷磚的中國小伙：爆炸聲在頭頂響起真的被嚇到

頭條要聞

在以貼瓷磚的中國小伙：爆炸聲在頭頂響起真的被嚇到

體育要聞

火箭輸給熱火：烏度卡又輸斯波教練

娛樂要聞

黃景瑜李雪健坐鎮！38集犯罪大劇來襲

財經要聞

中東局勢升級如何影響A股、黃金和原油

汽車要聞

理想汽車2月交付26421輛歷史累計交付超159萬輛

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

健康

親子

本地

教育

數碼

轉頭就暈的耳石癥，能開車上班嗎？

親子要聞

寧愿挨一刀也不愿順產？宋玉希四胎道出想剖腹產的原因，太不值當

本地新聞

津南好·四時總相宜

教育要聞

中考數學復習，中考數學重難點二次函數，經典壓軸題，難度大

數碼要聞

Uperfect M140G12筆記本三屏擴展套件，辦公好幫手！

© 1997-2026 網易公司版權所有 About NetEase | 公司簡介 | 聯系方法 | 招聘信息 | 客戶服務 | 隱私政策 | 不良信息舉報 Complaint Center | 廉正舉報 | 侵權投訴

無障礙瀏覽進入關懷版

<pre id="3yf5p"><big id="3yf5p"></big></pre>

<pre id="3yf5p"><big id="3yf5p"></big></pre>

<ol id="3yf5p"><var id="3yf5p"></var></ol>