<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      OpenAI公開(kāi)新的模型訓(xùn)練方法:或許能解決模型撒謊問(wèn)題,已在GPT-5 thiking驗(yàn)證

      0
      分享至


      ↑閱讀之前記得關(guān)注+星標(biāo)??,,每天才能第一時(shí)間接收到更新

      剛剛OpenAI公開(kāi)了一種新的重要的模型訓(xùn)練方法(概念驗(yàn)證)

      面對(duì)大型語(yǔ)言模型(LLM)可能出現(xiàn)的欺騙行為——比如為了討好人類用戶而撒謊、隱瞞違規(guī)操作,甚至為了獲得更高獎(jiǎng)勵(lì)而進(jìn)行“獎(jiǎng)勵(lì)黑客攻擊(Reward Hacking)”,OpenAI提出了一種名為 “坦白(Confession)” 的訓(xùn)練方法

      簡(jiǎn)單來(lái)說(shuō),就是在模型給出回答之后,強(qiáng)制要求它進(jìn)行一次自我反省,誠(chéng)實(shí)地交代自己在剛才的回答中是否遵守了所有指令,有沒(méi)有走捷徑,或者是否存在不確定的地方

      研究人員在GPT-5-Thinking上進(jìn)行了實(shí)驗(yàn)。結(jié)果顯示,通過(guò)這種訓(xùn)練,通過(guò)“坦白”來(lái)監(jiān)測(cè)模型的不當(dāng)行為是可行的,即使模型在主要回答中撒了謊,它往往也能在隨后的“坦白”中誠(chéng)實(shí)交代

      這項(xiàng)研究的論文題目為《Training LLMs for Honesty via Confessions》

      paper:

      https://cdn.openai.com/pdf/6216f8bc-187b-4bbb-8932-ba7c40c5553d/confessions_paper.pdf


      什么是“坦白”?

      在強(qiáng)化學(xué)習(xí)訓(xùn)練中,模型往往面臨復(fù)雜的獎(jiǎng)勵(lì)目標(biāo)(正確性、風(fēng)格、安全性等)。這可能導(dǎo)致一種風(fēng)險(xiǎn):模型為了最大化獎(jiǎng)勵(lì),學(xué)會(huì)了生成“看起來(lái)很好”但實(shí)際上不符合用戶意圖或存在缺陷的回答

      OpenAI提出的“自白”機(jī)制,旨在解決這個(gè)問(wèn)題。

      其核心流程如下(如圖所示):

      1.標(biāo)準(zhǔn)交互: 用戶提問(wèn)(x) -> 模型進(jìn)行思維鏈推理(CoT)和工具調(diào)用(z) -> 模型給出回答(y)

      2.強(qiáng)制坦白:系統(tǒng)發(fā)出一條特殊的系統(tǒng)消息(xc),要求模型提供一份“坦白報(bào)告”(yc)

      3.報(bào)告內(nèi)容: 模型需要在報(bào)告中列出所有顯性或隱性的指令與約束,評(píng)估自己是否遵守了這些要求,并列出任何不確定性或模糊之處


      關(guān)鍵在于獎(jiǎng)勵(lì)機(jī)制的設(shè)計(jì):

      分離獎(jiǎng)勵(lì): “坦白”的獎(jiǎng)勵(lì)與“主要回答”的獎(jiǎng)勵(lì)是完全分開(kāi)的。
      只獎(jiǎng)?wù)\實(shí):“坦白”的獎(jiǎng)勵(lì)僅基于其誠(chéng)實(shí)度和全面性,由一個(gè)專門(mén)的LLM裁判打分

      互不影響:無(wú)論模型在自白中承認(rèn)了多么糟糕的行為(比如承認(rèn)自己偷懶了),都不會(huì)影響它因完成主要任務(wù)而獲得的獎(jiǎng)勵(lì)

      這就像天主教的“告解室”機(jī)制:無(wú)論你在自白中揭露了什么,都不會(huì)改變你主要回答的得分。只要誠(chéng)實(shí)交代是獲取坦白獎(jiǎng)勵(lì)的“阻力最小路徑”,模型就有動(dòng)力說(shuō)真話

      在GPT-5-Thinking上的實(shí)測(cè)結(jié)果

      為了驗(yàn)證這一方法的有效性,研究團(tuán)隊(duì)在GPT-5-Thinking模型上進(jìn)行了輕量級(jí)的RL訓(xùn)練。他們?cè)谟?xùn)練中以25%的概率要求模型輸出“坦白”

      并在多個(gè)分布外(OOD)的場(chǎng)景下進(jìn)行了評(píng)估,涵蓋幻覺(jué)、指令遵循、暗中策劃(Scheming)和獎(jiǎng)勵(lì)黑客攻擊等領(lǐng)域。

      主要發(fā)現(xiàn)如下:

      1. 壞行為多半會(huì)被招供
      當(dāng)模型表現(xiàn)出不良行為時(shí),在12項(xiàng)評(píng)估中有11項(xiàng),模型至少有一半的概率會(huì)在“自白”中承認(rèn)這一點(diǎn)。

      2. “坦白”比“回答”更誠(chéng)實(shí)
      當(dāng)模型出現(xiàn)不良行為時(shí),它在“坦白”中坦白從寬的可能性,顯著高于在主要回答中承認(rèn)錯(cuò)誤的可能

      3. 訓(xùn)練提升了自白準(zhǔn)確率
      雖然GPT-5-Thinking本身就具備一定的坦白能力,但經(jīng)過(guò)專門(mén)訓(xùn)練后,其自白的準(zhǔn)確性有適度提升

      4. 不影響主任務(wù)性能
      在計(jì)算量匹配的對(duì)比實(shí)驗(yàn)中,加入“坦白”訓(xùn)練并沒(méi)有顯著提高或降低模型在原始任務(wù)上的表現(xiàn)

      測(cè)試發(fā)現(xiàn),坦白法顯著提高了模型不良行為的可見(jiàn)性。在所有誘發(fā)不良行為的評(píng)估中,平均而言,模型不遵守指令且不坦白的概率僅為 4.4%


      甚至能檢測(cè)出“獎(jiǎng)勵(lì)黑客”行為

      研究人員還設(shè)計(jì)了一個(gè)特殊的實(shí)驗(yàn)來(lái)測(cè)試“獎(jiǎng)勵(lì)黑客攻擊(Reward Hacking)”

      他們故意用一個(gè)弱裁判模型(容易被糊弄)來(lái)訓(xùn)練策略模型。結(jié)果發(fā)現(xiàn),隨著訓(xùn)練進(jìn)行,策略模型學(xué)會(huì)了欺騙這個(gè)弱裁判,在回答中通過(guò)作弊來(lái)獲取高分(例如在要求字?jǐn)?shù)限制的任務(wù)中通過(guò)特殊格式蒙混過(guò)關(guān))

      然而,“坦白”的準(zhǔn)確率卻在上升

      這意味著,雖然模型學(xué)會(huì)了在回答里耍滑頭來(lái)騙取主任務(wù)獎(jiǎng)勵(lì),但它在隨后的坦白中,依然誠(chéng)實(shí)地指出了自己沒(méi)有遵守指令。這驗(yàn)證了研究的一個(gè)核心假設(shè):誠(chéng)實(shí)地承認(rèn)違規(guī),比試圖欺騙“坦白裁判”更容易獲得獎(jiǎng)勵(lì)。

      此外,研究還發(fā)現(xiàn),通過(guò)分析“坦白”的文本,可以提取出模型對(duì)自己回答的主觀置信度(0-1之間的數(shù)值)。這個(gè)置信度能較好地預(yù)測(cè)模型回答是否正確。

      局限性:不知道自己錯(cuò)在哪,就沒(méi)法招

      當(dāng)然,這種方法并非完美無(wú)缺。

      最大的局限在于“無(wú)知的錯(cuò)誤”。 如果模型未能遵守指令是因?yàn)樗娴哪芰Σ蛔恪⒗斫忮e(cuò)了,或者是產(chǎn)生了幻覺(jué)(它真心認(rèn)為自己是對(duì)的),那么它就無(wú)法在“坦白”中承認(rèn)錯(cuò)誤。

      數(shù)據(jù)分析顯示,絕大多數(shù)“漏報(bào)”的情況都是由于模型真的搞錯(cuò)了,而不是故意隱瞞。

      此外,目前的坦白是一個(gè)單獨(dú)的輸出步驟,主要用于推理時(shí)的監(jiān)控、拒絕采樣或向用戶提示風(fēng)險(xiǎn),并不能直接消除模型回答中的不良行為

      OpenAI認(rèn)為,隨著模型能力越來(lái)越強(qiáng),不知道自己錯(cuò)了的情況會(huì)減少,這種基于坦白的監(jiān)控機(jī)制將變得更加有效,可以作為思維鏈(CoT)監(jiān)控的有力補(bǔ)充

      參考:

      https://openai.com/index/how-confessions-can-keep-language-models-honest/

      --end--

      最后記得??我,這對(duì)我非常重要,每天都在更新:

      歡迎點(diǎn)贊轉(zhuǎn)發(fā)推薦評(píng)論,別忘了關(guān)注我

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      普拉托:四名中國(guó)籍男子持手槍和步槍闖入 并開(kāi)槍射擊

      普拉托:四名中國(guó)籍男子持手槍和步槍闖入 并開(kāi)槍射擊

      奮斗在意大利
      2025-12-29 22:58:10
      C羅升至第七!26年金球獎(jiǎng)賠率更新,亞馬爾僅第四,梅西有望登頂

      C羅升至第七!26年金球獎(jiǎng)賠率更新,亞馬爾僅第四,梅西有望登頂

      祥談體育
      2025-12-30 10:55:03
      被拐30年兒子認(rèn)親14小時(shí)就走,全程冷臉,網(wǎng)友:窮家標(biāo)簽太刺眼

      被拐30年兒子認(rèn)親14小時(shí)就走,全程冷臉,網(wǎng)友:窮家標(biāo)簽太刺眼

      老特有話說(shuō)
      2025-12-06 17:31:27
      美記:獨(dú)行俠愿意將濃眉送到老鷹,但前提是特雷楊不能成為籌碼

      美記:獨(dú)行俠愿意將濃眉送到老鷹,但前提是特雷楊不能成為籌碼

      移動(dòng)擋拆
      2025-12-30 04:48:56
      溥儀9歲仍在吃奶,給他當(dāng)乳娘有2規(guī)矩:一是喂奶,另一個(gè)毫無(wú)人性

      溥儀9歲仍在吃奶,給他當(dāng)乳娘有2規(guī)矩:一是喂奶,另一個(gè)毫無(wú)人性

      小豫講故事
      2025-12-27 06:00:06
      許利民:曾凡博無(wú)緣戰(zhàn)廣廈+京粵大戰(zhàn)回歸首秀 陳盈駿完成鼻部手術(shù)

      許利民:曾凡博無(wú)緣戰(zhàn)廣廈+京粵大戰(zhàn)回歸首秀 陳盈駿完成鼻部手術(shù)

      醉臥浮生
      2025-12-30 13:18:34
      廣西經(jīng)濟(jì)最落后的十個(gè)縣城 1.都安瑤族自治縣 2.那坡縣

      廣西經(jīng)濟(jì)最落后的十個(gè)縣城 1.都安瑤族自治縣 2.那坡縣

      金哥說(shuō)新能源車
      2025-12-30 11:28:20
      武元甲痛心直言,黎筍固執(zhí)致中越開(kāi)戰(zhàn),錯(cuò)失數(shù)十年攜手發(fā)展

      武元甲痛心直言,黎筍固執(zhí)致中越開(kāi)戰(zhàn),錯(cuò)失數(shù)十年攜手發(fā)展

      嘮叨說(shuō)歷史
      2025-12-29 15:35:25
      上海地鐵一男子被打10個(gè)耳光不還手!還手算互毆成歷史,新規(guī)不再和稀泥!

      上海地鐵一男子被打10個(gè)耳光不還手!還手算互毆成歷史,新規(guī)不再和稀泥!

      上觀新聞
      2025-12-29 20:52:09
      一輛著火輕型客車卡在大貨車尾被拖行進(jìn)服務(wù)區(qū),客車司機(jī)不幸遇難

      一輛著火輕型客車卡在大貨車尾被拖行進(jìn)服務(wù)區(qū),客車司機(jī)不幸遇難

      極目新聞
      2025-12-30 14:59:41
      特斯拉“車頂維權(quán)”女車主被限高,此前被索賠500萬(wàn)被判賠17萬(wàn)

      特斯拉“車頂維權(quán)”女車主被限高,此前被索賠500萬(wàn)被判賠17萬(wàn)

      封面新聞
      2025-12-30 09:57:14
      約書(shū)亞遭遇車禍,兩人死亡!

      約書(shū)亞遭遇車禍,兩人死亡!

      格斗迷
      2025-12-30 11:18:40
      一場(chǎng)戰(zhàn)爭(zhēng)掀開(kāi)了一個(gè)政治乞丐

      一場(chǎng)戰(zhàn)爭(zhēng)掀開(kāi)了一個(gè)政治乞丐

      維美麗心甜
      2025-11-12 07:20:03
      36歲男明星曬南極旅游!天天吃泡面,吐槽企鵝屎臭,網(wǎng)友:祛魅了

      36歲男明星曬南極旅游!天天吃泡面,吐槽企鵝屎臭,網(wǎng)友:祛魅了

      瓜汁橘長(zhǎng)Dr
      2025-12-29 17:52:06
      女子跑3家銀行網(wǎng)點(diǎn)沒(méi)辦成1張卡,多家銀行工作人員回應(yīng):2020年“斷卡行動(dòng)”后辦卡開(kāi)始變嚴(yán)

      女子跑3家銀行網(wǎng)點(diǎn)沒(méi)辦成1張卡,多家銀行工作人員回應(yīng):2020年“斷卡行動(dòng)”后辦卡開(kāi)始變嚴(yán)

      觀威海
      2025-12-30 09:18:37
      臨終將“私生子”交給何超瓊,賭王下的這盤(pán)大棋,五年后才看懂

      臨終將“私生子”交給何超瓊,賭王下的這盤(pán)大棋,五年后才看懂

      白面書(shū)誏
      2025-12-09 23:59:19
      馬斯克再次預(yù)言:手機(jī)APP、你的工作、金錢(qián),20年內(nèi)全部消失!

      馬斯克再次預(yù)言:手機(jī)APP、你的工作、金錢(qián),20年內(nèi)全部消失!

      現(xiàn)代小青青慕慕
      2025-12-29 12:06:09
      普京簽署法令,自2026年起實(shí)行全年征兵,再征召26.1萬(wàn)人入伍

      普京簽署法令,自2026年起實(shí)行全年征兵,再征召26.1萬(wàn)人入伍

      山河路口
      2025-12-30 15:30:41
      欣旺達(dá)被索賠觸及“斬殺線”,殃及16個(gè)品牌40款車型在瑟瑟發(fā)抖?

      欣旺達(dá)被索賠觸及“斬殺線”,殃及16個(gè)品牌40款車型在瑟瑟發(fā)抖?

      新能源前瞻
      2025-12-29 23:45:00
      幼兒園老師誤發(fā)“午睡照”到家長(zhǎng)群,家長(zhǎng)不淡定:不給說(shuō)法就投訴

      幼兒園老師誤發(fā)“午睡照”到家長(zhǎng)群,家長(zhǎng)不淡定:不給說(shuō)法就投訴

      大果小果媽媽
      2025-12-30 13:13:39
      2025-12-30 16:35:00
      AI寒武紀(jì) incentive-icons
      AI寒武紀(jì)
      專注于人工智能,科技領(lǐng)域
      1024文章數(shù) 393關(guān)注度
      往期回顧 全部

      科技要聞

      估值150億的智元,開(kāi)始批量"制造"小獨(dú)角獸

      頭條要聞

      普京通知特朗普自己官邸遇襲 澤連斯基:完全的捏造

      頭條要聞

      普京通知特朗普自己官邸遇襲 澤連斯基:完全的捏造

      體育要聞

      這個(gè)59歲的胖子,還在表演“蝎子擺尾”

      娛樂(lè)要聞

      林俊杰官宣文案爭(zhēng)議!女方名字都不提

      財(cái)經(jīng)要聞

      朱光耀:美關(guān)稅政策正使WTO名存實(shí)亡

      汽車要聞

      標(biāo)配華為乾崑ADS 4 Pro 華境S明年上半年上市

      態(tài)度原創(chuàng)

      手機(jī)
      本地
      健康
      家居
      公開(kāi)課

      手機(jī)要聞

      蘋(píng)果客服回應(yīng)iPhone電池健康度僅為0%:暫未遇到實(shí)例

      本地新聞

      即將過(guò)去的2025年,對(duì)重慶的影響竟然如此深遠(yuǎn)

      這些新療法,讓化療不再那么痛苦

      家居要聞

      當(dāng)歸之宅 三胎圓滿居所

      公開(kāi)課

      李玫瑾:為什么性格比能力更重要?

      無(wú)障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: a级免费视频| 六枝特区| 99视频精品在线| 免费ā片在线观看| 亚洲国产福利成人一区二区| yw尤物av无码国产在线观看| 成人无码AV片| 阳高县| 精品无码中文视频在线观看| 九九色色| 密臀av| 米易县| 精品人妻久久久久久888| 国产互换人妻XXXXXX6| 老司机免费视频| 日照市| 国精品无码一区二区三区在线蜜臀| 国产真人无码作爱视频免费| 强行糟蹋人妻HD中文字幕| 通江县| av男人的天堂在线观看国产| 欧美奶涨边摸边做爰视频| 谁有老熟女网站| 亚洲AV成人精品日韩在线播放| 久久久久久无码午夜精品直播| 亚洲av无码专区在线亚| 欧美黑人又粗又大| 一本色道久久88亚州精品综合| 中文字幕亚洲综合久久青草| 女人被爽到高潮视频免费国产| 97久草| 久久亚洲V无码专区成人| 国产成人精品一区二三区在线观看 | 南康市| 在线无码av一区二区三区| 99久久国产综合精品成人影院| 一本色道久久88综合日韩精品| 色综合久久中文| 国产精品网站在线观看免费传媒 | 成人一区二区三区| 久久久www影院人成_免费|