<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      OpenAI發(fā)表Nature論文:揭開(kāi)AI模型總“說(shuō)謊”的真相,人類對(duì)AI準(zhǔn)確性的評(píng)估促使其產(chǎn)生幻覺(jué)

      0
      分享至

      撰文丨王聰

      編輯丨王多魚(yú)

      排版丨水成文


      當(dāng)你問(wèn)當(dāng)前幾個(gè)主流的大語(yǔ)言模型,PGGB是什么意思?

      ChatGPT回答:“多項(xiàng)式高斯梯度帶寬”(Polynomial Gaussian Gradient Bandwidth);

      Claude回答:“私募全球增長(zhǎng)與收益基金”(Privately Held Global Growth and Income Fund);

      DeepSeek回答:“完美守衛(wèi)團(tuán)購(gòu)”(Perfect Guard Group Buy)。

      但實(shí)際情況是,這三個(gè)回答都是錯(cuò)的,都是它們瞎編的。那么,這些大語(yǔ)言模型為什么不回答不知道,而是自信滿滿地給出一個(gè)編造的看似專業(yè)的答案呢?

      這種現(xiàn)象在 AI 領(lǐng)域被稱為“幻覺(jué)”(Hallucination),也就是,大語(yǔ)言模型(LLM)有時(shí)會(huì)產(chǎn)生自信且看似合理但錯(cuò)誤的信息,而這這限制了它們的可靠性。即便是在當(dāng)前最先進(jìn)(SOTA)的語(yǔ)言模型中,幻覺(jué)問(wèn)題依然存在。要想進(jìn)一步減少 AI 的幻覺(jué),我們需要了解它們?yōu)楹萎a(chǎn)生以及為何持續(xù)存在。

      2026 年 4 月 22 日,OpenAI的研究人員國(guó)際頂尖學(xué)術(shù)期刊Nature上發(fā)表了題為:Evaluating large language models for accuracy incentivizes hallucinations 的研究論文。

      這項(xiàng)研究揭示了一個(gè)令人驚訝的真相——我們用來(lái)衡量 AI 模型能力的評(píng)估標(biāo)準(zhǔn),可能正是導(dǎo)致它“說(shuō)謊”(出現(xiàn)幻覺(jué))的元兇。


      為什么 AI 會(huì)“胡說(shuō)八道”?

      如果你正在參加一場(chǎng)考試,遇到一道完全不會(huì)的題目,此時(shí)你會(huì)怎么做?相信大多數(shù)人會(huì)隨便猜一個(gè)答案寫(xiě)上去,因此空著不答顯然是零分,而瞎蒙一個(gè)就算錯(cuò)了也不會(huì)多扣分,并沒(méi)有額外損失。

      大語(yǔ)言模型(LLM)也面臨同樣的困境。

      研究團(tuán)隊(duì)從兩個(gè)層面分析了幻覺(jué)產(chǎn)生的原因。

      首先是預(yù)訓(xùn)練階段的統(tǒng)計(jì)壓力,大語(yǔ)言模型最初通過(guò)“下一個(gè)詞預(yù)測(cè)”進(jìn)行訓(xùn)練,即使訓(xùn)練數(shù)據(jù)完全正確無(wú)誤,這種訓(xùn)練方式也會(huì)產(chǎn)生統(tǒng)計(jì)偏差。對(duì)于訓(xùn)練數(shù)據(jù)中只出現(xiàn)一次的事實(shí)(比如某人的生日),模型幾乎不可避免地會(huì)產(chǎn)生錯(cuò)誤;而對(duì)于反復(fù)出現(xiàn)的規(guī)律(比如語(yǔ)法規(guī)則),錯(cuò)誤率則很低。這就像你只見(jiàn)過(guò)某人一次,很難準(zhǔn)確記住他的生日;但如果你每天都用同樣的語(yǔ)法結(jié)構(gòu),自然能掌握它。簡(jiǎn)單來(lái)說(shuō),AI 對(duì)罕見(jiàn)事實(shí)的“記憶”天生就不靠譜。

      評(píng)估體系的“后天誤導(dǎo)”

      更嚴(yán)重的問(wèn)題出現(xiàn)在后續(xù)的評(píng)估階段,

      基于準(zhǔn)確性的評(píng)估指標(biāo)系統(tǒng)性地獎(jiǎng)勵(lì)猜測(cè)行為。當(dāng)前對(duì)于大語(yǔ)言模型的主流評(píng)估方式——基于準(zhǔn)確性(accuracy)的評(píng)分系統(tǒng),這在本質(zhì)上是在鼓勵(lì) AI“猜答案”而不是“承認(rèn)不知道”。

      研究團(tuán)隊(duì)分析了多個(gè)主流的大語(yǔ)言模型基準(zhǔn)測(cè)試,發(fā)現(xiàn)絕大多數(shù)都采用二元評(píng)分:答對(duì)得 1 分,答錯(cuò)或放棄得 0 分。在這種規(guī)則下,放棄回答永遠(yuǎn)是最差的選擇,因?yàn)榉艞壱馕吨?0 分,而猜一個(gè)答案至少有機(jī)會(huì)得分。

      研究團(tuán)隊(duì)舉了一個(gè)具體例子:在SimpleQA評(píng)估中,OpenAI 的 o4-mini 模型幾乎回答了所有問(wèn)題(錯(cuò)誤率超過(guò) 3/4),而 GPT-5-mini 則經(jīng)常選擇放棄(因此錯(cuò)誤更少)。但在這一評(píng)估標(biāo)準(zhǔn)下,o4-mini 的得分反而更高,因?yàn)樗鸬枚唷?/p>

      這種評(píng)估方式讓 AI 陷入了“考試模式”——永遠(yuǎn)在猜答案,永遠(yuǎn)不敢說(shuō)“我不知道”。而現(xiàn)實(shí)中,一個(gè)可靠的人類助手在面對(duì)不確定的問(wèn)題時(shí),會(huì)主動(dòng)承認(rèn)知識(shí)局限或請(qǐng)求更多信息。


      訓(xùn)練和評(píng)估過(guò)程中幻覺(jué)的起源與持續(xù)存在

      解決方案:讓AI知道“考試規(guī)則”

      那么,如何解決這個(gè)問(wèn)題?論文提出了一個(gè)簡(jiǎn)單而有效的方案:開(kāi)放式評(píng)分標(biāo)準(zhǔn)(open-rubric)。

      具體做法是:在向 AI 提問(wèn)時(shí),明確告知評(píng)分規(guī)則。比如:“正確答案得 1 分,錯(cuò)誤答案得 -1 分(所以如果你正確的概率低于 50%,那么最好放棄回答)”、“只有完全正確的答案才能得分(如果不確定,請(qǐng)做出最佳猜測(cè))”

      這就像考試前老師明確告知“答錯(cuò)扣分”還是“答錯(cuò)不扣分”,讓學(xué)生可以根據(jù)規(guī)則調(diào)整策略。

      接下來(lái),研究團(tuán)隊(duì)在四個(gè)前沿模型(Google 的 Gemini 3 Pro、OpenAI 的 GPT-5、xAI 的 Grok 4,以及 Anthropic 的 Claude Opus 4.5)上進(jìn)行了實(shí)驗(yàn)。結(jié)果顯示,當(dāng)使用“開(kāi)放式評(píng)分標(biāo)準(zhǔn)”時(shí),所有模型都能根據(jù)不同的錯(cuò)誤懲罰程度調(diào)整自己的“猜測(cè)傾向”——懲罰越重,放棄越多。

      更重要的是,在這種評(píng)估體系下,減少幻覺(jué)的技術(shù)不再需要以降低準(zhǔn)確率為代價(jià)。模型可以像好學(xué)生一樣,既展示知識(shí),又懂得在適當(dāng)?shù)臅r(shí)候保持謹(jǐn)慎。

      這對(duì) AI 發(fā)展意味著什么?

      這項(xiàng)研究揭示了一個(gè)根本性的問(wèn)題:我們?nèi)绾卧u(píng)估 AI,決定了 AI 如何行為。

      當(dāng)前,大語(yǔ)言模型的開(kāi)發(fā)過(guò)程中,準(zhǔn)確率等“關(guān)鍵指標(biāo)”主導(dǎo)著模型選擇、數(shù)據(jù)篩選和算法優(yōu)化。如果這些指標(biāo)本身就在鼓勵(lì)不良行為,那么無(wú)論我們?cè)跍p少幻覺(jué)方面取得多少技術(shù)進(jìn)步,都可能被評(píng)估體系所抵消。

      因此,論文作者強(qiáng)調(diào),提高 AI 的可靠性不僅是建模問(wèn)題,更是評(píng)估機(jī)制設(shè)計(jì)問(wèn)題。與其增加單獨(dú)的反幻覺(jué)基準(zhǔn)測(cè)試,不如修改評(píng)估方式,讓它們能夠激勵(lì) AI 在適當(dāng)?shù)臅r(shí)候承認(rèn)不確定性。

      隨著大語(yǔ)言模型在醫(yī)療、法律、金融等關(guān)鍵領(lǐng)域的應(yīng)用越來(lái)越廣泛,解決幻覺(jué)問(wèn)題變得至關(guān)重要。這項(xiàng)發(fā)表于Nature的研究提醒我們,要讓 AI 更可靠,我們首先需要更聰明的評(píng)估方式。

      論文鏈接

      https://www.nature.com/articles/s41586-026-10549-w

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      吳石案中一個(gè)被忽略的關(guān)鍵人物,如果不是她,很有可能大家都沒(méi)事

      吳石案中一個(gè)被忽略的關(guān)鍵人物,如果不是她,很有可能大家都沒(méi)事

      興趣知識(shí)
      2026-04-25 19:46:17
      丁俊暉扛了19年,趙心童跪地鼓掌:這一跪,是中國(guó)斯諾克最體面的傳承

      丁俊暉扛了19年,趙心童跪地鼓掌:這一跪,是中國(guó)斯諾克最體面的傳承

      帶你逛體壇
      2026-04-25 15:54:08
      芬蘭女外長(zhǎng)發(fā)表極端對(duì)華言論,公然逼中國(guó)二選一!中方硬氣回應(yīng)!

      芬蘭女外長(zhǎng)發(fā)表極端對(duì)華言論,公然逼中國(guó)二選一!中方硬氣回應(yīng)!

      果媽聊娛樂(lè)
      2026-04-25 22:10:02
      三星電視清倉(cāng):最高直降1500美元的窗口期

      三星電視清倉(cāng):最高直降1500美元的窗口期

      灰度測(cè)試中
      2026-04-24 10:13:18
      事態(tài)升級(jí)!中方軍艦越聚越多,四川艦和遼寧艦會(huì)合,菲日休想鬧事

      事態(tài)升級(jí)!中方軍艦越聚越多,四川艦和遼寧艦會(huì)合,菲日休想鬧事

      瀲滟晴方DAY
      2026-04-26 02:30:21
      1-0 登頂英超!阿森納險(xiǎn)翻車,頭號(hào)核心全場(chǎng)災(zāi)難拖后腿

      1-0 登頂英超!阿森納險(xiǎn)翻車,頭號(hào)核心全場(chǎng)災(zāi)難拖后腿

      瀾歸序
      2026-04-26 05:51:40
      爆冷!東部第一再輸一局,魔術(shù)醞釀黑八,康寧漢姆9失誤無(wú)緣逆轉(zhuǎn)

      爆冷!東部第一再輸一局,魔術(shù)醞釀黑八,康寧漢姆9失誤無(wú)緣逆轉(zhuǎn)

      老梁體育漫談
      2026-04-26 04:05:16
      25萬(wàn),逆天啊...

      25萬(wàn),逆天啊...

      放毒
      2026-04-25 17:06:44
      陳思誠(chéng)祖孫三代同框亮相!一家人共用一張臉,爺爺比兒孫長(zhǎng)得都帥

      陳思誠(chéng)祖孫三代同框亮相!一家人共用一張臉,爺爺比兒孫長(zhǎng)得都帥

      天馬幸福的人生
      2026-04-26 01:08:01
      49.98萬(wàn)元起!全新一代問(wèn)界M9系列72小時(shí)預(yù)訂量突破25000臺(tái):同檔最火SUV

      49.98萬(wàn)元起!全新一代問(wèn)界M9系列72小時(shí)預(yù)訂量突破25000臺(tái):同檔最火SUV

      快科技
      2026-04-25 23:16:13
      DeepSeek-V4和GPT-5.5第一波實(shí)測(cè)對(duì)決,結(jié)果出人意料!

      DeepSeek-V4和GPT-5.5第一波實(shí)測(cè)對(duì)決,結(jié)果出人意料!

      新智元
      2026-04-25 08:21:59
      單外援奪冠!四川瘋狂慶祝!絕境王思雨李緣太強(qiáng),四川男籃學(xué)習(xí)下

      單外援奪冠!四川瘋狂慶祝!絕境王思雨李緣太強(qiáng),四川男籃學(xué)習(xí)下

      老吳說(shuō)體育
      2026-04-25 21:48:25
      湖南湘西一父親投訴醫(yī)院救護(hù)車多次謊稱已出車,21分鐘才發(fā)車,致1歲幼子貽誤最佳搶救時(shí)機(jī)身亡;官方通報(bào):高度重視,已成立聯(lián)合調(diào)查組

      湖南湘西一父親投訴醫(yī)院救護(hù)車多次謊稱已出車,21分鐘才發(fā)車,致1歲幼子貽誤最佳搶救時(shí)機(jī)身亡;官方通報(bào):高度重視,已成立聯(lián)合調(diào)查組

      大風(fēng)新聞
      2026-04-25 21:52:25
      為什么你的電量焦慮出國(guó)就消失?

      為什么你的電量焦慮出國(guó)就消失?

      晚風(fēng)也遺憾
      2026-04-24 09:04:51
      河北一女子稱用輪椅推患病親屬到銀行取錢被拒:病人急需入院治療,因病不能說(shuō)話,銀行以“非儲(chǔ)戶真實(shí)意愿”為由拒辦業(yè)務(wù);目前銀行已致歉

      河北一女子稱用輪椅推患病親屬到銀行取錢被拒:病人急需入院治療,因病不能說(shuō)話,銀行以“非儲(chǔ)戶真實(shí)意愿”為由拒辦業(yè)務(wù);目前銀行已致歉

      臺(tái)州交通廣播
      2026-04-25 21:39:53
      86年我在工廠值夜班,半夜撞見(jiàn)廠長(zhǎng)媳婦從倉(cāng)庫(kù)出來(lái),她讓我別聲張

      86年我在工廠值夜班,半夜撞見(jiàn)廠長(zhǎng)媳婦從倉(cāng)庫(kù)出來(lái),她讓我別聲張

      千秋文化
      2026-04-21 20:11:53
      女星陶昕然發(fā)長(zhǎng)文回應(yīng)被《乘風(fēng)2026》淘汰,稱“想翻紅沒(méi)錯(cuò)”:紅意味著選擇權(quán),可我也知道這個(gè)世界不缺紅的方式,我會(huì)愛(ài)惜羽毛

      女星陶昕然發(fā)長(zhǎng)文回應(yīng)被《乘風(fēng)2026》淘汰,稱“想翻紅沒(méi)錯(cuò)”:紅意味著選擇權(quán),可我也知道這個(gè)世界不缺紅的方式,我會(huì)愛(ài)惜羽毛

      魯中晨報(bào)
      2026-04-25 16:08:13
      打起來(lái)了?深夜,伊朗首都發(fā)生爆炸,美失聲,以色列:不是我干的

      打起來(lái)了?深夜,伊朗首都發(fā)生爆炸,美失聲,以色列:不是我干的

      阿芒娛樂(lè)說(shuō)
      2026-04-26 03:27:43
      足壇一夜動(dòng)態(tài):巴薩2-0最快下輪奪冠!阿森納重返榜首 曼城進(jìn)決賽

      足壇一夜動(dòng)態(tài):巴薩2-0最快下輪奪冠!阿森納重返榜首 曼城進(jìn)決賽

      念洲
      2026-04-26 06:29:46
      震驚!大學(xué)教師分享女兒留學(xué)與歐洲旅行見(jiàn)聞被舉報(bào)!網(wǎng)友:活該吧

      震驚!大學(xué)教師分享女兒留學(xué)與歐洲旅行見(jiàn)聞被舉報(bào)!網(wǎng)友:活該吧

      火山詩(shī)話
      2026-04-24 09:20:07
      2026-04-26 06:52:49
      生物世界 incentive-icons
      生物世界
      最前沿、最有趣的生命科學(xué)研究
      9273文章數(shù) 145060關(guān)注度
      往期回顧 全部

      科技要聞

      DeepSeek V4發(fā)布!黃仁勛預(yù)言的"災(zāi)難"降臨

      頭條要聞

      媒體:美軍在中東罕見(jiàn)高密度集結(jié) 伊朗開(kāi)始調(diào)整戰(zhàn)術(shù)

      頭條要聞

      媒體:美軍在中東罕見(jiàn)高密度集結(jié) 伊朗開(kāi)始調(diào)整戰(zhàn)術(shù)

      體育要聞

      那一刻開(kāi)始,兩支球隊(duì)的命運(yùn)悄然改變了

      娛樂(lè)要聞

      《我們的爸爸2》第一季完美爸爸翻車了

      財(cái)經(jīng)要聞

      90%訂單消失,中東旺季沒(méi)了

      汽車要聞

      2026款樂(lè)道L90亮相北京車展 樂(lè)道L80正式官宣

      態(tài)度原創(chuàng)

      健康
      游戲
      親子
      時(shí)尚
      房產(chǎn)

      干細(xì)胞如何讓燒燙傷皮膚"再生"?

      金發(fā)美少女魔王和我是鄰居!新游首曝美女角色太吸睛

      親子要聞

      總感覺(jué)她們兩是上輩子的情人!

      這些穿搭適合春天!外套彩色內(nèi)搭白色、褲子穿基礎(chǔ)款,舒適大方

      房產(chǎn)要聞

      新一輪教育大爆發(fā)來(lái)了!???,開(kāi)始瘋狂建學(xué)校!

      無(wú)障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 久久久精品2019中文字幕之3| 国产黄色视频大全| 伊人激情av一区二区三区| 日韩精品人成在线播放| 国产又黄又爽又色的免费| 色av综合av综合无码网站| 亚洲男人皇宫| 亚洲国产日韩在线人高清| 人人网aV| 国产精品老热丝在线观看| 久久久天堂国产精品女人| 东京热加勒比久久综合| 亚洲精品国产精品乱码桃花 | 天天躁夜夜躁狠狠躁AV| 亚洲欧美成人综合| 伊在人间香蕉最新视频| 亚洲国产精品500在线观看| 好吊视频在线一区二区三区| 夜夜躁很很躁日日躁麻豆| 国内自拍视频一区二区三区| 资源县| 久久天天躁狠狠躁夜夜不卡公司| 性交大片| 丰满人妻熟妇乱又伦精品劲| 欧洲成人在线观看| 性生大片免费观看668| 日本另类αv欧美另类aⅴ| 亚洲AV无码欧洲AV无码网站| 国产精品国产三级在线专区| 色三区| 丁香婷婷综合激情五月色| 国产亚洲精品VA片在线播放,国产中年熟女大集合| 精品人妻中文无码| 欧美人与动牲交A免费观看| 国产精品国产三级国产试看| 亚洲日本韩国| 国产欧美精品一区aⅴ影院| 少妇高潮喷水久久久久久久久久| 桐梓县| 亚洲人成色4444在线观看| 奇米影视7777久久精品|