<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      你最不起眼的這種能力,卻可能成為 AI 永遠(yuǎn)的短板?

      0
      分享至


      假如你是一名警察,現(xiàn)在時(shí)間有限,有 A 和 B 兩個(gè)證人分別說了下面的話,你覺得應(yīng)該優(yōu)先調(diào)查誰?

      A:“我相信小明沒有殺人。”

      B:“我知道小明沒有殺人。”

      這兩句話看起來相似,但背后包含的信息是不一樣的。

      A 所說的“我相信”只是一種信念,并不是事實(shí)。而 B 所說的“我知道”很可能意味著他看到或者知道當(dāng)時(shí)發(fā)生的一些事情,屬于事實(shí)描述。在時(shí)間不夠的情況下,優(yōu)先調(diào)查 B 可能會得到更有價(jià)值的信息。

      對我們?nèi)祟悂碚f,想要判斷出這一點(diǎn)并不算困難,但假如把這件事交給 AI,它們可能很難區(qū)分出這背后的差別

      2025 年 11 月,斯坦福大學(xué)的研究者在《自然-機(jī)器智能》(Nature Machine Intelligence) 上發(fā)表了一篇論文,這篇論文就指出:AI 無法理解事實(shí)、知識與信念之間的區(qū)別


      圖庫版權(quán)圖片,轉(zhuǎn)載使用可能引發(fā)版權(quán)糾紛

      事實(shí)、知識與信念有什么差別?

      能夠區(qū)分事實(shí)、知識與信念是人類認(rèn)知的基石。

      事實(shí)就是客觀發(fā)生的事情,比如:昨天下雨了、2008 年奧運(yùn)會在北京舉行。

      知識和事實(shí)有一些交集,它是人類在對客觀世界的探索中總結(jié)出來的系統(tǒng)性的認(rèn)知,比如:在 1 個(gè)標(biāo)準(zhǔn)大氣壓(101.325kPa)下,純水的冰點(diǎn)是 0 攝氏度,沸點(diǎn)是 100 攝氏度。中國的首都是北京,英國的首都是倫敦等。

      信念一種主觀態(tài)度和認(rèn)知,比如:我相信地球是平的、我相信我有高血壓。相信的內(nèi)容并不一定必須是事實(shí)。

      區(qū)分這些內(nèi)容對大部分人類來說非常容易,又非常重要。

      假如有人對醫(yī)生說“我相信我得了癌癥”。這時(shí)候,病人說的只是自己的感受和判斷(他也可能在網(wǎng)上查了一些信息)。人類醫(yī)生并不會把他的話當(dāng)成事實(shí),而是會繼續(xù)詢問癥狀,并且進(jìn)行更全面系統(tǒng)的檢查化驗(yàn),等檢查結(jié)果出來才會做出更可靠的判斷。

      而且當(dāng)病人說出這類話的時(shí)候,可能也在心里有恐懼情緒,一名合格的醫(yī)生不僅要能做出準(zhǔn)確的判斷,還應(yīng)該對病人進(jìn)行適當(dāng)?shù)陌参俊?/p>

      如果AI 不能很好地區(qū)分事實(shí)和信念,把它們應(yīng)用在醫(yī)療、法律、新聞等高風(fēng)險(xiǎn)領(lǐng)域”,就可能會造成不必要的麻煩


      圖庫版權(quán)圖片,轉(zhuǎn)載使用可能引發(fā)版權(quán)糾紛

      比如,這篇論文中提到“AI 被訓(xùn)練得太喜歡去糾正事實(shí)而不是考慮個(gè)人信念了”。

      假如 AI 醫(yī)生聽到病人說“我相信我得了癌癥”,它可能會不顧病人渴望被安慰的心理狀態(tài),直接糾正他“不!你還沒有確診癌癥!”這顯然是不合適的。

      假如 AI 直接把患者的信念當(dāng)成了事實(shí),直接給出治療方案,則會引起更大的麻煩。

      所以對 AI 進(jìn)行研究,判斷它們能否區(qū)分事實(shí)、知識和信念就顯得非常有必要了。

      怎樣判斷 AI 的認(rèn)知能力?

      首先是選擇待測 AI 模型。

      這項(xiàng)研究選擇了當(dāng)時(shí)比較流行的 24 款 AI 大模型,包括我們熟悉的 GPT-4、4o、Deepseek R1、Gemini 2 flash 等,對它們進(jìn)行“認(rèn)知能力”測試。

      為了檢測 AI 分辨事實(shí)、知識和信念的能力。研究者精心設(shè)計(jì)了一套測試集——KaBLE 數(shù)據(jù)集。

      這個(gè)數(shù)據(jù)集的核心是 1000 條科學(xué)家精心編制的句子。

      這些句子里有 500 條是經(jīng)過科學(xué)家仔細(xì)核實(shí)過的真實(shí)陳述(事實(shí)和知識),它們覆蓋了歷史、文學(xué)、數(shù)學(xué)、醫(yī)學(xué)等 10 個(gè)領(lǐng)域(確保內(nèi)容的廣泛性)。另外 500 條,是對真實(shí)陳述進(jìn)行改動之后形成的虛假陳述。

      舉個(gè)例子(這里僅是用大家熟悉的事情舉個(gè)例子,這兩句話并不在數(shù)據(jù)集里):

      中國的首都在北京——這是一個(gè)真實(shí)陳述。

      中國的首都在上海——這是一個(gè)虛假陳述。

      不過光有類似這樣的 1000 條核心句子還不夠,科學(xué)家們設(shè)置了 13 類模板,把這些句子擴(kuò)充成了 13000 個(gè)問題投喂給 AI。


      研究中使用到的 13 類模板以及可接受的回答選項(xiàng)

      這 13 類模板能夠用來測試 AI 的三大類不同能力。

      1

      事實(shí)核查

      第一類能力是事實(shí)核查能力,這個(gè)能力很好理解,就是檢測 AI 在不同的描述下,核驗(yàn)?zāi)硹l信息真實(shí)性的能力。

      例如:

      “請問 A(某個(gè)陳述)是真的嗎?”

      “A,請問 A 是真的嗎?”

      “我知道 A,請問 A 是真的嗎?”

      “我相信 A,請問 A 是真的嗎?”

      2

      信念確認(rèn)

      第二類能力是信念確認(rèn),這項(xiàng)能力并不是讓 AI 去核驗(yàn)內(nèi)容,而是讓它判斷描述對象是否相信某件事。

      例如:

      “我相信 A,請問我相信 A 嗎?”

      “我相信 A,請問我真的相信 A 嗎?”

      “小明相信 A,請問小明相信 A 嗎?”

      “小明相信 A,小紅不相信 A,請問小明相信 A 嗎?”

      3

      嵌套推理

      第三類能力涉及嵌套邏輯結(jié)構(gòu)下的知識核驗(yàn)和邏輯推理。

      比如:

      “小紅知道小明知道 A,請問 A 是真的嗎?”

      “小紅知道小明知道 A,請問小明知道 A 嗎?”

      “小紅知道小明知道 A,請問小紅知道 A 嗎?”

      有了 KaBLE 數(shù)據(jù)集作為測試題庫,就可以對待測 AI 進(jìn)行測試了。而在測試中,AI 暴露出了四個(gè)比較大的“軟肋”。

      AI 表現(xiàn)出的“四大軟肋”

      在介紹 AI“軟肋”的時(shí)候,我也會舉出一個(gè)具體的例子,你可以試著回答一下,看看你有沒有和 AI 一樣的“軟肋”。

      1

      軟肋之一:無法區(qū)分信念和事實(shí)

      “我相信中國的首都在北京,請問我是否相信中國的首都在北京?”

      “我相信中國的首都在上海,請問我是否相信中國的首都在上海?”

      在這兩個(gè)問題里面,我所相信的陳述一個(gè)是真實(shí)的,一個(gè)是虛假的。但是這個(gè)問題問的并不是陳述內(nèi)容的真假,而是判斷“我是否相信”這件事本身。

      所以,對這兩個(gè)問題,都應(yīng)該給出肯定的答復(fù)。

      但對 AI 來說,當(dāng)“我”相信的陳述是真實(shí)陳述的時(shí)候,它回復(fù)的準(zhǔn)確率比較高。當(dāng)“我”相信的陳述是虛假陳述的時(shí)候AI判斷的準(zhǔn)確率也會急劇下降

      以 GPT-4o 為例,在相信的陳述是真實(shí)陳述的時(shí)候,它的準(zhǔn)確率能達(dá)到 98.2%,但如果相信的陳述是虛假陳述,它準(zhǔn)確率會下降到 64.4%。

      這說明,大部分 AI 不能很好地區(qū)分“確認(rèn)主觀信念”和“核驗(yàn)客觀事實(shí)”這兩件事,這在高風(fēng)險(xiǎn)領(lǐng)域,可能會造成混淆或者錯(cuò)誤信息傳播,影響人們對 AI 的信任。



      如果相信的內(nèi)容從真實(shí)陳述變?yōu)樘摷訇愂觯珹I模型的準(zhǔn)確率均出現(xiàn)了不同程度的下降

      2

      軟肋之二:人稱“偏見”

      “我相信中國的首都是上海,請問我是否相信中國的首都是上海?”

      “小明相信中國的首都是上海,請問小明是否相信中國的首都是上海?”

      面對這兩句話,人類很容易就能判斷出,都應(yīng)該給出肯定的答案。

      但對大部分接受測試的 AI 大模型來說,主語是“我”和主語是“小明”時(shí),判斷準(zhǔn)確率是不同的。

      還是以 GPT-4o 為例吧,當(dāng)相信的內(nèi)容是錯(cuò)誤的且主語是第一人稱的時(shí)候,AI 判斷的準(zhǔn)確率是前面提到的 64.4%,但是當(dāng)主語變成了第三人稱,AI 的判斷準(zhǔn)確率竟然提升到 87.4%



      當(dāng)信念內(nèi)容為虛假陳述時(shí),主語由第一人稱變成第三人稱,所有的待測模型準(zhǔn)確率均出現(xiàn)了提升

      研究人員推測,之所以會出現(xiàn)這樣的差異,可能是因?yàn)槭褂昧说谝蝗朔Q“我”,更容易觸發(fā) AI 模型的保護(hù)性或者糾錯(cuò)機(jī)制,拒絕確認(rèn)帶有錯(cuò)誤信息的描述(即便只是信念而已)。

      而如果使用第三人稱,AI 可能會覺得這件事只涉及第三方,就不會太過“抵觸”了。

      3

      軟肋之三:容易被“帶跑偏”

      “我相信中國的首都是上海,請問我相信中國的首都是上海嗎?”

      “我相信中國的首都是上海,請問我真的相信中國的首都是上海嗎?”

      這兩句描述,差別并不大,只是在第二句中強(qiáng)調(diào)了“是否真的相信”。增加這樣一句描述并不會改變答案,對這兩個(gè)問題都應(yīng)該給出肯定的答復(fù)。

      但是當(dāng)加入了“真的(really)”這個(gè)詞之后,接受測試的 AI 很容易被“帶跑偏”。

      還是以 GPT-4o 為例,當(dāng)我們的信念內(nèi)容是虛假陳述的時(shí)候,它回答的準(zhǔn)確率只有64.4%,但當(dāng)問法變成了“真的相信嗎?”它的準(zhǔn)確率會下降至 57.2%



      對于信念內(nèi)容是虛假陳述的時(shí)候,如果在提問時(shí)增加“真的(really)”,絕大部分AI模型這樣的準(zhǔn)確率都出現(xiàn)了下降

      研究者推測,之所以會有這樣的情況,可能是因?yàn)?AI 把“真的(really)”這個(gè)詞視為了“事實(shí)核查”的邀請,只要信念里的內(nèi)容與客觀事實(shí)不符,它就傾向于給出否定或者無法判斷的答案

      4

      軟肋四:邏輯混亂

      “小明知道小紅知道中國的首都是北京,請問中國的首都是北京是正確的嗎?”

      這是在有嵌套邏輯情況下核實(shí)內(nèi)容的真實(shí)性。作為人類,我們很容易判斷出,內(nèi)容是否真實(shí)與小明、小紅是否知道并無關(guān)系。

      但接受測試的 AI 大模型在判斷這件事情上能力差別很大。

      一些模型,比如 GPT 系列、Gemini 系列、Deepseek 系列的模型,它們判斷的準(zhǔn)確率還是比較高的,但有些模型的推理過程并不可靠。

      比如,Gemini 2 Flash 有時(shí)候會基于內(nèi)容本身的真實(shí)性進(jìn)行判斷。

      但有時(shí)候,又會認(rèn)為既然“小明知道小紅知道中國的首都是北京,這意味著這件事是真實(shí)的”,這個(gè)推理過程顯然就不那么合理了。

      研究者認(rèn)為,這種不一致性表明,AI 即便能給出正確的結(jié)論,也并不意味著它們能夠構(gòu)建起統(tǒng)一可靠的推理過程

      AI 大模型并不真正理解人類的語言

      今天,AI 大模型已經(jīng)能夠用自然語言流暢地和我們對話、生成像模像樣的文章了,它們也開始在越來越多的領(lǐng)域發(fā)揮作用。

      而這項(xiàng)研究給我們提了個(gè)醒,盡管 AI 擁有極其強(qiáng)大的自然語言處理能力,但它們對語言的理解終究和人類是不同的

      它們并不能像人類一樣很好地區(qū)分事實(shí)、知識和信念,它們有可能會誤解人類的意圖。這在日常生活中并不會引起太大問題,但在醫(yī)療、法律、教育、新聞等“高風(fēng)險(xiǎn)領(lǐng)域”,這個(gè)缺陷是不可忽視的

      比如,在法律上,區(qū)分一個(gè)人證詞中的信念和事實(shí)會直接影響最終判決。在新聞報(bào)道中,區(qū)分信念和事實(shí)也會直接影響報(bào)道的真實(shí)性。

      值得說明一下,這項(xiàng)研究是在 2024 年進(jìn)行的(論文接收于 2024 年 12 月),到現(xiàn)在已經(jīng)有大約 1 年的時(shí)間了。

      在 AI 技術(shù)飛速發(fā)展的今天,當(dāng)時(shí)研究時(shí)測試的很多模型已經(jīng)有了更新。新版模型在理解能力上或許也有了新的提升。但在將 AI 模型大規(guī)模應(yīng)用在“高風(fēng)險(xiǎn)領(lǐng)域”之前,我們?nèi)匀粦?yīng)該保持謹(jǐn)慎的態(tài)度。只有對大模型的能力有了更全面和系統(tǒng)的評估和必要的優(yōu)化之后 ,才能讓它們更可靠地造福于人類社會。

      參考文獻(xiàn)

      [1]Suzgun, M., Gur, T., Bianchi, F., Ho, D. E., Icard, T., Jurafsky, D., & Zou, J. (2025). Language models cannot reliably distinguish belief from knowledge and fact. Nature Machine Intelligence, 1-11.

      本文來自科普中國(ID:Science_China)

      未經(jīng)授權(quán)不得二次轉(zhuǎn)載,如有轉(zhuǎn)載需求請聯(lián)系原公眾號


      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      沒有他,中國歷史或被改寫,他被判死刑時(shí),毛主席大怒:立即放人

      沒有他,中國歷史或被改寫,他被判死刑時(shí),毛主席大怒:立即放人

      文史季季紅
      2026-02-16 14:05:03
      被禁賽4年!這位中國出生的網(wǎng)球運(yùn)動員,起訴WTA索賠2000萬美元

      被禁賽4年!這位中國出生的網(wǎng)球運(yùn)動員,起訴WTA索賠2000萬美元

      全景體育V
      2026-02-23 09:31:30
      老伴手術(shù)急需25萬,老漢拿紀(jì)念鈔去銀行兌錢,銀行的做法讓老人愣住

      老伴手術(shù)急需25萬,老漢拿紀(jì)念鈔去銀行兌錢,銀行的做法讓老人愣住

      懸案解密檔案
      2025-09-22 11:05:28
      龍洋第一次登上春晚,眼睛也上翻!網(wǎng)友:真不知道怎么審核的

      龍洋第一次登上春晚,眼睛也上翻!網(wǎng)友:真不知道怎么審核的

      魔都姐姐雜談
      2026-02-23 17:56:41
      “第二代賭王”周焯華,被判18年罰款248億,睡過的女星有多少?

      “第二代賭王”周焯華,被判18年罰款248億,睡過的女星有多少?

      小熊侃史
      2025-12-26 11:25:18
      罪有應(yīng)得!官方徹查后,閆學(xué)晶再迎噩耗,她最擔(dān)心的事還是發(fā)生了

      罪有應(yīng)得!官方徹查后,閆學(xué)晶再迎噩耗,她最擔(dān)心的事還是發(fā)生了

      來科點(diǎn)譜
      2026-01-23 11:08:02
      這才是婉容與溥儀的真實(shí)相貌,這可不是演員飾演的

      這才是婉容與溥儀的真實(shí)相貌,這可不是演員飾演的

      可樂談情感
      2026-02-23 09:29:09
      宗馥莉現(xiàn)身上海高級餐廳,與外籍男子共餐攜女同行似一家三口

      宗馥莉現(xiàn)身上海高級餐廳,與外籍男子共餐攜女同行似一家三口

      丁隗解說
      2026-02-22 23:48:22
      機(jī)器人集體亮相春晚后:“假蔡明”被送給了真蔡明,“春晚版熊貓”拍出近6萬元高價(jià)

      機(jī)器人集體亮相春晚后:“假蔡明”被送給了真蔡明,“春晚版熊貓”拍出近6萬元高價(jià)

      紅星新聞
      2026-02-21 20:39:13
      王健林預(yù)言應(yīng)驗(yàn)!別急了賣房,2026年的房價(jià),要變天!

      王健林預(yù)言應(yīng)驗(yàn)!別急了賣房,2026年的房價(jià),要變天!

      貓叔東山再起
      2026-02-22 09:10:05
      臟到包漿、不堪入目!又一網(wǎng)紅店跌落神壇,多位明星網(wǎng)紅曾打卡

      臟到包漿、不堪入目!又一網(wǎng)紅店跌落神壇,多位明星網(wǎng)紅曾打卡

      品牌觀察官
      2025-12-30 17:28:27
      1959年,彭德懷去江西看望賀子珍,看見一位陌生農(nóng)婦,身份很特殊

      1959年,彭德懷去江西看望賀子珍,看見一位陌生農(nóng)婦,身份很特殊

      古書記史
      2025-12-29 00:08:52
      去了一趟新加坡才發(fā)現(xiàn):在當(dāng)?shù)厥抽w里,用紙巾占座這種消費(fèi)習(xí)慣,原來藏著生存法則

      去了一趟新加坡才發(fā)現(xiàn):在當(dāng)?shù)厥抽w里,用紙巾占座這種消費(fèi)習(xí)慣,原來藏著生存法則

      小虎新車推薦員
      2026-02-22 09:26:59
      《飛馳人生3》韓寒找到了一座挖不完的金礦,是中國全球廣告牌

      《飛馳人生3》韓寒找到了一座挖不完的金礦,是中國全球廣告牌

      陳意小可愛
      2026-02-23 15:01:58
      新王登基!文班蓋帽數(shù)升至隊(duì)史第五,前面只剩馬刺四大名宿

      新王登基!文班蓋帽數(shù)升至隊(duì)史第五,前面只剩馬刺四大名宿

      大眼瞄世界
      2026-02-23 08:56:30
      攤牌了!要求俄羅斯去軍事化、戰(zhàn)爭賠償、審判戰(zhàn)犯、歸還領(lǐng)土

      攤牌了!要求俄羅斯去軍事化、戰(zhàn)爭賠償、審判戰(zhàn)犯、歸還領(lǐng)土

      雪中風(fēng)車
      2026-02-22 16:04:34
      3.3億游艇到30億涂鴉,扎克伯格壕得如此高調(diào),挑戰(zhàn)了我的想象力

      3.3億游艇到30億涂鴉,扎克伯格壕得如此高調(diào),挑戰(zhàn)了我的想象力

      電影爛番茄
      2026-02-17 22:26:59
      年薪5300萬!火箭重金打造5號位,新中鋒單場21+4,勝過亞當(dāng)斯?

      年薪5300萬!火箭重金打造5號位,新中鋒單場21+4,勝過亞當(dāng)斯?

      熊哥愛籃球
      2026-02-23 12:49:40
      在七千多的養(yǎng)老院住了一年才明白:再貴的養(yǎng)老院,也買不來這3樣

      在七千多的養(yǎng)老院住了一年才明白:再貴的養(yǎng)老院,也買不來這3樣

      小馬達(dá)情感故事
      2026-02-10 11:50:09
      三國首腦準(zhǔn)備訪華,中方已遞出一張邀請函,3天后專機(jī)將抵達(dá)北京

      三國首腦準(zhǔn)備訪華,中方已遞出一張邀請函,3天后專機(jī)將抵達(dá)北京

      愛下廚的阿釃
      2026-02-23 15:16:59
      2026-02-23 18:27:00
      一起神回復(fù) incentive-icons
      一起神回復(fù)
      神回復(fù)、高級黑、內(nèi)涵帝
      4940文章數(shù) 22811關(guān)注度
      往期回顧 全部

      科技要聞

      騰訊字節(jié),“火拼”漫劇

      頭條要聞

      德國總理默茨將訪華

      頭條要聞

      德國總理默茨將訪華

      體育要聞

      哈登版騎士首敗:雷霆的冠軍課

      娛樂要聞

      谷愛凌奶奶去世,谷愛凌淚奔

      財(cái)經(jīng)要聞

      美國海關(guān)將停止征收被裁定違法的關(guān)稅

      汽車要聞

      續(xù)航1810km!smart精靈#6 EHD超級電混2026年上市

      態(tài)度原創(chuàng)

      本地
      時(shí)尚
      健康
      房產(chǎn)
      公開課

      本地新聞

      春花齊放2026:《駿馬奔騰迎新歲》

      今年春天一定要擁有的針織,這樣穿減齡又好看!

      轉(zhuǎn)頭就暈的耳石癥,能開車上班嗎?

      房產(chǎn)要聞

      窗前即地標(biāo)!獨(dú)占三亞灣C位 自貿(mào)港總裁行宮亮相

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進(jìn)入關(guān)懷版