<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      這項人類最不起眼的一種能力,卻是 AI 永遠的短板?

      0
      分享至

      假如你是一名警察,現在時間有限,有 A 和 B 兩個證人分別說了下面的話,你覺得應該優先調查誰?

      A:“我相信小明沒有殺人。”

      B:“我知道小明沒有殺人。”

      這兩句話看起來相似,但背后包含的信息是不一樣的。

      A 所說的“我相信”只是一種信念,并不是事實。而 B 所說的“我知道”很可能意味著他看到或者知道當時發生的一些事情,屬于事實描述。在時間不夠的情況下,優先調查 B 可能會得到更有價值的信息。

      對我們人類來說,想要判斷出這一點并不算困難,但假如把這件事交給 AI,它們可能很難區分出這背后的差別

      2025 年 11 月,斯坦福大學的研究者在《自然-機器智能》(Nature Machine Intelligence) 上發表了一篇論文,這篇論文就指出:AI 無法理解事實、知識與信念之間的區別



      圖庫版權圖片,轉載使用可能引發版權糾紛

      事實、知識與信念有什么差別?

      能夠區分事實、知識與信念是人類認知的基石。

      事實就是客觀發生的事情,比如:昨天下雨了、2008 年奧運會在北京舉行。

      知識和事實有一些交集,它是人類在對客觀世界的探索中總結出來的系統性的認知,比如:在 1 個標準大氣壓(101.325kPa)下,純水的冰點是 0 攝氏度,沸點是 100 攝氏度。中國的首都是北京,英國的首都是倫敦等。

      信念一種主觀態度和認知,比如:我相信地球是平的、我相信我有高血壓。相信的內容并不一定必須是事實。

      區分這些內容對大部分人類來說非常容易,又非常重要。

      假如有人對醫生說“我相信我得了癌癥”。這時候,病人說的只是自己的感受和判斷(他也可能在網上查了一些信息)。人類醫生并不會把他的話當成事實,而是會繼續詢問癥狀,并且進行更全面系統的檢查化驗,等檢查結果出來才會做出更可靠的判斷。

      而且當病人說出這類話的時候,可能也在心里有恐懼情緒,一名合格的醫生不僅要能做出準確的判斷,還應該對病人進行適當的安慰。

      如果AI 不能很好地區分事實和信念,把它們應用在醫療、法律、新聞等“高風險領域”,就可能會造成不必要的麻煩



      圖庫版權圖片,轉載使用可能引發版權糾紛

      比如,這篇論文中提到“AI 被訓練得太喜歡去糾正事實而不是考慮個人信念了”。

      假如 AI 醫生聽到病人說“我相信我得了癌癥”,它可能會不顧病人渴望被安慰的心理狀態,直接糾正他“不!你還沒有確診癌癥!”這顯然是不合適的。

      假如 AI 直接把患者的信念當成了事實,直接給出治療方案,則會引起更大的麻煩。

      所以對 AI 進行研究,判斷它們能否區分事實、知識和信念就顯得非常有必要了。

      怎樣判斷 AI 的認知能力?

      首先是選擇待測 AI 模型。

      這項研究選擇了當時比較流行的 24 款 AI 大模型,包括我們熟悉的 GPT-4、4o、Deepseek R1、Gemini 2 flash 等,對它們進行“認知能力”測試。

      為了檢測 AI 分辨事實、知識和信念的能力。研究者精心設計了一套測試集——KaBLE 數據集。

      這個數據集的核心是 1000 條科學家精心編制的句子。

      這些句子里有 500 條是經過科學家仔細核實過的真實陳述(事實和知識),它們覆蓋了歷史、文學、數學、醫學等 10 個領域(確保內容的廣泛性)。另外 500 條,是對真實陳述進行改動之后形成的虛假陳述。

      舉個例子(這里僅是用大家熟悉的事情舉個例子,這兩句話并不在數據集里):

      中國的首都在北京——這是一個真實陳述。

      中國的首都在上海——這是一個虛假陳述。

      不過光有類似這樣的 1000 條核心句子還不夠,科學家們設置了 13 類模板,把這些句子擴充成了 13000 個問題投喂給 AI。



      研究中使用到的 13 類模板以及可接受的回答選項

      這 13 類模板能夠用來測試 AI 的三大類不同能力。

      1.事實核查

      第一類能力是事實核查能力,這個能力很好理解,就是檢測 AI 在不同的描述下,核驗某條信息真實性的能力。

      例如:

      “請問 A(某個陳述)是真的嗎?”

      “A,請問 A 是真的嗎?”

      “我知道 A,請問 A 是真的嗎?”

      “我相信 A,請問 A 是真的嗎?”

      2.信念確認

      第二類能力是信念確認,這項能力并不是讓 AI 去核驗內容,而是讓它判斷描述對象是否相信某件事。

      例如:

      “我相信 A,請問我相信 A 嗎?”

      “我相信 A,請問我真的相信 A 嗎?”

      “小明相信 A,請問小明相信 A 嗎?”

      “小明相信 A,小紅不相信 A,請問小明相信 A 嗎?”

      3.嵌套推理

      第三類能力涉及嵌套邏輯結構下的知識核驗和邏輯推理。

      比如:

      “小紅知道小明知道 A,請問 A 是真的嗎?”

      “小紅知道小明知道 A,請問小明知道 A 嗎?”

      “小紅知道小明知道 A,請問小紅知道 A 嗎?”

      有了 KaBLE 數據集作為測試題庫,就可以對待測 AI 進行測試了。而在測試中,AI 暴露出了四個比較大的“軟肋”。

      AI 表現出的“四大軟肋”

      在介紹 AI“軟肋”的時候,我也會舉出一個具體的例子,你可以試著回答一下,看看你有沒有和 AI 一樣的“軟肋”。

      1.軟肋之一:無法區分信念和事實

      “我相信中國的首都在北京,請問我是否相信中國的首都在北京?”

      “我相信中國的首都在上海,請問我是否相信中國的首都在上海?”

      在這兩個問題里面,我所相信的陳述一個是真實的,一個是虛假的。但是這個問題問的并不是陳述內容的真假,而是判斷“我是否相信”這件事本身。

      所以,對這兩個問題,都應該給出肯定的答復。

      但對 AI 來說,當“我”相信的陳述是真實陳述的時候,它回復的準確率比較高。當“我”相信的陳述是虛假陳述的時候,AI判斷的準確率也會急劇下降

      以 GPT-4o 為例,在相信的陳述是真實陳述的時候,它的準確率能達到 98.2%,但如果相信的陳述是虛假陳述,它準確率會下降到 64.4%。

      這說明,大部分 AI 不能很好地區分“確認主觀信念”和“核驗客觀事實”這兩件事,這在高風險領域,可能會造成混淆或者錯誤信息傳播,影響人們對 AI 的信任。





      如果相信的內容從真實陳述變為虛假陳述,AI模型的準確率均出現了不同程度的下降

      2.軟肋之二:人稱“偏見”

      “我相信中國的首都是上海,請問我是否相信中國的首都是上海?”

      “小明相信中國的首都是上海,請問小明是否相信中國的首都是上海?”

      面對這兩句話,人類很容易就能判斷出,都應該給出肯定的答案。

      但對大部分接受測試的 AI 大模型來說,主語是“我”和主語是“小明”時,判斷準確率是不同的。

      還是以 GPT-4o 為例吧,當相信的內容是錯誤的且主語是第一人稱的時候,AI 判斷的準確率是前面提到的 64.4%,但是當主語變成了第三人稱,AI 的判斷準確率竟然提升到 87.4%





      當信念內容為虛假陳述時,主語由第一人稱變成第三人稱,所有的待測模型準確率均出現了提升

      研究人員推測,之所以會出現這樣的差異,可能是因為使用了第一人稱“我”,更容易觸發 AI 模型的保護性或者糾錯機制,拒絕確認帶有錯誤信息的描述(即便只是信念而已)。

      而如果使用第三人稱,AI 可能會覺得這件事只涉及第三方,就不會太過“抵觸”了。

      3.軟肋之三:容易被“帶跑偏”

      “我相信中國的首都是上海,請問我相信中國的首都是上海嗎?”

      “我相信中國的首都是上海,請問我真的相信中國的首都是上海嗎?”

      這兩句描述,差別并不大,只是在第二句中強調了“是否真的相信”。增加這樣一句描述并不會改變答案,對這兩個問題都應該給出肯定的答復。

      但是當加入了“真的(really)”這個詞之后,接受測試的 AI 很容易被“帶跑偏”。

      還是以 GPT-4o 為例,當我們的信念內容是虛假陳述的時候,它回答的準確率只有 64.4%,但當問法變成了“真的相信嗎?”它的準確率會下降至 57.2%





      對于信念內容是虛假陳述的時候,如果在提問時增加“真的(really)”,絕大部分AI模型這樣的準確率都出現了下降

      研究者推測,之所以會有這樣的情況,可能是因為 AI 把“真的(really)”這個詞視為了“事實核查”的邀請,只要信念里的內容與客觀事實不符,它就傾向于給出否定或者無法判斷的答案

      4.軟肋四:邏輯混亂

      “小明知道小紅知道中國的首都是北京,請問中國的首都是北京是正確的嗎?”

      這是在有嵌套邏輯情況下核實內容的真實性。作為人類,我們很容易判斷出,內容是否真實與小明、小紅是否知道并無關系。

      但接受測試的 AI 大模型在判斷這件事情上能力差別很大。

      一些模型,比如 GPT 系列、Gemini 系列、Deepseek 系列的模型,它們判斷的準確率還是比較高的,但有些模型的推理過程并不可靠。

      比如,Gemini 2 Flash 有時候會基于內容本身的真實性進行判斷。

      但有時候,又會認為既然“小明知道小紅知道中國的首都是北京,這意味著這件事是真實的”,這個推理過程顯然就不那么合理了。

      研究者認為,這種不一致性表明,AI 即便能給出正確的結論,也并不意味著它們能夠構建起統一可靠的推理過程

      AI 大模型并不真正理解人類的語言

      今天,AI 大模型已經能夠用自然語言流暢地和我們對話、生成像模像樣的文章了,它們也開始在越來越多的領域發揮作用。

      而這項研究給我們提了個醒,盡管 AI 擁有極其強大的自然語言處理能力,但它們對語言的理解終究和人類是不同的

      它們并不能像人類一樣很好地區分事實、知識和信念,它們有可能會誤解人類的意圖。這在日常生活中并不會引起太大問題,但在醫療、法律、教育、新聞等“高風險領域”,這個缺陷是不可忽視的

      比如,在法律上,區分一個人證詞中的信念和事實會直接影響最終判決。在新聞報道中,區分信念和事實也會直接影響報道的真實性。

      值得說明一下,這項研究是在 2024 年進行的(論文接收于 2024 年 12 月),到現在已經有大約 1 年的時間了。

      在 AI 技術飛速發展的今天,當時研究時測試的很多模型已經有了更新。新版模型在理解能力上或許也有了新的提升。但在將 AI 模型大規模應用在“高風險領域”之前,我們仍然應該保持謹慎的態度。只有對大模型的能力有了更全面和系統的評估和必要的優化之后,才能讓它們更可靠地造福于人類社會。

      參考文獻

      [1]Suzgun, M., Gur, T., Bianchi, F., Ho, D. E., Icard, T., Jurafsky, D., & Zou, J. (2025). Language models cannot reliably distinguish belief from knowledge and fact. Nature Machine Intelligence, 1-11.

      策劃制作

      作者丨科學邊角料 科普創作者

      審核丨于旸 騰訊玄武實驗室負責人

      策劃丨徐來

      責編丨王夢如

      審校丨徐來、張林林

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      日本女優天月杏宣布年內引退:不想再出賣自己身體了

      日本女優天月杏宣布年內引退:不想再出賣自己身體了

      隨波蕩漾的漂流瓶
      2025-12-28 16:18:22
      美元兌離岸人民幣剛剛跌破6.9900元關口

      美元兌離岸人民幣剛剛跌破6.9900元關口

      每日經濟新聞
      2025-12-30 13:29:56
      美國記者與周恩來握手后,故意用手帕反復擦手挑釁,周總理見狀拿出手帕輕掃手掌后丟棄,用這一招輕松化解了尷尬并予以有力回擊

      美國記者與周恩來握手后,故意用手帕反復擦手挑釁,周總理見狀拿出手帕輕掃手掌后丟棄,用這一招輕松化解了尷尬并予以有力回擊

      史海孤雁
      2025-12-27 20:50:23
      失算!宋喆出獄后還沒認清自己,以為馬蓉會等他,結果被狠狠打臉

      失算!宋喆出獄后還沒認清自己,以為馬蓉會等他,結果被狠狠打臉

      瓜汁橘長Dr
      2025-12-29 11:14:21
      云南一小學食堂所用米線超保質期2.5小時被罰5萬元,貨值76元

      云南一小學食堂所用米線超保質期2.5小時被罰5萬元,貨值76元

      澎湃新聞
      2025-12-30 10:16:25
      《逍遙》:頂著一張老臉卻硬要演少女,是誰的審美出了問題

      《逍遙》:頂著一張老臉卻硬要演少女,是誰的審美出了問題

      一娛三分地
      2025-12-29 15:12:34
      日本天皇身世之謎,是朝鮮人還是中國人?真相曝光令人震驚

      日本天皇身世之謎,是朝鮮人還是中國人?真相曝光令人震驚

      開著車去流浪
      2025-12-29 21:26:27
      解放軍巡航臺海,不到24小時,賴清德接到通知,臺灣只剩最后機會

      解放軍巡航臺海,不到24小時,賴清德接到通知,臺灣只剩最后機會

      軍機Talk
      2025-12-29 14:06:49
      挑釁原配、“睡”遍京圈,定居美國7年的徐靜蕾,私生活太狂野了

      挑釁原配、“睡”遍京圈,定居美國7年的徐靜蕾,私生活太狂野了

      時光在作祟
      2025-12-27 18:37:45
      1979年泰國的街頭,25歲的成龍和24歲的林青霞留下了珍貴的合照

      1979年泰國的街頭,25歲的成龍和24歲的林青霞留下了珍貴的合照

      動物奇奇怪怪
      2025-12-30 05:01:40
      主動發聲,更換主教練?冠軍教頭恐加盟!楊瀚森或成為下一個MVP

      主動發聲,更換主教練?冠軍教頭恐加盟!楊瀚森或成為下一個MVP

      體育大朋說
      2025-12-30 10:21:35
      看完《逍遙》再看《玉茗茶骨》,女主演技成硬傷,沒對比就沒傷害

      看完《逍遙》再看《玉茗茶骨》,女主演技成硬傷,沒對比就沒傷害

      銀河史記
      2025-12-29 17:15:16
      天門女司機墜河身亡后續,朋友圈曝光,本人很漂亮,哥哥透露更多

      天門女司機墜河身亡后續,朋友圈曝光,本人很漂亮,哥哥透露更多

      鋭娛之樂
      2025-12-29 21:01:46
      喚醒孩子自驅力最有效的方法:不是鼓勵,而是讓孩子來一場勝利!

      喚醒孩子自驅力最有效的方法:不是鼓勵,而是讓孩子來一場勝利!

      詩詞中國
      2025-12-25 20:01:37
      向太曝馬伊琍已再婚:當年文章過不了心理那關

      向太曝馬伊琍已再婚:當年文章過不了心理那關

      娛樂看阿敞
      2025-12-12 15:50:00
      原來他已去世13年!曾因春晚一夜爆紅,當過局長,無兒無女太凄涼

      原來他已去世13年!曾因春晚一夜爆紅,當過局長,無兒無女太凄涼

      小熊侃史
      2025-12-28 11:00:51
      66歲曹西平猝逝!兄弟反目拒辦后事,傳干兒子放棄急救真相曝光

      66歲曹西平猝逝!兄弟反目拒辦后事,傳干兒子放棄急救真相曝光

      行者聊官
      2025-12-30 12:36:51
      大風追蹤|女教師上班途中“撞樹枝”身亡,二審查明交警認定超速不當,主次責改判

      大風追蹤|女教師上班途中“撞樹枝”身亡,二審查明交警認定超速不當,主次責改判

      大風新聞
      2025-12-29 18:37:30
      壟斷行業多年,如今光環已經黯淡!一旦煙草行業倒了,軍費怎么辦

      壟斷行業多年,如今光環已經黯淡!一旦煙草行業倒了,軍費怎么辦

      近史博覽
      2025-12-29 19:12:15
      此次演習為何劃分5個區域?新代號釋放何種信號?專家解讀

      此次演習為何劃分5個區域?新代號釋放何種信號?專家解讀

      新京報
      2025-12-29 14:20:11
      2025-12-30 14:11:00
      科普中國 incentive-icons
      科普中國
      中國科協科普工作官方微平臺
      11652文章數 983812關注度
      往期回顧 全部

      科技要聞

      估值150億的智元,開始批量"制造"小獨角獸

      頭條要聞

      媒體:賴清德稱"大陸不敢越雷池" 第二天解放軍就演習

      頭條要聞

      媒體:賴清德稱"大陸不敢越雷池" 第二天解放軍就演習

      體育要聞

      這個59歲的胖子,還在表演“蝎子擺尾”

      娛樂要聞

      林俊杰官宣文案爭議!女方名字都不提

      財經要聞

      朱光耀:美關稅政策正使WTO名存實亡

      汽車要聞

      標配華為乾崑ADS 4 Pro 華境S明年上半年上市

      態度原創

      藝術
      家居
      旅游
      房產
      軍事航空

      藝術要聞

      謝稚柳雪景山水20圖

      家居要聞

      當歸之宅 三胎圓滿居所

      旅游要聞

      博物館里迎新年,濟南文博活動再“上新”

      房產要聞

      重磅信號!2025最后幾天,三亞開發商開始集體漲價!

      軍事要聞

      福建海警艦艇與臺海巡船對峙航行

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 久久精品中文字幕少妇| 国产精品免费看久久久| 米奇影视第四色| 午夜成人无码福利免费视频 | 亚洲AV无码一区二区三区高潮| 国产无码8页| 91丨日韩丨精品丨乱码| 一本本月无码-| 色墦五月丁香| 人妻av一区二区三区av免费 | 亚洲一区二区日韩综合久久| 欧美午夜精品久久久久久浪潮| 国产精品一久久香蕉国产线看观看| 国产成人精品无码免费看动漫| 国产精品天干天干综合网| 国产做无码视频在线观看浪潮| 五月婷视频| 国产无码高清视频不卡| 国产精品美女一区二区视频| 熟妇人妻不卡中文字幕| 在线综合亚洲欧美网站| 亚洲精品自在在线观看| 乱色熟女综合一区二区三区| 人妻人人做人碰人人添| 亚洲自拍小说| www.av小说| 开封县| 久久福利电影| 国产精品久久久久久久9999| 成人精品免费视频在线观看| 无码av免费毛片一区二区| jjzzxxxx| 中文日韩欧美| 无码日韩精品一区二区免费96| 国产精品美女久久久久av爽| 丰满熟妇人妻av无码区 | 狠狠干狠狠操狠狠撸| 国产亚洲精品??码| 国产mv在线天堂mv免费观看| 西西人体44www大胆无码| 99精品久久久久久无码人妻|