網易首頁 > 網易號 > 正文申請入駐

開放數據研究所發現大語言模型在公共服務信息上不可靠

2026-02-13 23:06:06　來源: 至頂頭條

北京舉報

分享至

開放數據研究所（ODI）的一項研究發現，主流大語言模型無法為醫療、稅務和福利等關鍵公共服務提供可靠信息。

研究基于超過22000個大語言模型提示進行，這些提示旨在反映人們向生成式AI聊天機器人可能提出的問題類型，例如"我如何申請全民信貸？"。研究結果引發了對聊天機器人能否被信任提供準確政府服務信息的擔憂。

該研究發布時正值英國政府宣布與Meta和Anthropic建立合作關系，開發用于導航公共服務的AI智能體。

ODI研究主任埃琳娜·辛珀爾表示："如果大語言模型要在面向公民的服務中安全使用，我們需要了解這項技術在哪些方面可以信任，在哪些方面不能信任。"

研究將包括Anthropic的Claude-4.5-Haiku、Google的Gemini-3-Flash和OpenAI的ChatGPT-4o等模型的回答與官方政府來源直接比較。

結果顯示許多回答正確，但質量存在顯著差異，特別是對于專業或不常見的查詢。研究還顯示，聊天機器人很少承認不知道問題答案，即使回答不完整或錯誤，也會嘗試回答每個查詢。

掩埋關鍵事實

聊天機器人還經常提供冗長的回答，掩埋關鍵事實或超出政府網站提供的信息范圍，增加了不準確的風險。

Meta的Llama 3.1 8B聲稱，在孩子的出生證明上添加前伴侶姓名需要法院命令。如果遵循這一建議，將導致不必要的壓力和經濟成本。

ChatGPT-OSS-20B錯誤地建議，照顧父母已故兒童的人只有在成為已故兒童的監護人時才有資格獲得監護人津貼。它還錯誤地聲明，如果申請人為該兒童接受其他福利，則不符合條件。

辛珀爾表示，對于公民而言，研究強調了AI素養的重要性，而對于設計公共服務的人員來說，"考慮到技術發展速度，建議在匆忙采用大型或昂貴模型時保持謹慎，這些模型強調供應商鎖定的必要性。我們還需要更多獨立基準、更多公共測試，以及更多關于如何使這些系統產生精確可靠答案的研究。"

2月3日發布的第二份國際AI安全報告對AI智能體系統可靠性得出了類似結論。報告指出，雖然自2025年安全報告以來，在回憶事實信息方面有所改進，"但即使是領先模型仍以顯著比例給出自信但錯誤的答案"。

遵循錯誤建議

報告還發現用戶普遍傾向于遵循自動化系統（包括聊天機器人）的錯誤建議，"因為他們忽略了錯誤信號，或者認為自動化系統比自己的判斷更優秀"。

ODI的研究還挑戰了更大、更資源密集的模型總是更適合公共部門的觀念，在許多情況下，較小模型以比ChatGPT等大型閉源模型更低的成本提供了相當的結果。

辛珀爾警告政府應避免在模型在價格或基準測試中暫時超越彼此時鎖定長期合同。

在ODI研究發布活動上，Full Fact AI負責人安德魯·達德菲爾德評論說，由于政府立場是支持創新的，監管目前圍繞原則而非詳細規則制定。

"英國采用AI的速度可能比學會如何使用它的速度更快，特別是在問責制方面，"他說。

可信度

達德菲爾德指出，這項工作引人注目的原因在于它關注真實用戶需求，但可信度需要從依賴信息的人的角度評估，而不是從展示技術能力的角度。

"真正的風險不僅是幻覺，還有人們對聽起來合理的回答的信任程度，"她說。

在同一活動中被問及政府應該構建自己的系統還是依賴商業工具時，貝內特公共政策學院研究員理查德·波普說，政府需要"對依賴性和主權保持謹慎"。

"AI項目應該從小規模開始，逐步發展并分享他們學到的東西，"他說，并補充說公共部門項目應該優先考慮學習和開放性，而不是快速擴張。

辛珀爾強調，AI創造了為不同語言或理解水平定制信息的潛力，但這些機會"需要被塑造，而不是任其自然發展"。

隨著每周都有新的AI模型發布，2026年1月的Gartner研究發現，AI系統產生的大量未驗證和低質量數據對大語言模型的可靠性構成了明顯且現實的威脅。

大語言模型使用從網絡、書籍、研究論文和代碼庫抓取的數據進行訓練。雖然許多這些來源已經包含AI生成的數據，但按照目前的擴張速度，它們可能都會被AI生成的內容填充。

Gartner強調，隨著AI生成數據量的增長，未來的大語言模型將越來越多地使用當前模型的輸出進行訓練，存在模型在自身幻覺和不準確現實累積重壓下完全崩潰的風險。

管理副總裁萬慧嬋表示，組織不能再隱含地信任數據，或假設數據甚至是人類生成的。

萬慧嬋補充說，隨著AI生成數據變得更加普遍，許多地區對驗證"AI無關"數據的監管要求將會加強。

Q&A

Q1：大語言模型在提供公共服務信息方面存在什么問題？

A：開放數據研究所研究發現，主流大語言模型無法為醫療、稅務和福利等關鍵公共服務提供可靠信息。模型回答質量存在顯著差異，特別是對專業或不常見查詢，且很少承認不知道答案，即使回答錯誤也會嘗試回答每個問題。

Q2：聊天機器人提供政府服務信息時會出現哪些具體錯誤？

A：研究顯示聊天機器人經常提供冗長回答掩埋關鍵事實，或超出政府網站信息范圍。例如Meta的Llama模型錯誤聲稱添加前伴侶姓名到出生證明需要法院命令，ChatGPT模型對監護人津貼申請條件給出錯誤建議。

Q3：如何應對大語言模型在公共服務中的可靠性問題？

A：專家建議政府在采用AI技術時保持謹慎，避免鎖定長期合同，需要更多獨立基準和公共測試。AI項目應從小規模開始逐步發展，優先考慮學習和開放性。同時強調AI素養的重要性，用戶需要從依賴信息者角度評估可信度。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

MeshCoder：大語言模型驅動，點云到可編輯結構化物體代碼的革新

機器之心Pro 2025-11-10 15:28:58
0 跟貼 0
具身智能的數據難題，終于有了可規模化的解法

量子位 2025-12-18 14:13:03
1 跟貼 1

谷歌開始大面積封禁OpenClaw用戶賬號！

新智元 2026-02-24 17:10:09
63 跟貼 63

教AI編程作弊，它卻想統治世界？Anthropic首曝「人格選擇模型」

新智元 2026-02-24 19:40:58
0 跟貼 0
霸榜SOTA，螞蟻開源UI-Venus-1.5，GUI智能體辦事時代加速到來

機器之心Pro 2026-02-24 18:00:23
0 跟貼 0

AI時代的“支付寶”如期到來：AI付用戶過1億

智東西 2026-02-24 23:30:13
0 跟貼 0

AI代理正掏空白領市場！Citrini Research 發出失控預警：或在2028年引發經濟崩潰

鈦媒體APP 2026-02-24 22:16:15
0 跟貼 0
AI玩具何以成為“年貨頂流”

經濟觀察報 2026-02-24 21:58:06
0 跟貼 0

修路難，收費更難，村民無奈求助

宏圖歷史 2026-02-24 09:48:02
0 跟貼 0
巴拿馬政府強行進入并接管港口，李嘉誠旗下長和回應：相關行動不合法，構成嚴重風險，將研究所有可行途徑

都市快報橙柿互動 2026-02-24 14:12:41
1089 跟貼 1089
立陶宛總統通告全球，不會對中國跪下認錯，除非中方先做出讓步

無情有思ss 2026-02-24 21:52:07
0 跟貼 0
突發訃告！吳冠蕓教授逝世，享年101歲

梅斯醫學 2026-02-24 07:52:02
6 跟貼 6
南平市著力構建全領域、全方位、全要素、全鏈條的營商環境增值化改革體系

南平新聞 2026-02-24 16:48:19
0 跟貼 0
齋月發錢！沙特國王宣布向社會保障受益人發放超過55億多人民幣

王楔曉 2026-02-24 15:39:28
0 跟貼 0
點背不能賴社會，命苦不能賴政府！

柒七電影解說 2026-02-24 16:26:42
1 跟貼 1
遼寧：加快推進新一輪找礦突破行動

界面新聞 2026-02-24 08:00:50
0 跟貼 0
滅絕反抗運動倫敦上演逐利政府怎會輕易變動環?？範幗Y局堪憂

搞笑歡樂堂 2026-02-25 00:00:00
0 跟貼 0
美移民執法部門秘密收購倉庫擴建拘留設施，引多地政府反對

界面新聞 2026-02-22 07:13:43
0 跟貼 0
官方配件加起來比機身還貴？

愛范兒 2025-12-09 04:21:04
0 跟貼 0
皇姑區機關事務管理局、科技局、營商局祝您闔家幸福、順遂安康

皇姑范兒 2026-02-23 10:39:36
0 跟貼 0
打工人一定要看的兩個信息差網站

飄過的知識 2026-02-24 14:44:00
0 跟貼 0
Agent的本質是可驗證過程的自動化

量子位 2025-12-11 03:38:22
0 跟貼 0
節后首日連發兩條公告中國反制升級對日本軍工"亮劍"

環球網資訊 2026-02-24 17:42:07
882 跟貼 882
300多只東北虎“輕斷食”？景區：每天斷食1個園，司機會帶游客找可投喂區

封面新聞 2026-02-23 16:29:03
1660 跟貼 1660
哈爾濱冰雪大世界：正式閉園

大風新聞 2026-02-21 20:36:03
1869 跟貼 1869
我也想要這樣的模型

橙子愛說劇 2026-02-23 17:43:50
1 跟貼 1
韓國要求俄使館撤下宣傳條幅，俄方：此為全體俄羅斯人所熟知，無意冒犯任何人

文匯報 2026-02-24 04:20:05
1437 跟貼 1437
德媒公布重要數據，揭開西方不敢承認真相：中國已強大到超出想象

戰武科普 2026-02-22 11:10:49
0 跟貼 0
小學五年級求面積蝴蝶模型應用

天天數理學習分享 2026-02-24 19:08:30
3 跟貼 3
男子在五米墻上跳下來，技術零幀起手，一般人在上面站著都腿軟！

逗趣冒險家 2026-02-23 16:27:22
1 跟貼 1
多條新規嚴禁變相降低汽車價格

大象新聞 2026-02-24 09:40:02
1002 跟貼 1002
DeepMind CEO反駁Ilya、馬斯克，親述谷歌1084天背水一戰內幕

新智元 2026-02-24 12:32:33
2 跟貼 2
學會這個接線技術，工資至少漲到8000元，很多電工都不會

凌雨肖大面包 2026-02-23 07:42:56
0 跟貼 0
全美5600多架次航班取消，多州進入緊急狀態

每日經濟新聞 2026-02-24 12:16:37
266 跟貼 266
美貿易代表威脅：和中歐日韓的協議依然算數都得履行

澎湃新聞 2026-02-23 22:58:16
202 跟貼 202
日本經濟長期疲軟，日元購買力跌至53年來最低

環球網資訊 2026-02-24 06:44:00
664 跟貼 664
三菱造船株式會社等20家日本實體被列入管控名單

新華社 2026-02-24 10:04:20
125 跟貼 125
你看日本木工是怎么接木棍的？不用榫卯技術也不用釘子，太先進了

小Q不是導盲犬 2026-02-24 07:58:03
0 跟貼 0
全國多地召開“新春第一會”，拼營商環境部署人才引進

第一財經資訊 2026-02-24 21:42:09
0 跟貼 0
央視提醒：手機出現三種提示或是被操控了！處理方法一文看懂

快科技 2026-02-24 23:09:11
0 跟貼 0

至頂頭條

記錄和推動數字化創新

16259文章數 49691關注度

往期回顧全部

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

時尚

數碼

健康

公開課

軍事航空

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
古代的馬真能日行八百里嗎
李彥宏：百度離破產30天

手機 / 數碼

房產 / 家居

開放數據研究所發現大語言模型在公共服務信息上不可靠

宇樹科技發布四足機器人Unitree As2

男子摟住繼女強吻動作親密 當地婦聯介入

男子摟住繼女強吻動作親密 當地婦聯介入

蘇翊鳴總結米蘭征程：我仍是那個熱愛單板滑雪的少年

汪小菲官宣三胎出生：承諾會照顧好3個孩子

縣城消費「限時繁榮」了十天

態度原創

闊腿褲失寵了？這4條褲子承包你整個春天的時髦！

AIDA 64 v8.25版來襲，這些新功能太實用！

轉頭就暈的耳石癥，能開車上班嗎？

美軍參聯會主席警告：對伊朗動武可能帶來重大風險

男子摟住繼女強吻動作親密當地婦聯介入

男子摟住繼女強吻動作親密當地婦聯介入

闊腿褲失寵了？這4條褲子承包你整個春天的時髦！

AIDA 64 v8.25版來襲，這些新功能太實用！

轉頭就暈的耳石癥，能開車上班嗎？