<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      開放數據研究所發現大語言模型在公共服務信息上不可靠

      0
      分享至


      開放數據研究所(ODI)的一項研究發現,主流大語言模型無法為醫療、稅務和福利等關鍵公共服務提供可靠信息。

      研究基于超過22000個大語言模型提示進行,這些提示旨在反映人們向生成式AI聊天機器人可能提出的問題類型,例如"我如何申請全民信貸?"。研究結果引發了對聊天機器人能否被信任提供準確政府服務信息的擔憂。

      該研究發布時正值英國政府宣布與Meta和Anthropic建立合作關系,開發用于導航公共服務的AI智能體。

      ODI研究主任埃琳娜·辛珀爾表示:"如果大語言模型要在面向公民的服務中安全使用,我們需要了解這項技術在哪些方面可以信任,在哪些方面不能信任。"

      研究將包括Anthropic的Claude-4.5-Haiku、Google的Gemini-3-Flash和OpenAI的ChatGPT-4o等模型的回答與官方政府來源直接比較。

      結果顯示許多回答正確,但質量存在顯著差異,特別是對于專業或不常見的查詢。研究還顯示,聊天機器人很少承認不知道問題答案,即使回答不完整或錯誤,也會嘗試回答每個查詢。

      掩埋關鍵事實

      聊天機器人還經常提供冗長的回答,掩埋關鍵事實或超出政府網站提供的信息范圍,增加了不準確的風險。

      Meta的Llama 3.1 8B聲稱,在孩子的出生證明上添加前伴侶姓名需要法院命令。如果遵循這一建議,將導致不必要的壓力和經濟成本。

      ChatGPT-OSS-20B錯誤地建議,照顧父母已故兒童的人只有在成為已故兒童的監護人時才有資格獲得監護人津貼。它還錯誤地聲明,如果申請人為該兒童接受其他福利,則不符合條件。

      辛珀爾表示,對于公民而言,研究強調了AI素養的重要性,而對于設計公共服務的人員來說,"考慮到技術發展速度,建議在匆忙采用大型或昂貴模型時保持謹慎,這些模型強調供應商鎖定的必要性。我們還需要更多獨立基準、更多公共測試,以及更多關于如何使這些系統產生精確可靠答案的研究。"

      2月3日發布的第二份國際AI安全報告對AI智能體系統可靠性得出了類似結論。報告指出,雖然自2025年安全報告以來,在回憶事實信息方面有所改進,"但即使是領先模型仍以顯著比例給出自信但錯誤的答案"。

      遵循錯誤建議

      報告還發現用戶普遍傾向于遵循自動化系統(包括聊天機器人)的錯誤建議,"因為他們忽略了錯誤信號,或者認為自動化系統比自己的判斷更優秀"。

      ODI的研究還挑戰了更大、更資源密集的模型總是更適合公共部門的觀念,在許多情況下,較小模型以比ChatGPT等大型閉源模型更低的成本提供了相當的結果。

      辛珀爾警告政府應避免在模型在價格或基準測試中暫時超越彼此時鎖定長期合同。

      在ODI研究發布活動上,Full Fact AI負責人安德魯·達德菲爾德評論說,由于政府立場是支持創新的,監管目前圍繞原則而非詳細規則制定。

      "英國采用AI的速度可能比學會如何使用它的速度更快,特別是在問責制方面,"他說。

      可信度

      達德菲爾德指出,這項工作引人注目的原因在于它關注真實用戶需求,但可信度需要從依賴信息的人的角度評估,而不是從展示技術能力的角度。

      "真正的風險不僅是幻覺,還有人們對聽起來合理的回答的信任程度,"她說。

      在同一活動中被問及政府應該構建自己的系統還是依賴商業工具時,貝內特公共政策學院研究員理查德·波普說,政府需要"對依賴性和主權保持謹慎"。

      "AI項目應該從小規模開始,逐步發展并分享他們學到的東西,"他說,并補充說公共部門項目應該優先考慮學習和開放性,而不是快速擴張。

      辛珀爾強調,AI創造了為不同語言或理解水平定制信息的潛力,但這些機會"需要被塑造,而不是任其自然發展"。

      隨著每周都有新的AI模型發布,2026年1月的Gartner研究發現,AI系統產生的大量未驗證和低質量數據對大語言模型的可靠性構成了明顯且現實的威脅。

      大語言模型使用從網絡、書籍、研究論文和代碼庫抓取的數據進行訓練。雖然許多這些來源已經包含AI生成的數據,但按照目前的擴張速度,它們可能都會被AI生成的內容填充。

      Gartner強調,隨著AI生成數據量的增長,未來的大語言模型將越來越多地使用當前模型的輸出進行訓練,存在模型在自身幻覺和不準確現實累積重壓下完全崩潰的風險。

      管理副總裁萬慧嬋表示,組織不能再隱含地信任數據,或假設數據甚至是人類生成的。

      萬慧嬋補充說,隨著AI生成數據變得更加普遍,許多地區對驗證"AI無關"數據的監管要求將會加強。

      Q&A

      Q1:大語言模型在提供公共服務信息方面存在什么問題?

      A:開放數據研究所研究發現,主流大語言模型無法為醫療、稅務和福利等關鍵公共服務提供可靠信息。模型回答質量存在顯著差異,特別是對專業或不常見查詢,且很少承認不知道答案,即使回答錯誤也會嘗試回答每個問題。

      Q2:聊天機器人提供政府服務信息時會出現哪些具體錯誤?

      A:研究顯示聊天機器人經常提供冗長回答掩埋關鍵事實,或超出政府網站信息范圍。例如Meta的Llama模型錯誤聲稱添加前伴侶姓名到出生證明需要法院命令,ChatGPT模型對監護人津貼申請條件給出錯誤建議。

      Q3:如何應對大語言模型在公共服務中的可靠性問題?

      A:專家建議政府在采用AI技術時保持謹慎,避免鎖定長期合同,需要更多獨立基準和公共測試。AI項目應從小規模開始逐步發展,優先考慮學習和開放性。同時強調AI素養的重要性,用戶需要從依賴信息者角度評估可信度。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      劉強東宣布投資50億進軍游艇行業

      劉強東宣布投資50億進軍游艇行業

      21世紀經濟報道
      2026-02-24 22:57:37
      陳妍?;帕?婚內出軌舊照瘋傳全網,證據越扒越多,緊急發聲明滅火

      陳妍希慌了!婚內出軌舊照瘋傳全網,證據越扒越多,緊急發聲明滅火

      八卦王者
      2026-02-23 21:55:26
      簽了簽了!雷霆首輪秀!正式加盟CBA黑馬球隊

      簽了簽了!雷霆首輪秀!正式加盟CBA黑馬球隊

      籃球實戰寶典
      2026-02-24 16:38:25
      一女子坐牢20年終于出獄,去辦身份證時警察竟淚灑當場

      一女子坐牢20年終于出獄,去辦身份證時警察竟淚灑當場

      故事秘棧
      2025-05-27 18:56:51
      外交部介紹德國總理默茨訪華有關安排

      外交部介紹德國總理默茨訪華有關安排

      新華社
      2026-02-24 16:04:02
      410次開房記錄流出:央企“女老虎”陶荔芳,背后還有多少同伙

      410次開房記錄流出:央企“女老虎”陶荔芳,背后還有多少同伙

      深度報
      2025-12-14 22:36:54
      劉邦有啥突出才能,能成為皇帝?毛澤東:封建皇帝里最厲害的一個

      劉邦有啥突出才能,能成為皇帝?毛澤東:封建皇帝里最厲害的一個

      小莜讀史
      2026-02-18 17:12:13
      瑞銀:預計未來幾個月金價將觸及每盎司6200美元

      瑞銀:預計未來幾個月金價將觸及每盎司6200美元

      財聯社
      2026-02-24 16:44:19
      年輕人累死累活掙三四千,老人拿七八千退休金,該如何破局?

      年輕人累死累活掙三四千,老人拿七八千退休金,該如何破局?

      貓叔東山再起
      2026-02-24 10:55:03
      美國洛馬怎么也沒想到,沒繳中國的990億罰單,后果竟如此嚴重!

      美國洛馬怎么也沒想到,沒繳中國的990億罰單,后果竟如此嚴重!

      青青子衿
      2025-12-12 22:03:33
      OpenClaw刪光Meta安全總監郵箱!連喊3次停手都沒用,她狂奔去拔網線

      OpenClaw刪光Meta安全總監郵箱!連喊3次停手都沒用,她狂奔去拔網線

      新智元
      2026-02-24 12:33:20
      吳越納土歸宋的真相:3千多錢氏宗族遷居開封,錢弘俶本人被軟禁

      吳越納土歸宋的真相:3千多錢氏宗族遷居開封,錢弘俶本人被軟禁

      歷史擺渡
      2026-02-18 17:15:03
      突發!李嘉誠被「遠洋捕撈」、強行接管

      突發!李嘉誠被「遠洋捕撈」、強行接管

      家傳編輯部
      2026-02-24 15:29:58
      純電新能源所剩無幾,其他集體塞回發動機,這事到底誰在“打臉”

      純電新能源所剩無幾,其他集體塞回發動機,這事到底誰在“打臉”

      小怪吃美食
      2026-02-24 20:57:37
      《鏢人》海外口碑爆了,評分接近滿分,全球票房將破紀錄

      《鏢人》海外口碑爆了,評分接近滿分,全球票房將破紀錄

      影視高原說
      2026-02-22 09:52:32
      發現奇怪的現象:你呵斥了孩子,孩子敢回嘴,說明這個家庭還有救

      發現奇怪的現象:你呵斥了孩子,孩子敢回嘴,說明這個家庭還有救

      明智家庭教育
      2026-02-03 13:04:26
      河南一15歲女孩離家出走失聯14天,河邊找到疑似她的拖鞋,家屬表示提供線索找到人給5萬,直接找到人給10萬,救援人員:還在搜尋

      河南一15歲女孩離家出走失聯14天,河邊找到疑似她的拖鞋,家屬表示提供線索找到人給5萬,直接找到人給10萬,救援人員:還在搜尋

      揚子晚報
      2026-02-24 17:29:07
      美國海關正式公告:對所有國家加征10%關稅!豁免清單公布

      美國海關正式公告:對所有國家加征10%關稅!豁免清單公布

      貿易夜航
      2026-02-24 15:14:55
      縣城,已經毫無隱私

      縣城,已經毫無隱私

      視覺志
      2026-02-24 18:59:01
      平頂山事件最新進展,受害者態度強硬,多少錢都不諒解

      平頂山事件最新進展,受害者態度強硬,多少錢都不諒解

      吃貨的分享
      2026-02-24 09:54:04
      2026-02-25 00:55:00
      至頂頭條 incentive-icons
      至頂頭條
      記錄和推動數字化創新
      16259文章數 49691關注度
      往期回顧 全部

      科技要聞

      宇樹科技發布四足機器人Unitree As2

      頭條要聞

      男子摟住繼女強吻動作親密 當地婦聯介入

      頭條要聞

      男子摟住繼女強吻動作親密 當地婦聯介入

      體育要聞

      蘇翊鳴總結米蘭征程:我仍是那個熱愛單板滑雪的少年

      娛樂要聞

      汪小菲官宣三胎出生:承諾會照顧好3個孩子

      財經要聞

      縣城消費「限時繁榮」了十天

      汽車要聞

      入門即滿配 威蘭達AIR版上市 13.78萬元起

      態度原創

      時尚
      數碼
      健康
      公開課
      軍事航空

      闊腿褲失寵了?這4條褲子承包你整個春天的時髦!

      數碼要聞

      AIDA 64 v8.25版來襲,這些新功能太實用!

      轉頭就暈的耳石癥,能開車上班嗎?

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      美軍參聯會主席警告:對伊朗動武可能帶來重大風險

      無障礙瀏覽 進入關懷版