<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      DeepMind最新警告:大模型的道德判斷能力并不可靠

      0
      分享至


      (來源:麻省理工科技評論)

      谷歌 DeepMind 呼吁,人們應當用評估大語言模型編碼與數學能力的同等嚴格標準,審視這類模型的道德行為,包括它們在扮演陪伴者、心理咨詢師、醫療顧問等角色時的表現。

      隨著大語言模型不斷進步,人們開始讓它們在生活中承擔越來越多敏感的角色。智能體已經開始代替用戶執行操作。大語言模型有可能影響人類的決策過程。但目前沒有人能確定,這項技術在這類任務中的可信度究竟如何。

      我與谷歌 DeepMind 研究科學家威廉·艾薩克(William Isaac)及其同事、同機構研究科學家朱莉婭·哈斯(Julia Haas)進行了獨家訪談,提前了解了他們發表在《Nature》雜志上的研究成果。艾薩克表示,編碼和數學問題都有明確、可驗證的正確答案。道德問題則不同,這類問題通常存在多個可接受的答案。艾薩克說,道德能力十分重要,卻難以評估。

      哈斯補充道,在道德領域,不存在絕對的對與錯。但這并不意味著答案可以隨意給出,答案依然有優劣之分。

      研究人員總結了多項核心挑戰,并提出了對應的解決思路。這些思路更像是一份目標清單,而非現成的解決方案。德國薩爾大學研究大語言模型的薇拉·登伯格(Vera Demberg)表示,該研究很好地整合了不同視角。

      多項研究表明,大語言模型可以展現出出色的道德判斷能力。去年發表的一項研究顯示,美國民眾認為,OpenAI的GPT-4o給出的道德建議,比《紐約時報》熱門專欄《道德顧問》的人類作者更具道德性、可信度、思考深度與準確性。

      問題在于,人們很難區分這類表現是刻意為之,比如模仿記憶中的回答,還是模型內部確實進行了某種道德推理。簡單來說,這些表現是真正的道德立場,還是單純的道德表態

      這個問題至關重要,因為多項研究同時表明,大語言模型的表現可能并不可靠。首先,模型可能會過度迎合用戶。研究發現,當用戶對模型的初始答案提出異議或反駁時,模型會立刻改變立場,給出完全相反的回答。更嚴重的是,問題的表述方式和格式變化,會導致模型給出不同答案。例如,研究人員發現,在政治價值觀相關問題上,模型在選擇題和開放式問答中會給出不同甚至完全相反的答案。

      登伯格及其團隊開展了一項更具說服力的實驗。他們向包括 Meta 的 Llama 3 和 Mistral 在內的多款大語言模型提出一系列道德困境,讓模型在兩個選項中選擇更合理的結果。研究人員發現,當兩個選項的標簽從“案例 1”“案例 2”改為“A”“B”后,模型經常會做出相反選擇。研究同時發現,其他細微的格式調整也會改變模型答案,比如調換選項順序、將句末問號改為冒號。

      總而言之,人們不能只從表面判斷大語言模型的道德表現,研究人員需要對模型進行深入測試,確認其道德表現的穩定性。哈斯表示,要讓用戶相信答案,就必須清楚答案的形成過程。

      哈斯、艾薩克及其谷歌 DeepMind 同事提出,應開展新的研究方向,開發更嚴謹的方法,評估大語言模型的道德能力。這類測試可以刻意引導模型改變對道德問題的回答。如果模型輕易改變道德立場,就說明它沒有形成穩定的道德推理。

      另一類測試會向模型提出常見道德問題的變體,判斷模型是機械作答,還是結合實際問題給出細致且貼合場景的回答。例如,向模型提出一個復雜場景:一名男性為兒子提供精子,幫助兒子生育后代,而模型需要分析其中的道德含義。合理的回答應關注該男性同時成為孩子生父和祖父的社會影響。即便場景與近親禁忌有表面相似之處,模型也不應得出近親相關結論。

      哈斯還表示,讓模型展示答案生成的步驟,可以幫助研究人員判斷答案是偶然結果,還是基于合理依據得出。思維鏈監測等技術也能發揮作用,研究人員可以通過該技術觀察部分大語言模型運行時的內部推理過程。研究人員還可以通過機制可解釋性技術,分析模型給出特定答案的原因。該技術可以在模型執行任務時,觀察其內部運行細節。思維鏈監測和機制可解釋性技術,都無法完整呈現模型的運行過程。但谷歌 DeepMind 團隊認為,將這些技術與多種嚴格測試結合,可以有效判斷大語言模型在關鍵或敏感任務中的可信程度。

      除此之外,還存在一個更廣泛的問題:谷歌 DeepMind 等企業開發的模型服務于全球用戶,而不同用戶擁有不同的價值觀與信仰體系。以“我是否應該點豬排”這個簡單問題為例,模型的回答需要根據提問者是否為素食主義者或猶太教徒做出調整。

      哈斯和艾薩克坦言,這一問題目前沒有完美解決方案。但他們認為,模型設計可以采用兩種方向。一是提供多個可接受的答案,盡可能適配不同用戶;二是設置切換功能,根據用戶選擇啟用不同的道德準則。哈斯表示,現實世界十分復雜。人們可能需要結合兩種設計,因為即便在同一群體中,也會存在多種不同觀點。

      俄亥俄州立大學研究大語言模型與多元信仰的丹妮卡·迪利翁(Danica Dillion)沒有參與這項研究,她評價這篇論文極具價值。她表示,AI 的多元性至關重要,這也是當前大語言模型在道德推理方面的最大局限之一。雖然模型訓練數據規模龐大,但數據仍明顯偏向西方視角。測試結果顯示,模型對西方道德觀念的理解,遠優于對非西方道德觀念的理解。

      登伯格認為,目前人們仍不清楚,如何構建能適配全球多元文化的道德能力模型。目前存在兩個獨立問題。一是模型應當如何運行,二是如何從技術層面實現。這兩個問題目前都沒有明確答案。

      在艾薩克看來,道德能力是大語言模型的全新研究方向。他表示,對 AI 發展而言,這一方向的研究價值與數學、編碼領域同等重要。提升道德能力,也有助于打造更完善、更貼合社會需求的AI系統。

      https://www.technologyreview.com/2026/02/18/1133299/google-deepmind-wants-to-know-if-chatbots-are-just-virtue-signaling/

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      從左權之妻到改嫁左權秘書,再到山西奪權,劉志蘭究竟經歷了什么

      從左權之妻到改嫁左權秘書,再到山西奪權,劉志蘭究竟經歷了什么

      舊書卷里的長安
      2026-02-22 00:08:58
      廣東一自駕團隊在康定遇險:一女子摔傷,兩兒童出現高反 當地消防緊急救援

      廣東一自駕團隊在康定遇險:一女子摔傷,兩兒童出現高反 當地消防緊急救援

      紅星新聞
      2026-02-22 10:57:32
      “初中女生被老人索賠22萬”,家長最新回應:對方已撤訴,不希望再占用公共資源

      “初中女生被老人索賠22萬”,家長最新回應:對方已撤訴,不希望再占用公共資源

      封面新聞
      2026-02-22 00:27:04
      徐夢曬1金1銅!金牌已有劃痕 北京奧運金鑲玉含金量還在上升

      徐夢曬1金1銅!金牌已有劃痕 北京奧運金鑲玉含金量還在上升

      念洲
      2026-02-22 11:46:24
      五臺山突發大火:持續8小時,瘆人畫面流出,官方回應傷亡情況

      五臺山突發大火:持續8小時,瘆人畫面流出,官方回應傷亡情況

      博士觀察
      2026-02-22 13:00:18
      “只有窮人,才這樣教育子女!”家長讓孩子給外賣員送水,被群嘲

      “只有窮人,才這樣教育子女!”家長讓孩子給外賣員送水,被群嘲

      妍妍教育日記
      2026-02-22 08:10:08
      21歲,又一個天才新人出道!

      21歲,又一個天才新人出道!

      貴圈真亂
      2026-02-22 11:06:51
      廣東過年搞衛生上熱搜!網友:洗了30年沒人住的舊房子,圖啥?

      廣東過年搞衛生上熱搜!網友:洗了30年沒人住的舊房子,圖啥?

      夜深愛雜談
      2026-02-21 21:50:39
      萬幸!家庭聚會男子中途去屋外透氣,抬頭見3歲兒子墜樓,立馬伸手接住!“后怕極了”

      萬幸!家庭聚會男子中途去屋外透氣,抬頭見3歲兒子墜樓,立馬伸手接住!“后怕極了”

      極目新聞
      2026-02-22 11:50:28
      《鏢人》海外口碑爆了,評分接近滿分,全球票房將破紀錄

      《鏢人》海外口碑爆了,評分接近滿分,全球票房將破紀錄

      影視高原說
      2026-02-22 09:52:32
      總領館:貝加爾湖事故幸存者身體狀況良好!當地提前回暖,溫度破百年紀錄;目擊者:幸存男子坐在后排,在車輛入水瞬間沖出

      總領館:貝加爾湖事故幸存者身體狀況良好!當地提前回暖,溫度破百年紀錄;目擊者:幸存男子坐在后排,在車輛入水瞬間沖出

      每日經濟新聞
      2026-02-21 20:45:08
      三亞至深圳最高票價達14460元

      三亞至深圳最高票價達14460元

      第一財經資訊
      2026-02-22 12:34:38
      湛江媽祖事件真相!當地村民稱不是抬不動轎子,而是根本不敢走啊

      湛江媽祖事件真相!當地村民稱不是抬不動轎子,而是根本不敢走啊

      火山詩話
      2026-02-21 14:13:36
      無名指超食指長之人,這4樣東西別去碰,恐會泄漏你的福氣!

      無名指超食指長之人,這4樣東西別去碰,恐會泄漏你的福氣!

      一根香煙的少女
      2025-09-22 16:52:27
      前烏軍總司令扎盧日內爆出猛料,俄烏開戰前夕,澤連斯基多次誤判

      前烏軍總司令扎盧日內爆出猛料,俄烏開戰前夕,澤連斯基多次誤判

      碳基生物關懷組織
      2026-02-21 22:57:12
      游客目擊男童虎跳峽墜崖遇難:事發1米多寬的野外路段,當時風很大,3人來玩沒跟團

      游客目擊男童虎跳峽墜崖遇難:事發1米多寬的野外路段,當時風很大,3人來玩沒跟團

      極目新聞
      2026-02-22 15:56:46
      美國空軍交付全球首臺5兆瓦微型核反應堆

      美國空軍交付全球首臺5兆瓦微型核反應堆

      cnBeta.COM
      2026-02-22 07:34:18
      各地建立1200多個中小學思政課實踐教學基地

      各地建立1200多個中小學思政課實踐教學基地

      中工網
      2026-02-20 08:12:09
      和談破裂,俄烏將全面開戰,英國再援烏229億美元

      和談破裂,俄烏將全面開戰,英國再援烏229億美元

      史政先鋒
      2026-02-21 16:46:58
      男籃出發時間已確定,12人大名單提前曝光,廣東球迷看后欣喜若狂

      男籃出發時間已確定,12人大名單提前曝光,廣東球迷看后欣喜若狂

      宏遠小師哥
      2026-02-22 12:03:47
      2026-02-22 16:59:00
      DeepTech深科技 incentive-icons
      DeepTech深科技
      麻省理工科技評論獨家合作
      16298文章數 514634關注度
      往期回顧 全部

      科技要聞

      馬斯克:星艦每年將發射超過10000顆衛星

      頭條要聞

      8歲男童大年初五在虎跳峽墜崖遇難 游客目擊事發全程

      頭條要聞

      8歲男童大年初五在虎跳峽墜崖遇難 游客目擊事發全程

      體育要聞

      75673人見證!邁阿密0-3:梅西孫興慜過招

      娛樂要聞

      裴世矩養侄為刃 看懂兩次放行裴行儼!

      財經要聞

      特朗普新加征關稅稅率從10%提升至15%

      汽車要聞

      續航1810km!smart精靈#6 EHD超級電混2026年上市

      態度原創

      教育
      房產
      親子
      手機
      數碼

      教育要聞

      留學版圖重構!小眾留學熱度攀升,這屆家長想開了:不執著名校,只在乎孩子平安畢業

      房產要聞

      窗前即地標!獨占三亞灣C位 自貿港總裁行宮亮相

      親子要聞

      蘭姐坐飛機報喜!將帶小馬寶和仨娃回北京

      手機要聞

      榮耀新折疊屏官宣:滿血驍龍8至尊版,7K電池?

      數碼要聞

      21歲的老蘋果筆記本開機連上Wi-Fi 竟然還能收到系統更新!網友:畫面美到想舔

      無障礙瀏覽 進入關懷版