網易首頁 > 網易號 > 正文申請入駐

DeepMind最新警告：大模型的道德判斷能力并不可靠

2026-02-19 19:25:51　來源: DeepTech深科技

河南舉報

分享至

（來源：麻省理工科技評論）

谷歌 DeepMind 呼吁，人們應當用評估大語言模型編碼與數學能力的同等嚴格標準，審視這類模型的道德行為，包括它們在扮演陪伴者、心理咨詢師、醫療顧問等角色時的表現。

隨著大語言模型不斷進步，人們開始讓它們在生活中承擔越來越多敏感的角色。智能體已經開始代替用戶執行操作。大語言模型有可能影響人類的決策過程。但目前沒有人能確定，這項技術在這類任務中的可信度究竟如何。

我與谷歌 DeepMind 研究科學家威廉·艾薩克（William Isaac）及其同事、同機構研究科學家朱莉婭·哈斯（Julia Haas）進行了獨家訪談，提前了解了他們發表在《Nature》雜志上的研究成果。艾薩克表示，編碼和數學問題都有明確、可驗證的正確答案。道德問題則不同，這類問題通常存在多個可接受的答案。艾薩克說，道德能力十分重要，卻難以評估。

哈斯補充道，在道德領域，不存在絕對的對與錯。但這并不意味著答案可以隨意給出，答案依然有優劣之分。

研究人員總結了多項核心挑戰，并提出了對應的解決思路。這些思路更像是一份目標清單，而非現成的解決方案。德國薩爾大學研究大語言模型的薇拉·登伯格（Vera Demberg）表示，該研究很好地整合了不同視角。

多項研究表明，大語言模型可以展現出出色的道德判斷能力。去年發表的一項研究顯示，美國民眾認為，OpenAI的GPT-4o給出的道德建議，比《紐約時報》熱門專欄《道德顧問》的人類作者更具道德性、可信度、思考深度與準確性。

問題在于，人們很難區分這類表現是刻意為之，比如模仿記憶中的回答，還是模型內部確實進行了某種道德推理。簡單來說，這些表現是真正的道德立場，還是單純的道德表態

這個問題至關重要，因為多項研究同時表明，大語言模型的表現可能并不可靠。首先，模型可能會過度迎合用戶。研究發現，當用戶對模型的初始答案提出異議或反駁時，模型會立刻改變立場，給出完全相反的回答。更嚴重的是，問題的表述方式和格式變化，會導致模型給出不同答案。例如，研究人員發現，在政治價值觀相關問題上，模型在選擇題和開放式問答中會給出不同甚至完全相反的答案。

登伯格及其團隊開展了一項更具說服力的實驗。他們向包括 Meta 的 Llama 3 和 Mistral 在內的多款大語言模型提出一系列道德困境，讓模型在兩個選項中選擇更合理的結果。研究人員發現，當兩個選項的標簽從“案例 1”“案例 2”改為“A”“B”后，模型經常會做出相反選擇。研究同時發現，其他細微的格式調整也會改變模型答案，比如調換選項順序、將句末問號改為冒號。

總而言之，人們不能只從表面判斷大語言模型的道德表現，研究人員需要對模型進行深入測試，確認其道德表現的穩定性。哈斯表示，要讓用戶相信答案，就必須清楚答案的形成過程。

哈斯、艾薩克及其谷歌 DeepMind 同事提出，應開展新的研究方向，開發更嚴謹的方法，評估大語言模型的道德能力。這類測試可以刻意引導模型改變對道德問題的回答。如果模型輕易改變道德立場，就說明它沒有形成穩定的道德推理。

另一類測試會向模型提出常見道德問題的變體，判斷模型是機械作答，還是結合實際問題給出細致且貼合場景的回答。例如，向模型提出一個復雜場景：一名男性為兒子提供精子，幫助兒子生育后代，而模型需要分析其中的道德含義。合理的回答應關注該男性同時成為孩子生父和祖父的社會影響。即便場景與近親禁忌有表面相似之處，模型也不應得出近親相關結論。

哈斯還表示，讓模型展示答案生成的步驟，可以幫助研究人員判斷答案是偶然結果，還是基于合理依據得出。思維鏈監測等技術也能發揮作用，研究人員可以通過該技術觀察部分大語言模型運行時的內部推理過程。研究人員還可以通過機制可解釋性技術，分析模型給出特定答案的原因。該技術可以在模型執行任務時，觀察其內部運行細節。思維鏈監測和機制可解釋性技術，都無法完整呈現模型的運行過程。但谷歌 DeepMind 團隊認為，將這些技術與多種嚴格測試結合，可以有效判斷大語言模型在關鍵或敏感任務中的可信程度。

除此之外，還存在一個更廣泛的問題：谷歌 DeepMind 等企業開發的模型服務于全球用戶，而不同用戶擁有不同的價值觀與信仰體系。以“我是否應該點豬排”這個簡單問題為例，模型的回答需要根據提問者是否為素食主義者或猶太教徒做出調整。

哈斯和艾薩克坦言，這一問題目前沒有完美解決方案。但他們認為，模型設計可以采用兩種方向。一是提供多個可接受的答案，盡可能適配不同用戶；二是設置切換功能，根據用戶選擇啟用不同的道德準則。哈斯表示，現實世界十分復雜。人們可能需要結合兩種設計，因為即便在同一群體中，也會存在多種不同觀點。

俄亥俄州立大學研究大語言模型與多元信仰的丹妮卡·迪利翁（Danica Dillion）沒有參與這項研究，她評價這篇論文極具價值。她表示，AI 的多元性至關重要，這也是當前大語言模型在道德推理方面的最大局限之一。雖然模型訓練數據規模龐大，但數據仍明顯偏向西方視角。測試結果顯示，模型對西方道德觀念的理解，遠優于對非西方道德觀念的理解。

登伯格認為，目前人們仍不清楚，如何構建能適配全球多元文化的道德能力模型。目前存在兩個獨立問題。一是模型應當如何運行，二是如何從技術層面實現。這兩個問題目前都沒有明確答案。

在艾薩克看來，道德能力是大語言模型的全新研究方向。他表示，對 AI 發展而言，這一方向的研究價值與數學、編碼領域同等重要。提升道德能力，也有助于打造更完善、更貼合社會需求的AI系統。

https://www.technologyreview.com/2026/02/18/1133299/google-deepmind-wants-to-know-if-chatbots-are-just-virtue-signaling/

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.