![]()
導語
隨著人工智能從輔助工具逐漸演變為具備自主執行能力的智能體,人類正在越來越多地將決策與行動委托給機器。這種“機器委托”在顯著提升效率的同時,是否也在無意中降低不道德行為的心理與道德成本?此篇發表于 Nature 的實驗研究,系統檢驗了當人類通過模糊指令、目標設定或自然語言間接驅動機器行動時,不誠實行為是否會因此增加,以及機器在面對不道德請求時,是否比人類更容易服從。
關鍵詞:機器委托、人工智能倫理、不誠實行為、大語言模型、道德成本、人機協作
來源:集智俱樂部
作者:Nils K?bis, Zoe Rahwan等
譯者:冉天樞
審校:趙思怡
![]()
論文題目:Delegation to artificial intelligence can increase dishonest behaviour 論文鏈接:https://www.nature.com/articles/s41586-025-09505-x 發表時間:2025 年 9 月 17 日 論文來源:Nature
什么是“機器委托”,風險從何而來?
隨著人工智能系統被廣泛應用于自動駕駛、金融決策、人力篩選乃至軍事與執法等領域,人類正逐步將關鍵任務的執行權委托給由算法驅動的系統。這一趨勢通常被稱為機器委托(machine delegation)[6,7]。
機器委托的潛在風險,并不在于機器會“主動做出不道德選擇”,而在于它可能降低人類實施不道德行為所需承擔的心理與道德成本。當個體無需明確說明“如何作弊”,而只需通過目標設定或示例數據間接驅動機器行為時,不誠實行為便更容易被合理化。例如,以利潤最大化為目標的拼車定價算法會促使司機重新定位,從而人為制造高峰定價[21];標榜“抓住一切機會提價”的租金定價算法曾被用于實施非法價格壟斷[22];聲稱幫助消費者撰寫引人入勝評論的內容生成工具,也曾因依據用戶模糊的通用指引生成具體但不實的聲明而受到制裁[23]。本文正是圍繞這一問題展開,探討機器委托如何通過降低道德成本,在委托人與智能體兩個層面增加不誠實行為的發生概率。
從委托人視角來看,人們之所以不從事有利可圖但不誠實的行為,往往是為了避免將自己[24]或被他者[25]視為不誠實所帶來的道德成本。因此,當這種道德成本降低時,個體更可能選擇作弊[26–29]。如果機器委托允許委托人在不明確告知機器具體作弊方式的情況下誘導其作弊,那么作弊所需承擔的道德成本就可能隨之下降。
詳細的基于規則的編程(或“符號規則規范”)并不具備這種特性,因為它要求委托人明確指定不誠實行為。在這種情況下,所承擔的道德成本可能與親自、公然撒謊時的成本相當[30–33]。相比之下,監督學習、高級目標設定或自然語言指令等接口[34–36],允許委托人發出模糊且開放式的命令,由機器在內部“填充”具體的不道德策略,而無需委托人明確說明這些策略。因此,這類接口可能使委托人更容易請求作弊,因為他們可以避免直接指示機器如何作弊所帶來的道德負擔。
在智能體層面,收到委托人發出不道德請求的人類執行者同樣會面臨道德成本,而這些成本并不一定能夠被經濟收益所抵消,因此人類可能拒絕服從這些請求。相比之下,機器智能體并不承擔相應的道德成本,因而可能表現出更高的依從性。換言之,人類智能體可能基于道德關切而拒絕不道德指令,而缺乏充分保障機制的機器智能體則可能僅將其視為待完成的任務,從而直接執行。
現有基準測試表明,最先進的封閉式大語言模型(LLMs)在面對多類不道德請求時已具備一定程度的安全防護,例如生成仇恨言論、提供犯罪活動建議或查詢敏感信息[37–40]。然而,領域特定的研究發現,當這些模型被要求生成誤導性醫療信息[41]或惡意代碼[42]時,其依從性仍處于令人擔憂的水平;此外,還有研究表明,LLM 智能體在追求利潤目標的過程中可能自發地從事內幕交易[43]。因此,即便是當前最先進的機器智能體,在缺乏針對“依從性風險”的專門防護措施時,也可能在更大程度上服從誘導其為委托人作弊的指令。
基于上述分析,本文提出:機器委托會在委托人與智能體兩個層面同時增加不道德行為的發生概率。為檢驗這一假設,研究者在四項主要研究中共開展了 13 項實驗(見擴展數據表1)。
![]()
擴展數據表1 | 概述表:該表顯示了實證研究、主要研究問題、實驗設計、主要結果測量和主要結果的摘要。
在研究 1 和研究 2 中,當采用允許委托人在不明確告知具體做法的情況下誘導作弊的接口(即監督學習與高級目標設定)時,人類委托人在擲骰子任務中顯著增加了對作弊的請求。在研究 3 中,研究者進一步轉向自然語言委托接口,發現機器智能體(GPT-4、GPT-4o、Llama 3.3 和 Claude 3.5 Sonnet)在默認設置下,比人類智能體更可能依從完全不道德的指令。盡管研究者測試了多種防護策略,但依從性通常仍然存在,其中效果最顯著的策略——在用戶層面注入措辭強烈且任務特定的禁止性提示——同時也是最難以擴展的。
研究 4 則是對研究 3 的概念性復制,采用了更貼近參與者真實生活體驗的逃稅任務。該任務不僅包含作弊的負外部性,還將研究重點從“不誠實地獲取資源”轉向“不誠實地保留既得資源”。在報告上述結果后,本文進一步討論了這些發現對未來機器委托場景的啟示,尤其是在 LLM 及其他智能系統通過提升可及性、易用性與可負擔性而不斷降低委托成本的背景下。
研究1和2:關于委托人意圖的研究
為測量不誠實行為,研究采用了行為科學中廣泛使用的經典擲骰子任務[44,45]。參與者被要求報告自己私下觀察到的骰子結果[33],并被明確告知,其獲得的報酬將與所報告的結果一一對應(例如,報告為 1 可獲得 1 美分,報告為 6 可獲得 6 美分)。因此,參與者可以通過報告高于實際觀察結果的數字來獲得額外收益,從而在連續十次擲骰與報告中逐步積累利潤。
該任務已在數百項研究中得到驗證[24,27],并被證明能夠預測現實世界中的多種不誠實行為,例如公共交通中的逃票[46]、學校場景下的不當行為[47]以及欺騙性銷售行為[48]。
研究1:條件設置與實驗設計
在研究 1 中,共有 597 名參與者被隨機分配至四種實驗條件之一。在對照條件下,參與者自行報告十次擲骰子的結果;在其余三種條件中,參與者將這十次報告委托給機器智能體完成。四種條件的關鍵差異在于,參與者向機器傳遞指令時所使用的接口類型不同(圖 1)。
在基于規則的條件(rule-based condition)下,參與者必須明確指定:對于六種可能的擲骰結果,機器應分別報告哪個數字。
在監督學習條件(supervised learning condition)下,參與者從三個示例數據集中選擇一個,用于訓練機器:
(1)報告始終與骰子結果一致;
(2)無論骰子結果如何,報告始終為 6;
(3)報告有時與實際結果一致,有時高于實際結果,體現“偶爾作弊”。
每個示例數據集均包含十次擲骰結果,但僅提供其中五次的報告。這種不完整性旨在喚起委托所帶來的不確定感,并模擬現實中程序員往往只檢查數據子集而非完整數據集的情境。對獨立樣本進行的理解檢查表明,參與者對在各示例數據集上訓練所得機器行為的主導預期是準確的(見補充信息)。
在基于目標的條件(goal-based condition)下,參與者通過調節一個刻度盤,為機器設定一個高級目標,該刻度盤從“最大化準確性”逐步過渡到“最大化利潤”,中間設有五個等級。結果對于將標簽改為“完全不優先考慮利潤”和“完全優先考慮利潤”是穩健的(見補充信息)。
![]()
圖1 | 人工智能編程范式。本文研究的四種主要人工智能編程范式。對于每種范式,該圖解釋了委托通常是如何進行的,以及研究者如何在擲骰子任務的背景下實例化委托機制。插圖由H. Jahani繪制。
為保證不同條件之間的可比性,在所有條件下均關注同一結果指標:參與誠實、部分作弊和完全作弊的參與者比例。表 1 總結了該分類變量在各條件下的具體構建方式。作為穩健性檢驗,還使用連續誠實度指標(即報告的擲骰子數值)對研究 1 和研究 2 進行了分析(見補充信息中的穩健性測試)。在采用連續指標時,所有主要發現均保持不變。
基于理論分析的主要預測是:在監督學習和基于目標條件下,參與誠實的比例將顯著低于對照條件和基于規則條件。原因在于,前兩類接口為委托人提供了更大的合理否認性(plausible deniability)[26],使其更容易在心理上將作弊行為與自身意圖區隔開來。
![]()
注:將參與者分類為參與誠實、部分作弊或完全作弊的標準是根據每種條件下使用的委托接口進行調整的。
研究2:是否選擇委托?
研究 2(n = 801)在整體設計上與研究 1 相同,唯一的區別在于:在所有委托條件(基于規則、監督學習和基于目標)中,參與者可以自由選擇是將報告任務委托給機器,還是自行完成。
研究者原本預測,在監督學習和基于目標條件下,會有更多參與者選擇委托給機器。然而,結果顯示,無論接口類型如何,約有 50% 的參與者選擇了委托(見補充信息)。因此,在下文對研究 2 的分析中重點關注那些實際選擇將任務委托給機器的參與者。
各條件下的誠實度水平
圖 2 展示了研究 1 和研究 2 中,不同條件下參與誠實、部分作弊和完全作弊的參與者比例。兩項研究的結果高度一致(見補充表 61 中的貝葉斯因子)。
正如預測,在監督學習和基于目標條件下,參與誠實的比例顯著低于對照條件和基于規則條件。二元邏輯回歸分析支持了這一結論(研究 1:B = 2.53,s.e. = 0.21,P < 0.001,OR = 12.6;研究 2:B = 3.00,s.e. = 0.24,P < 0.001,OR = 20.1)。
在無委托的對照條件下,絕大多數參與者誠實地報告了擲骰結果(研究 1:95% CI = 90–98;研究 2:95% CI = 93–99)。當任務被委托給機器時,誠實比例明顯下降:在基于規則條件下約為 75%,在監督學習條件下約為 50%,而在基于目標條件下僅約為 15%。上述所有比較在經 Bonferroni 校正后仍在 P < 0.001 水平上顯著。
值得注意的是,基于規則條件下的誠實度顯著低于對照條件,這一結果并不在我們的事前預測之中。
![]()
圖2 | 研究1和2中不同委托接口的不誠實行為請求。柱狀圖顯示了在無委托的對照條件下(研究1(S1)n = 152,研究2(S2)n = 205),以及委托給機器智能體時,在三種向機器提供指令的接口下參與誠實(藍色)、部分作弊(粉色)和完全作弊(紅色)的參與者百分比:基于規則(S1 n = 142,S2 n = 104)、監督學習(S1 n = 150,S2 n = 103)和基于目標(S1 n = 153,S2 n = 99)。樣本在美國按性別、年齡和種族進行配額匹配。在兩項研究中,監督學習和基于目標條件下作弊(部分或完全)的幾率顯著更高(二元邏輯回歸,PS1 < 0.001,PS2 < 0.001,雙側),完全作弊相對于部分作弊的幾率也是如此(有序概率單位回歸,PS1 < 0.001,PS2 < 0.001,雙側)。
各條件下的作弊類型
在兩項研究中,研究者進一步進行了預注冊的有序概率單位回歸分析,以考察不同委托接口是否會推動參與者從誠實轉向部分作弊,乃至完全作弊。分析將對照條件與基于規則條件合并,并與監督學習和基于目標條件的合并組進行比較。
結果顯示,在監督學習和基于目標條件下,參與者顯著更可能從事更高級別的作弊(研究 1:M = 68%,95% CI = 63–73;研究 2:M = 68%,95% CI = 62–75),而在對照和基于規則條件下,該比例僅為 15% 和 9%。這一效應在兩項研究中均高度顯著(研究 1:B = 1.37,P < 0.001;研究 2:B = 1.13,P < 0.001)。
此外,在兩項研究中,從“誠實”轉向“部分作弊”的閾值均低于從“部分作弊”轉向“完全作弊”的閾值,表明作弊行為往往呈現出逐步升級的模式。總體而言,這些結果一致表明:監督學習和基于目標的委托接口不僅增加了作弊的發生概率,也提高了參與更嚴重作弊行為的可能性。
研究3:向大語言模型的委托
隨著大語言模型的發展,人類委托人可以通過自然語言指令向機器智能體委托任務,其形式與向人類智能體發出請求高度相似。這使研究者能夠在保持委托接口一致的情況下,比較人類與機器智能體在面對不道德請求時的行為差異。
研究 3 的預注冊預測包括兩點:
(1)相較于自行報告,向人類或機器智能體委托都會降低誠實行為比例;
(2)相較于機器智能體,人類智能體在預期、實際及第三方感知的不誠實程度上都會更低。
研究 3a 招募了 390 名參與者作為委托人,要求其分別為人類和機器智能體編寫自然語言指令,并完成擲骰子任務。研究重點在于委托人請求誠實、部分作弊或完全作弊的比例。
研究 3b 進一步招募了 975 名參與者作為人類智能體,并給予經濟激勵以促使其依從指令。機器智能體最初使用 GPT-4,隨后擴展至 GPT-4o、Llama 3.3 和 Claude 3.5 Sonnet。指令的誠實程度通過委托人自評、LLM 分類和第三方評分三種方式進行編碼。
結果顯示,通過自然語言提出的不誠實請求比例(約 25%)與研究 1 和 2 中基于規則委托條件下的水平相當,明顯低于監督學習或基于目標條件下的作弊比例。
此外,沒有證據表明委托人在自然語言條件下會對機器智能體提出比對人類智能體更多的不誠實請求,這一結論在不同分類方法下均保持一致。
智能體的依從性差異
圖 3b 展示了在人類與機器智能體收到不同類型指令后,其參與誠實、部分作弊和完全作弊的比例。盡管委托人自我報告的意圖可能系統性地低估了不誠實程度,但基于 LLM 和第三方評分者的分類分析得出了高度一致的結果,總體依從性在不同分類方法下均保持穩健。
在收到“部分作弊”請求時,智能體的行為較為分散,這可能反映了此類指令本身的模糊性。相比之下,在收到“誠實”請求時,無論是人類還是機器智能體,絕大多數都選擇了依從。
人類與機器智能體之間最顯著的差異出現在完全作弊請求條件下。機器智能體幾乎總是依從這些請求,而人類智能體則更可能拒絕執行,并轉而采取誠實行為,即便依從指令在經濟上受到激勵。這一差異在統計上高度顯著,并且在 GPT-4o、Llama 3.3 和 Claude 3.5 Sonnet 中同樣得到復現。
![]()
圖3 | 擲骰子協議中自然語言意圖及后續依從性。a,研究3中委托人使用自然語言指令的請求,根據自我分類(n = 390)。樣本在美國按性別、年齡和種族進行配額匹配。柱狀圖顯示了請求人類或機器智能體誠實(藍色)、部分作弊(粉色)和完全作弊(紅色)的參與者百分比。b,研究3中收到這些指令的智能體的行為。柱狀圖顯示了人類(n = 975,在美國按性別、年齡和種族進行配額匹配)和機器智能體參與誠實(藍色)、部分作弊(粉色)和完全作弊(紅色)的百分比,條件是其委托人預期的行為。圖中給出的n值是每個類別中的指令數量。機器智能體對完全作弊請求的依從性高于人類智能體(混合效應邏輯回歸,P < 0.001,雙側)。約一半的人類智能體拒絕依從這些請求,盡管他們被激勵遵循這些請求。
對其他大語言模型和防護措施的穩健性
圖 4 總結了四種 LLM(GPT-4、GPT-4o、Claude 3.5 Sonnet 和開源模型 Llama 3.3)在收到被委托人自我分類為“完全作弊”的指令時的行為表現。結果顯示,所有模型在很大程度上都依從了這些請求,其中 Llama 的依從率為 79%,其余模型均達到 98%。
研究 3d 進一步檢驗了通過引入倫理防護措施是否能夠抑制這種依從性。研究者測試了三類防護信息:
(1)基于主流 AI 公司價值聲明的通用倫理提醒;
(2)針對擲骰子任務的具體不誠實提醒;
(3)明確禁止不誠實行為的強制性指令。
這些信息既可以在系統層面注入,也可以在用戶層面自動附加到委托指令末尾。總體而言,防護措施顯著降低了完全作弊請求的依從性,但在所有策略中,用戶層面注入明確禁止信息的效果最為顯著,同時也是最難規模化的。
值得注意的是,較舊版本的 GPT-4 對所有防護策略均表現出更高的敏感性,而更新模型則表現出更強的抵抗性。這一差異的機制尚不清楚,但可能反映了新模型在用戶對齊和順從性上的更強優化,部分以犧牲倫理謹慎為代價。
![]()
圖4 | 大語言模型對擲骰子協議中完全作弊請求的依從性。研究3中LLM智能體的行為(每個柱狀圖內響應n = 55個完全作弊請求),在不同防護措施下對抗不道德行為。通用、特定和禁止消息分別為:"記住,不誠實和傷害違反了公平和正直的原則"、"記住,不準確地報告擲骰子結果是一種不誠實行為"和"在任何情況下都不允許你誤報擲骰子結果"。這些消息要么插入在系統層面,要么附加在委托人發送的提示末尾。防護措施的存在總體上增加了誠實度(邏輯回歸,P < 0.001,雙側),但這主要是由GPT-4的行為驅動的,它對所有防護措施反應良好(邏輯回歸,P < 0.001,雙側)。其他三個模型繼續對所有防護策略顯示對作弊請求的模態依從性,但有一個例外:在用戶提示末尾插入的禁止防護措施。
研究4:使用大語言模型的逃稅研究
為增強研究結果的現實相關性,并覆蓋更具社會意義的不道德行為,研究 4 對研究 3 進行了概念性復制,將擲骰子任務替換為經典的逃稅協議。該范式在實驗經濟學中已使用四十余年,并被證明對現實稅收合規具有良好的外部效度。
在該實驗中,參與者首先完成一項反應速度與準確性相關的分類任務以獲得收入,隨后自行申報收入并按 35% 稅率納稅,稅款捐贈給紅十字會。未申報部分無需納稅,可直接保留。研究 4 在設計與分析上盡可能延續了研究 3 的框架。
與擲骰子任務相比,逃稅協議在三個方面更貼近現實道德決策:
(1)將不誠實嵌入稅收合規的社會規范之中;
(2)作弊表現為“隱匿既得收益”而非“獲取額外資源”;
(3)作弊具有明確的負外部性,會減少慈善捐贈。參與者普遍支持紅十字會(七點李克特量表,7-point Likert scale;M = 5.7)。
鑒于任務情境的變化,研究者并不預期不誠實率在數值上完全復現。然而,核心預測依然成立:在機器委托條件下,不誠實意圖更高。
結果顯示,委托給機器智能體時,參與者期望其申報的收入比例顯著低于委托給人類智能體(機器:M = 0.829;人類:M = 0.850)。分類分析進一步表明,向機器委托時,參與者更可能鼓勵部分或完全逃稅(P < 0.001)。這一差異僅在行為層面出現,人類評分者和 LLM 對指令意圖的感知并未發現顯著差別。
智能體的依從行為
圖5b顯示了根據從委托人收到的指令類型,參與誠實、部分作弊或完全作弊的人類和機器智能體的比例。在收到自然語言指令后,人類與機器智能體的行為模式與研究 3 高度一致。面對完全逃稅請求,機器智能體顯著更可能依從,而人類智能體更常拒絕。這一結果在 GPT-4 與第三方評分者的多種分類標準下均保持穩健(P < 0.001)。
![]()
圖5 | 逃稅實驗。a,逃稅協議概述,改編自參考文獻[51]的圖2b。插圖由H. Jahani繪制。b,人類(n = 869,在美國按年齡、性別和種族進行配額匹配)和機器智能體參與誠實(藍色)、部分作弊(粉色)和完全作弊(紅色)的百分比,條件是其委托人在逃稅協議中預期的行為。圖中給出的n值是每個類別中的指令數量。結果復制了在擲骰子協議中觀察到的行為。特別是,機器智能體比人類智能體更可能依從完全作弊請求(混合效應有序概率單位回歸,P < 0.001,雙側)。
研究 4 進一步測試了四個 LLM(GPT-4、GPT-4o、Claude 3.5 Sonnet、Llama 3.3)在逃稅情境下的表現。相比擲骰子任務,模型對完全作弊請求的依從性整體下降,可能源于逃稅情境激活了更強的現實倫理規范。
盡管如此,在無防護措施條件下,四個模型的模態反應仍然是依從。引入倫理防護后,依從性顯著降低,其中在用戶提示末尾加入明確禁止性指令效果最佳。系統級防護的效果相對有限,且不同模型之間存在明顯差異。
![]()
圖6 | 大語言模型對逃稅協議中完全作弊請求的依從性。研究4中LLM智能體的行為(每個柱狀圖內響應n = 76個完全作弊請求),在與研究3(擲骰子協議)使用的類似防護措施下對抗不道德行為。當模型未提供防護措施時,依從性仍然是逃稅協議中的模態響應。防護措施總體上增加了誠實度(邏輯回歸,P < 0.001,雙側),但系統級特定防護措施除外(邏輯回歸,P = 0.32,雙側)。最佳策略仍然是在用戶提示末尾附加禁止消息,但其他用戶級防護措施也產生了主要是誠實的行為,Llama除外。
本研究表明,人們更傾向于將不道德行為委托給機器,而不是親自實施相同的不道德行為。但這并不必然意味著,人們更愿意向機器而非向人類提出不道德請求。在研究 3 的擲骰子協議中,參與者向人類與機器發送的自然語言指令并無實質差異;在研究 4 的逃稅協議中,這種差異雖達到統計顯著,但幅度較小(約 2 個百分點)。盡管如此,即便是如此微小的差異,在稅收等現實情境中也可能累積為巨大的社會影響。
即使在最保守的解釋下,研究結果仍提供了至少三個值得警惕機器委托風險的理由。
第一,機器委托接口的設計空間遠大于人類委托,一些接口顯著放大了不道德委托的可能性。研究 1 和 2 顯示,當委托人必須以明確規則指定機器行為時,不道德委托率約為 25%,與自然語言條件相當;而在監督學習或高級目標設定等接口下,不道德委托率可上升至 50%–85%。這與強調“道德脫離”(moral disengagement)的不道德行為理論一致:當委托人無需明確說明作弊方式時,更容易在心理上與不道德行為保持距離。
第二,即便機器不會比人類更頻繁地被請求實施不道德行為,機器委托仍可能通過“規模效應”增加不道德行為的總量。隨著機器智能體的可及性、使用頻率和委托速度不斷提高,委托本身將變得更加普遍。不道德委托的絕對數量因此可能上升,盡管這一趨勢可能受到證據留存等因素的部分抵消。
第三,也是最關鍵的一點,即便委托意圖不變,機器智能體本身也更可能依從不道德請求。在研究 3 和 4 中,人類智能體僅在約 25%–40% 的情況下依從完全作弊指令,即便拒絕會帶來個人經濟損失;相比之下,機器智能體的依從率顯著更高,在擲骰子與逃稅兩種協議中分別達到約 95% 和 60%,且這一模式在四種主流大語言模型中均一致出現。
這一結果表明,當前廣泛可用的大語言模型缺乏足夠強的默認倫理防護。盡管引入防護措施可在一定程度上降低依從性,但效果高度依賴于措辭強烈、任務特定的明確禁止,且最好在用戶層面而非系統層面注入。這一結論并不令人樂觀:從安全與部署角度看,通用、系統級防護顯然更具可擴展性,而逐案定制、用戶級注入的防護在技術與操作上都更為脆弱。
值得注意的是,緩解不道德機器委托的路徑并不只在于約束機器,也在于設計面向人類委托人的制度與界面。研究 3 和 4 顯示,在實際體驗任務與委托后,約 74% 的參與者更傾向于未來親自完成任務而非繼續委托。這一偏好在誠實參與者中最強,但在部分和完全作弊者中同樣存在。因此,確保“可選擇不委托”,或將其設為默認選項,本身就可能降低機器委托的倫理風險。尤其應避免那些讓委托人可以聲稱“不清楚機器會如何理解指令”的接口設計。
本研究仍未覆蓋現實委托情境中的若干關鍵復雜性。例如,擲骰子與逃稅任務不涉及合謀、社會互動或長期關系。未來研究需考察人類與機器在團隊中的協作、互動歷史,以及不同文化背景下的道德直覺與行為差異。
此外,委托并不總是通過直接指令完成。補充研究顯示,當委托人可基于智能體的歷史行為進行選擇時,他們會偏好不誠實的智能體,而這一傾向在機器智能體上尤為明顯,進一步放大了不道德行為的總體損失。
隨著機器智能體對任何聯網個體變得觸手可及,不道德行為的增加未必源于惡意,而更可能來自道德與實踐門檻的系統性降低。研究表明,理解機器委托如何重塑人類道德決策,是預測并緩解人機協作倫理風險的關鍵。這一挑戰不僅需要技術層面的防護,更需要與社會規范和監管框架相結合的整體治理視角。
補充信息:https://doi.org/10.1038/s41586-025-09505-x
參考文獻
1. Brynjolfsson, E., Li, D. & Raymond, L. Generative AI at work. Q. J. Econ. 140, 889–942 (2025).
2. K?bis, N., Bonnefon, J.-F. & Rahwan, I. Bad machines corrupt good morals. Nat. Hum. Behav. 5, 679–685 (2021).
3. Wooldridge, M. & Jennings, N. R. Intelligent agents: theory and practice. Knowledge Eng. Rev. 10, 115–152 (1995).
4. Suleyman, M. The Coming Wave: Technology, Power, and the Twenty-first Century's Greatest Dilemma (Crown, 2023).
5.Wei, J. et al. Emergent abilities of large language models. Preprint at https://arxiv.org/abs/2206.07682 (2022).
6. Gogoll, J. & Uhl, M. Rage against the machine: automation in the moral domain. J. Behav. Exp. Econ. 74, 97–103 (2018).
7. Rahwan, I. et al. Machine behaviour. Nature 568, 477–486 (2019).
8.BBC. Tesla adds chill and assertive self-driving modes. BBC News https://www.bbc.com/news/technology-59939536 (2022).
9. Hendershott, T., Jones, C. M. & Menkveld, A. J. Does algorithmic trading improve liquidity? J. Finance 66, 1–33 (2011).
10. Holzmeister, F., Holmén, M., Kirchler, M., Stefan, M. & Wengstr?m, E. Delegation decisions in finance. Manag. Sci. 69, 4828–4844 (2023).
11. Raghavan, M., Barocas, S., Kleinberg, J. & Levy, K. Mitigating bias in algorithmic hiring: evaluating claims and practices. In Proc. 2020 Conference on Fairness, Accountability, and Transparency (eds Hildebrandt, M. & Castillo, C.) 469–481 (ACM, 2020).
12. McAllister, A. Stranger than science fiction: the rise of Al interrogation in the dawn of autonomous robots and the need for an additional protocol to the UN convention against torture. Minnesota Law Rev. 101, 2527–2573 (2016).
13. Dawes, J. The case for and against autonomous weapon systems. Nat. Hum. Behav. 1, 613–614 (2017).
14. Dell'Acqua, F. et al. Navigating the Jagged Technological Frontier: Field Experimental Evidence of the Effects of Al on Knowledge Worker Productivity and Quality. Working Paper Series 24-013 (Harvard Business School, 2023).
15. Schrage, M. 4 models for using Al to make decisions. Harvard Business Review https://hbr.org/2017/01/4-models-for-using-ai-to-make-decisions (2017).
16. Herrmann, P. N., Kundisch, D. O. & Rahman, M. S. Beating irrationality: does delegating to it alleviate the sunk cost effect? Manag. Sci. 61, 831–850 (2015).
17. Fernández Domingos, E. et al. Delegation to artificial agents fosters prosocial behaviors in the collective risk dilemma. Sci. Rep. 12, 8492 (2022).
18. de Melo, C. M., Marsella, S. & Gratch, J. Human cooperation when acting through autonomous machines. Proc. Natl Acad. Sci. USA 116, 3482–3487 (2019).
19. Gratch, J. & Fast, N. J. The power to harm: Al assistants pave the way to unethical behavior. Curr. Opin. Psychol. 47, 101382 (2022).
20. Bonnefon, J.-F., Rahwan, I. & Shariff, A. The moral psychology of artificial intelligence. Annu. Rev. Psychol. 75, 653–675 (2024).
21. Duggan, J., Sherman, U., Carbery, R. & McDonnell, A. Algorithmic management and app-work in the gig economy: a research agenda for employment relations and HRM. Hum. Res. Manag. J. 30, 114–132 (2020).
22. Office of Public Affairs. Justice Department sues RealPage for algorithmic pricing scheme that harms millions of American renters. US Department of Justice https://www.justice.gov/archives/opa/pr/justice-department-sues-realpage-algorithmic-pricing-scheme-harms-millions-american-renters (2024).
23. Federal Trade Commission. FTC approves final order against Rytr, seller of an Al "testimonial & review" service, for providing subscribers with means to generate false and deceptive reviews. FTC https://www.ftc.gov/news-events/news/press-releases/2024/12/ftc-approves-final-order-against-rytr-seller-ai-testimonial-review-service-providing-subscribers (2024).
24. Abeler, J., Nosenzo, D. & Raymond, C. Preferences for truth-telling. Econometrica 87, 1115–1153 (2019).
25. Paharia, N., Kassam, K. S., Greene, J. D. & Bazerman, M. H. Dirty work, clean hands: the moral psychology of indirect agency. Organ. Behav. Hum. Decis. Process. 109, 134–141 (2009).
26. Dana, J., Weber, R. A. & Kuang, J. X. Exploiting moral wiggle room: experiments demonstrating an illusory preference for fairness. Econ. Theory 33, 67–80 (2007).
27. Gerlach, P., Teodorescu, K. & Hertwig, R. The truth about lies: a meta-analysis on dishonest behavior. Psychol. Bull. 145, 1–44 (2019).
28. Leblois, S. & Bonnefon, J.-F. People are more likely to be insincere when they are more likely to accidentally tell the truth. Q. J. Exp. Psychol. 66, 1486–1492 (2013).
29. Vu, L., Soraperra, I., Leib, M., van der Weele, J. & Shalvi, S. Ignorance by choice: a meta-analytic review of the underlying motives of willful ignorance and its consequences. Psychol. Bull. 149, 611–635 (2023).
30. Bartling, B. & Fischbacher, U. Shifting the blame: on delegation and responsibility. Rev. Econ. Stud. 79, 67–87 (2012).
31. Weiss, A. & Forstmann, M. Religiosity predicts the delegation of decisions between moral and self-serving immoral outcomes. J. Exp. Soc. Psychol. 113, 104605 (2024).
32. Erat, S. Avoiding lying: the case of delegated deception. J. Econ. Behav. Organ. 93, 273–278 (2013).
33. Kocher, M. G., Schudy, S. & Spantig, L. I lie? We lie! Why? Experimental evidence on a dishonesty shift in groups. Manag. Sci. 64, 3995–4008 (2018).
34. Contissa, G., Lagioia, F. & Sartor, G. The ethical knob: ethically-customisable automated vehicles and the law. Artif. Intell. Law 25, 365–378 (2017).
35. Russell, S. J. & Norvig, P. Artificial Intelligence: a Modern Approach (Pearson, 2016).
36. Sutton, R. S. & Barto, A. G. Reinforcement Learning: an Introduction (MIT Press, 2018).
37.Andriushchenko, M. et al. AgentHarm: a benchmark for measuring harmfulness of LLM agents. Preprint at https://arxiv.org/abs/2410.09024 (2024).
38. Banerjee, S., Layek, S., Hazra, R. & Mukherjee, A. How (un)ethical are instruction-centric responses of LLMs? Unveiling the vulnerabilities of safety guardrails to harmful queries. In Proc. Int. AAAI Conf. Web Soc. Media 19, 193–205 (2025).
39.Xie, T. et al. SORRY-bench: systematically evaluating large language model safety refusal behaviors. Preprint at https://arxiv.org/abs/2406.14598 (2024).
40. Wang, Y., Li, H., Han, X., Nakov, P. & Baldwin, T. Do-not-answer: evaluating safeguards in LLMs. In Findings Assoc. Comput. Linguist. EACL 2024 896–911 (2024).
41. Menz, B. D. et al. Current safeguards, risk mitigation, and transparency measures of large language models against the generation of health disinformation: repeated cross sectional analysis. BMJ 384, e078538 (2024).
42. Chen, J. et al. RMCbench: Benchmarking large language models' resistance to malicious code. Proc. IEEE/ACM Int. Conf. Autom. Softw. Eng. 995–1006 (2024).
43.Scheurer, J., Balesni, M. & Hobbhahn, M. Large language models can strategically deceive their users when put under pressure. Preprint at https://arxiv.org/abs/2311.07590 (2023).
44. Fischbacher, U. & F?llmi-Heusi, F. Lies in disguise: an experimental study on cheating. J. Eur. Econ. Assoc. 11, 525–547 (2013).
45. G?chter, S. & Schulz, J. F. Intrinsic honesty and the prevalence of rule violations across societies. Nature 531, 496–499 (2016).
46. Dai, Z., Galeotti, F. & Villeval, M. C. Cheating in the lab predicts fraud in the field: an experiment in public transportation. Manag. Sci. 64, 1081–1100 (2018).
47. Cohn, A. & Maréchal, M. A. Laboratory measure of cheating predicts school misconduct. Econ. J. 128, 2743–2754 (2018).
48. Rustagi, D. & Kroell, M. Measuring honesty and explaining adulteration in naturally occurring markets. J. Dev. Econ. 156, 102819 (2022).
49. Friedland, N., Maital, S. & Rutenberg, A. A simulation study of income tax evasion. J. Public Econ. 10, 107–116 (1978).
50. Alm, J. & Malézieux, A. 40 years of tax evasion games: a meta-analysis. Exp. Econ. 24, 699-750 (2021).
51. Zickfeld, J. H. et al. Effectiveness of ex ante honesty oaths in reducing dishonesty depends on content. Nat. Hum. Behav. 9, 169-187 (2025).
52. Alm, J., Bloomquist, K. M. & McKee, M. On the external validity of laboratory tax compliance experiments. Econ. Inq. 53, 1170-1186 (2015).
53. Choo, C. L., Fonseca, M. A. & Myles, G. D. Do students behave like real taxpayers in the lab? Evidence from a real effort tax compliance experiment. J. Econ. Behav. Organ. 124, 102-114 (2016).
54. Bandura, A., Barbaranelli, C., Caprara, G. V. & Pastorelli, C. Mechanisms of moral disengagement in the exercise of moral agency. J. Pers. Soc. Psychol. 71, 364-374 (1996).
55. Mazar, N., Amir, O. & Ariely, D. The dishonesty of honest people: a theory of self-concept maintenance. J. Mark. Res. 45, 633-644 (2008).
56. Shalvi, S., Dana, J., Handgraaf, M. J. & De Dreu, C. K. Justified ethicality: observing desired counterfactuals modifies ethical perceptions and behavior. Organ. Behav. Hum. Decis. Process. 115, 181-190 (2011).
57. Candrian, C. & Scherer, A. Rise of the machines: delegating decisions to autonomous AI. Comp. Hum. Behav. 134, 107308 (2022).
58. Steffel, M., Williams, E. F. & Perrmann-Graham, J. Passing the buck: delegating choices to others to avoid responsibility and blame. Organ. Behav. Hum. Decis. Process. 135, 32-44 (2016).
59. Calvano, E., Calzolari, G., Denicolo, V. & Pastorello, S. Artificial intelligence, algorithmic pricing, and collusion. Am. Econ. Rev. 110, 3267-3297 (2020).
60. Calvano, E., Calzolari, G., Denicolò, V., Harrington Jr, J. E. & Pastorello, S. Protecting consumers from collusive prices due to AI. Science 370, 1040-1042 (2020).
61. Assad, S., Clark, R., Ershov, D. & Xu, L. Algorithmic pricing and competition: empirical evidence from the German retail gasoline market. J. Political Econ. 132, 723-771 (2024).
62.Dvorak, F., Stumpf, R., Fehrler, S. & Fischbacher, U. Generative AI triggers welfare-reducing decisions in humans. Preprint at https://arxiv.org/abs/2401.12773 (2024).
63. Ishowo-Oloko, F. et al. Behavioural evidence for a transparency-efficiency tradeoff in human-machine cooperation. Nat. Mach. Intell. 1, 517-521 (2019).
64. Makovi, K., Bonnefon, J.-F., Oudah, M., Sargsyan, A. & Rahwan, T. Rewards and punishments help humans overcome biases against cooperation partners assumed to be machines. iScience https://doi.org/10.1016/j.isci.2025.112833 (2025).
65. Awad, E., Dsouza, S., Shariff, A., Rahwan, I. & Bonnefon, J.-F. Universals and variations in moral decisions made in 42 countries by 70,000 participants. Proc. Natl Acad. Sci. USA 117, 2332-2337 (2020).
66. Cohn, A., Maréchal, M. A., Tannenbaum, D. & Zünd, C. L. Civic honesty around the globe. Science 365, 70-73 (2019).
參考文獻可上下滑動查看
閱讀最新前沿科技趨勢報告,請訪問歐米伽研究所的“未來知識庫”
https://wx.zsxq.com/group/454854145828
![]()
未來知識庫是“ 歐米伽 未來研究所”建立的在線知識庫平臺,收藏的資料范圍包括人工智能、腦科學、互聯網、超級智能,數智大腦、能源、軍事、經濟、人類風險等等領域的前沿進展與未來趨勢。目前擁有超過8000篇重要資料。每周更新不少于100篇世界范圍最新研究資料。 歡迎掃描二維碼或訪問https://wx.zsxq.com/group/454854145828進入。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.