AI戰(zhàn)爭中的“人類監(jiān)督”是一種幻覺

2026-04-17 13:22:12　來源: DeepTech深科技

北京舉報(bào)

分享至

（來源：麻省理工科技評論）

Anthropic 與五角大樓之間正在打一場官司，核心議題就是 AI 能不能用于戰(zhàn)爭。

隨著 AI 在當(dāng)前伊朗沖突中扮演著比以往更大的角色，這場爭論已經(jīng)刻不容緩：AI 不再只是幫人類分析情報(bào)的輔助工具了，它已經(jīng)成了一個主動參與者——實(shí)時生成打擊目標(biāo)、控制和協(xié)調(diào)導(dǎo)彈攔截、引導(dǎo)無人機(jī)群。圍繞 AI 驅(qū)動的自主致命武器，公共討論大多集中在一個問題上：人類應(yīng)該在多大程度上保持 Human in the loop（人機(jī)協(xié)同）？五角大樓現(xiàn)行的準(zhǔn)則認(rèn)為，人類監(jiān)督能提供問責(zé)、語境和判斷力，同時降低系統(tǒng)被黑客入侵的風(fēng)險(xiǎn)。

AI 的“黑箱”和人類監(jiān)督的幻覺

但人機(jī)協(xié)同的爭論其實(shí)是一種令人安心的障眼法。眼下最緊迫的危險(xiǎn)，不是機(jī)器在沒有人類監(jiān)督的情況下行動，而是負(fù)責(zé)監(jiān)督的人類根本不知道機(jī)器在“想”什么。五角大樓準(zhǔn)則的根本缺陷在于，它建立在一個危險(xiǎn)的假設(shè)上：人類理解 AI 系統(tǒng)是怎么運(yùn)作的。

我研究人類大腦的意圖已有數(shù)十年，近年來也在研究 AI 系統(tǒng)的意圖。我可以確認(rèn)：當(dāng)前最先進(jìn)的 AI 系統(tǒng)本質(zhì)上就是“黑箱”。我們知道輸入是什么、輸出是什么，但中間那個處理信息的人工“大腦”，對我們來說完全不透明；即使是創(chuàng)造了這些系統(tǒng)的人，也無法完全解讀它們；而當(dāng) AI 確實(shí)給出了理由時，這些理由也不總是可信的。

關(guān)于人類監(jiān)督的辯論里，有一個根本性的問題被忽略了：在 AI 系統(tǒng)行動之前，我們能理解它打算做什么嗎？

設(shè)想一個場景：一架自主無人機(jī)被派去摧毀一座敵方彈藥工廠。自動化指揮控制系統(tǒng)判定，最佳打擊目標(biāo)是一座彈藥儲存建筑，任務(wù)成功概率 92%——因?yàn)閺椝幍难潮瑢氐状輾дO(shè)施。一名人類操作員審核了這個合法的軍事目標(biāo)，看到高成功率，批準(zhǔn)了打擊。

但操作員不知道的是，AI 的計(jì)算里藏著另一個因素：殉爆除了摧毀彈藥工廠之外，還會嚴(yán)重波及附近的一所兒童醫(yī)院。應(yīng)急救援隨后會涌向醫(yī)院，工廠就會在無人救火的情況下徹底燒毀。對 AI 來說，這樣做能最大化破壞效果，完全符合它被賦予的目標(biāo)。但對人類來說，這可能構(gòu)成戰(zhàn)爭罪——違反了保護(hù)平民生命的國際規(guī)則。

人機(jī)協(xié)同，未必能提供人們想象中的安全保障，因?yàn)槿祟愒?AI 行動之前根本無法得知它的真實(shí)意圖。先進(jìn)的 AI 系統(tǒng)不是在“執(zhí)行”指令，而是在“解讀”指令。如果操作員沒有把目標(biāo)定義得足夠精確，黑箱系統(tǒng)做的事可能完全符合它收到的字面指令，卻和人類真正想要的結(jié)果南轅北轍。

AI 系統(tǒng)和人類操作員之間的這種“意圖鴻溝”，正是我們在民用醫(yī)療和空中交通管制領(lǐng)域不敢部署前沿黑箱 AI 的原因，也是 AI 進(jìn)入工作場所仍然充滿爭議的原因。但在戰(zhàn)場上，我們卻在加速部署。

情況還可能進(jìn)一步惡化。如果沖突中有一方部署了以機(jī)器速度和規(guī)模運(yùn)行的全自主武器，競爭壓力會迫使另一方也跟進(jìn)。這意味著 AI 在戰(zhàn)爭中的決策將越來越自主、越來越不透明，而且這個趨勢只會加速。

推進(jìn) AI 意圖理解的研究

AI 科學(xué)應(yīng)當(dāng)同時包含兩件事：構(gòu)建能力越來越強(qiáng)的 AI 技術(shù)，以及理解這些技術(shù)到底是怎么運(yùn)作的。在前者上，創(chuàng)紀(jì)錄的投資正在推動巨大進(jìn)展——據(jù) Gartner 預(yù)測，僅 2026 年一年的 AI 投資就將達(dá)到約 2.5 萬億美元。但在后者上，也就是搞清楚 AI 內(nèi)部到底在發(fā)生什么，投入的資金少得可憐。

我們需要一次根本性的思路轉(zhuǎn)換。工程師在構(gòu)建越來越強(qiáng)大的系統(tǒng)，但理解這些系統(tǒng)怎么運(yùn)作不只是一個工程問題，它需要跨學(xué)科的協(xié)作。我們必須開發(fā)出工具，能夠在 AI 智能體行動之前就刻畫、測量和干預(yù)它的意圖。我們需要描繪神經(jīng)網(wǎng)絡(luò)內(nèi)部的運(yùn)行路徑，對 AI 的決策過程建立真正的因果理解，而不是只看輸入和輸出就算了。

一個有前景的方向是把機(jī)制可解釋性技術(shù)（把神經(jīng)網(wǎng)絡(luò)拆解成人類可理解的組件）和意圖神經(jīng)科學(xué)領(lǐng)域的洞見、工具和模型結(jié)合起來。另一個思路是開發(fā)專門的“審計(jì)員”AI——這類 AI 本身是透明、可解釋的，任務(wù)是實(shí)時監(jiān)控更強(qiáng)大的黑箱系統(tǒng)，看它們正在涌現(xiàn)出什么行為和目標(biāo)。

更深入地理解 AI 的運(yùn)作方式，一方面能讓我們在關(guān)鍵任務(wù)中放心依賴 AI 系統(tǒng)，另一方面也有助于構(gòu)建更高效、更強(qiáng)大、更安全的系統(tǒng)。

我和同事正在探索一種思路：借鑒神經(jīng)科學(xué)、認(rèn)知科學(xué)和哲學(xué)的方法來理解 AI 系統(tǒng)的意圖。這些學(xué)科長期研究人類決策中意圖是如何產(chǎn)生的，它們的工具和框架可能對理解人工系統(tǒng)同樣適用。我們必須優(yōu)先推進(jìn)這類跨學(xué)科工作，促成學(xué)術(shù)界、政府和產(chǎn)業(yè)界之間的合作。

但光靠學(xué)術(shù)探索遠(yuǎn)遠(yuǎn)不夠。所謂 AI 對齊，就是把人類的價值觀和目標(biāo)編碼到模型中，科技行業(yè)以及那些資助 AI 對齊研究的慈善家，必須把大量資金投入跨學(xué)科的可解釋性研究。與此同時，隨著五角大樓追求越來越自主的系統(tǒng)，國會必須強(qiáng)制要求對 AI 系統(tǒng)的意圖進(jìn)行嚴(yán)格測試，而不是只測試它們的性能表現(xiàn)。

在我們做到這些之前，人類對 AI 的監(jiān)督與其說是保障，不如說是幻覺。

https://www.technologyreview.com/2026/04/16/1136029/humans-in-the-loop-ai-war-illusion/

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.