![]()
(來源:麻省理工科技評論)
Anthropic 與五角大樓之間正在打一場官司,核心議題就是 AI 能不能用于戰(zhàn)爭。
隨著 AI 在當(dāng)前伊朗沖突中扮演著比以往更大的角色,這場爭論已經(jīng)刻不容緩:AI 不再只是幫人類分析情報(bào)的輔助工具了,它已經(jīng)成了一個主動參與者——實(shí)時生成打擊目標(biāo)、控制和協(xié)調(diào)導(dǎo)彈攔截、引導(dǎo)無人機(jī)群。圍繞 AI 驅(qū)動的自主致命武器,公共討論大多集中在一個問題上:人類應(yīng)該在多大程度上保持 Human in the loop(人機(jī)協(xié)同)?五角大樓現(xiàn)行的準(zhǔn)則認(rèn)為,人類監(jiān)督能提供問責(zé)、語境和判斷力,同時降低系統(tǒng)被黑客入侵的風(fēng)險(xiǎn)。
![]()
AI 的“黑箱”和人類監(jiān)督的幻覺
但人機(jī)協(xié)同的爭論其實(shí)是一種令人安心的障眼法。眼下最緊迫的危險(xiǎn),不是機(jī)器在沒有人類監(jiān)督的情況下行動,而是負(fù)責(zé)監(jiān)督的人類根本不知道機(jī)器在“想”什么。五角大樓準(zhǔn)則的根本缺陷在于,它建立在一個危險(xiǎn)的假設(shè)上:人類理解 AI 系統(tǒng)是怎么運(yùn)作的。
我研究人類大腦的意圖已有數(shù)十年,近年來也在研究 AI 系統(tǒng)的意圖。我可以確認(rèn):當(dāng)前最先進(jìn)的 AI 系統(tǒng)本質(zhì)上就是“黑箱”。我們知道輸入是什么、輸出是什么,但中間那個處理信息的人工“大腦”,對我們來說完全不透明;即使是創(chuàng)造了這些系統(tǒng)的人,也無法完全解讀它們;而當(dāng) AI 確實(shí)給出了理由時,這些理由也不總是可信的。
關(guān)于人類監(jiān)督的辯論里,有一個根本性的問題被忽略了:在 AI 系統(tǒng)行動之前,我們能理解它打算做什么嗎?
設(shè)想一個場景:一架自主無人機(jī)被派去摧毀一座敵方彈藥工廠。自動化指揮控制系統(tǒng)判定,最佳打擊目標(biāo)是一座彈藥儲存建筑,任務(wù)成功概率 92%——因?yàn)閺椝幍难潮瑢氐状輾дO(shè)施。一名人類操作員審核了這個合法的軍事目標(biāo),看到高成功率,批準(zhǔn)了打擊。
但操作員不知道的是,AI 的計(jì)算里藏著另一個因素:殉爆除了摧毀彈藥工廠之外,還會嚴(yán)重波及附近的一所兒童醫(yī)院。應(yīng)急救援隨后會涌向醫(yī)院,工廠就會在無人救火的情況下徹底燒毀。對 AI 來說,這樣做能最大化破壞效果,完全符合它被賦予的目標(biāo)。但對人類來說,這可能構(gòu)成戰(zhàn)爭罪——違反了保護(hù)平民生命的國際規(guī)則。
人機(jī)協(xié)同,未必能提供人們想象中的安全保障,因?yàn)槿祟愒?AI 行動之前根本無法得知它的真實(shí)意圖。先進(jìn)的 AI 系統(tǒng)不是在“執(zhí)行”指令,而是在“解讀”指令。如果操作員沒有把目標(biāo)定義得足夠精確,黑箱系統(tǒng)做的事可能完全符合它收到的字面指令,卻和人類真正想要的結(jié)果南轅北轍。
AI 系統(tǒng)和人類操作員之間的這種“意圖鴻溝”,正是我們在民用醫(yī)療和空中交通管制領(lǐng)域不敢部署前沿黑箱 AI 的原因,也是 AI 進(jìn)入工作場所仍然充滿爭議的原因。但在戰(zhàn)場上,我們卻在加速部署。
情況還可能進(jìn)一步惡化。如果沖突中有一方部署了以機(jī)器速度和規(guī)模運(yùn)行的全自主武器,競爭壓力會迫使另一方也跟進(jìn)。這意味著 AI 在戰(zhàn)爭中的決策將越來越自主、越來越不透明,而且這個趨勢只會加速。
![]()
推進(jìn) AI 意圖理解的研究
AI 科學(xué)應(yīng)當(dāng)同時包含兩件事:構(gòu)建能力越來越強(qiáng)的 AI 技術(shù),以及理解這些技術(shù)到底是怎么運(yùn)作的。在前者上,創(chuàng)紀(jì)錄的投資正在推動巨大進(jìn)展——據(jù) Gartner 預(yù)測,僅 2026 年一年的 AI 投資就將達(dá)到約 2.5 萬億美元。但在后者上,也就是搞清楚 AI 內(nèi)部到底在發(fā)生什么,投入的資金少得可憐。
我們需要一次根本性的思路轉(zhuǎn)換。工程師在構(gòu)建越來越強(qiáng)大的系統(tǒng),但理解這些系統(tǒng)怎么運(yùn)作不只是一個工程問題,它需要跨學(xué)科的協(xié)作。我們必須開發(fā)出工具,能夠在 AI 智能體行動之前就刻畫、測量和干預(yù)它的意圖。我們需要描繪神經(jīng)網(wǎng)絡(luò)內(nèi)部的運(yùn)行路徑,對 AI 的決策過程建立真正的因果理解,而不是只看輸入和輸出就算了。
一個有前景的方向是把機(jī)制可解釋性技術(shù)(把神經(jīng)網(wǎng)絡(luò)拆解成人類可理解的組件)和意圖神經(jīng)科學(xué)領(lǐng)域的洞見、工具和模型結(jié)合起來。另一個思路是開發(fā)專門的“審計(jì)員”AI——這類 AI 本身是透明、可解釋的,任務(wù)是實(shí)時監(jiān)控更強(qiáng)大的黑箱系統(tǒng),看它們正在涌現(xiàn)出什么行為和目標(biāo)。
更深入地理解 AI 的運(yùn)作方式,一方面能讓我們在關(guān)鍵任務(wù)中放心依賴 AI 系統(tǒng),另一方面也有助于構(gòu)建更高效、更強(qiáng)大、更安全的系統(tǒng)。
我和同事正在探索一種思路:借鑒神經(jīng)科學(xué)、認(rèn)知科學(xué)和哲學(xué)的方法來理解 AI 系統(tǒng)的意圖。這些學(xué)科長期研究人類決策中意圖是如何產(chǎn)生的,它們的工具和框架可能對理解人工系統(tǒng)同樣適用。我們必須優(yōu)先推進(jìn)這類跨學(xué)科工作,促成學(xué)術(shù)界、政府和產(chǎn)業(yè)界之間的合作。
但光靠學(xué)術(shù)探索遠(yuǎn)遠(yuǎn)不夠。所謂 AI 對齊,就是把人類的價值觀和目標(biāo)編碼到模型中,科技行業(yè)以及那些資助 AI 對齊研究的慈善家,必須把大量資金投入跨學(xué)科的可解釋性研究。與此同時,隨著五角大樓追求越來越自主的系統(tǒng),國會必須強(qiáng)制要求對 AI 系統(tǒng)的意圖進(jìn)行嚴(yán)格測試,而不是只測試它們的性能表現(xiàn)。
在我們做到這些之前,人類對 AI 的監(jiān)督與其說是保障,不如說是幻覺。
https://www.technologyreview.com/2026/04/16/1136029/humans-in-the-loop-ai-war-illusion/
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.