網易首頁 > 網易號 > 正文申請入駐

美軍推進大語言模型軍事化應用研究：作戰能力提升與現實困境

2025-09-29 13:25:29　來源: 高端裝備產業研究中心

北京舉報

分享至

美國軍方正積極推進大語言模型(Large Language Model，LLM)的軍事化應用，核心戰略目標是獲取“決策優勢”。在現代沖突中，美軍期望比對手更快、更準確地處理海量信息、生成預測模型并輔助決策。這種對“機器速度”決策的追求，預示著未來作戰將從以人為中心向人工智能輔助甚至人工智能驅動的節奏轉變，其中速度成為關鍵因素。美國國防部(Department of Defense，DoD)將人工智能(Artificial Intelligence，AI)視為在數字化競爭世界中保持軍事優勢的關鍵要素，尤其在應對大力投資人工智能的對手時。國防部的人工智能戰略強調以合法、負責任和可問責的方式利用人工智能，使其符合國家價值觀和戰爭法。

1.ScaleAI：軍事大語言模型發展的基石伙伴

Scale AI自2016年成立以來，一直致力于構建數據驅動的人工智能基礎設施，并迅速將技術優勢擴展到美國國防與情報領域。該公司與美國國防數字和人工智能辦公室(Chief Digital and Artificial Intelligence Office,CDAO)簽署了其他交易協議(Other Transaction Agreement,OTA)，為聯合部隊提供數據策劃和標注服務，助力AI原型從實驗室邁向前線部署。在安全與可控性方面，Scale AI組建了“安全、評估與對齊實驗室”(SEAL)，匯聚紅隊攻防和強化學習人類反饋(Reinforcement Learning from Human Feedback,RLHF)專家，對大型語言模型進行系統級測試和威脅評估，確保模型在極端環境下的穩定性和可控性。

圖 Donovan運作機制

在此背景下，多諾萬平臺(Donovan)應運而生，成為Scale AI面向政府與軍工客戶推出的端到端AI代理管理與部署解決方案。Donovan具備大規模文檔攝取和實時情報分析能力，可在數分鐘內處理超過10萬頁的命令、態勢報告和開源數據，并通過RLHF流水線持續微調模型以滿足作戰需求。平臺內置紅隊工具和定制化評估基準，確保所部署的代理在復雜戰術場景中既能提供準確見解，又能遵循國際人道法和國家情報總監辦公室(Office of the Director of National Intelligence，ODNI)的寫作規范。Donovan已成為首批能夠在分類網絡上運行的大型語言模型基礎設施之一，支持聯合作戰計劃、后勤保障和兵棋推演等關鍵用例，大幅縮短了“從數據到行動”的反饋周期。

圖 Donovan運作邏輯

在Donovan生態內，Defense Llama大語言模型代表了Scale AI與Meta(前Facebook)開源Llama 3模型合作的最新成果。該模型通過Scale的Data Engine進行精細微調，訓練數據囊括軍事條令、國際人道法和國防部AI倫理原則，使其能夠在戰術規劃、目標分析和態勢感知等場景中給出符合專業規范的響應。Defense Llama僅限于在政府專用的、安全受控的系統內部署，且始終保持“人類監督”機制，并可與Donovan平臺無縫銜接，能夠作為智能代理為指揮官提供多域作戰建議和替代行動方案評估。

圖 Donovan演示界面

2.“雷神之錘”項目：整合人工智能以支持作戰規劃

“雷神之錘”(Thunderforge)是美國國防創新小組(Defense Innovation Unit,DIU)的一項旗艦計劃，其目的是將人工智能深度整合到軍事作戰和戰區級規劃中，并與先進的建模和仿真工具相結合。該系統的目標是加速決策，使規劃人員能夠快速綜合海量信息，生成多種行動方案，并進行人工智能驅動的兵棋推演，以預測和應對不斷演變的威脅。DIU領導層指出，當前的規劃方法已過時，無法適應現代戰爭的激烈敏捷性和現代化設備。“雷神之錘”標志著向人工智能驅動、數據驅動戰爭的決定性轉變。

“雷神之錘”技術解決方案將提供人工智能輔助的規劃能力、決策支持工具和自動化工作流程。它利用先進的大型語言模型、人工智能驅動的模擬和交互式基于代理的兵棋推演，以增強美國軍方準備和執行作戰的能力。該系統最初將部署到美國印太司令部(United States Indo-Pacific Command,INDOPACOM)和美國歐洲司令部(United States European Command,EUCOM)，以支持關鍵的規劃活動，包括戰役發展、全戰區資源分配和戰略評估。其跨多個安全領域的整合確保了人工智能驅動的規劃能力將安全地嵌入到實際軍事行動中。

“雷神之錘”是一項多方合作的努力，涉及Scale AI(提供代理應用、生成式人工智能測試和評估專業知識)、Anduril(提供Lattice建模/仿真軟件平臺)和微軟(提供最先進的大型語言模型技術)。該團隊的目標是提供一個統一的規劃生態系統，其中人工智能代理可以模擬兵棋推演和規劃場景，并完善提議的行動方案。

圖 lattice系統界面

微軟作為“雷神之錘”項目的重要技術伙伴，其提供的大型語言模型技術是構建這一先進規劃生態系統的核心組成部分。此外，其他公司如Systematic也在國防人工智能項目中探索利用大語言模型，執行文檔摘要、翻譯和軍事文檔解釋等任務，并研究“大語言模型作為評判者”(LLM-as-a-judge)的技術，以自動化評估模型表現，確保為國防客戶提供高質量的AI產品。

3.戰場環境下軍事大語言模型的可靠性與安全風險考量

軍事大語言模型在決策支持和情報分析中雖展現出明顯優勢，但其內在缺陷和潛在威脅在實戰環境中尤為突出。模型的“幻覺”問題會導致其在關鍵戰術或后勤規劃中產生不準確甚至完全錯誤的輸出，若憑此做出作戰或資源分配決策，將嚴重影響部隊效能和安全。提示注入攻擊能夠繞過現有的安全檢查，誘使模型暴露機密信息或執行惡意指令，一旦發生機密泄露或錯誤指令下發，將對軍事行動造成直接威脅。此外，用于模型微調的敏感軍用數據若管理不當，既可能侵犯第三方知識產權，也會在訓練管道中留下安全漏洞，為對手提供反向工程和情報竊取的機會。

更為嚴重的是，大語言模型的決策過程高度依賴“黑箱”算法，缺乏透明度和可解釋性。一旦在行動中出現誤判或失誤，難以迅速追蹤問題根源，也難以界定是算法偏差、數據質量不佳還是人類監督不到位所致，從而使責任歸屬和問責機制形同虛設。Meta雖對外宣稱禁止將Llama用于軍事活動，卻在內部為國防承包商和情報機構開辟例外，使得合規政策形同擺設，也為其他國家或非國家行為體復制使用模式提供了便利，進一步增加了技術擴散和濫用的風險。綜上所述，除非在嚴格的安全加固、持續的人機協同監督以及透明的審計與問責框架下，否則將大語言模型直接投入戰時決策支持，難以在高度敏感的國防場景中保證可靠性與合規性。

4.結論與未來方向

美軍正加速推進大語言模型(LLM)的軍事化應用，核心目標是奪取“決策優勢”。LLM憑借其“機器速度”的信息分析能力，大幅縮短“從數據到行動”的反饋周期，使指揮官能迅速掌握戰場態勢并生成精準預測，從而搶占先機。大語言模型還能與建模仿真技術的深度融合，為作戰規劃與兵棋推演提供強大支持，實現高效地方案生成與威脅模擬，從而指揮官提供關鍵參考，顯著提升決策制定的效率與速度。

在短期研究與應用中，為應對當前軍事AI的固有挑戰，美軍將著重提升LLM在魯棒性、安全性與可控性方面的表現。其中包括構建嚴密的測試驗證體系、強化數據治理與網絡防護，以及貫徹“有意義的人類主控(Meaningful Human Control, MHC)”原則。這些舉措將確保LLM能無縫嵌入現有指揮控制系統，并在關鍵時刻由人工暫停或糾偏，從而有效抵御“幻覺”誤導、提示注入攻擊和敏感信息泄露，進而構建高效的人機協同操作流程。

從更長遠的視角看，LLM將深度融入陸、海、空及盟軍聯合作戰的全流程。在未來戰爭中，LLM不僅具備強大的信息分析與規劃輔助能力，還有望通過自主學習和推理，實現復雜環境下的自適應決策與資源優化，動態調整戰術部署與優化后勤鏈路，甚至在網絡空間中執行高階威脅識別與響應。這種深度融合將為指揮官提供前所未有的戰場全局洞察與未來行動預判能力。然而，這種能力擴展亦伴隨深層次挑戰，即LLM如何在電磁對抗和網絡攻防等嚴苛環境中持續保持其可靠可控性，以及實現全生命周期的高度透明與責任可溯。(來源：北京藍德信息科技有限公司)

參考文獻

Leadership: Artificial Intelligence in Decision-Making | Article | The United States Army, https://www.army.mil/article/286847/leadership_artificial_intelligence_in_decision_making Innovating Defense: Generative AI's Role in Military Evolution ..., https://www.army.mil/article/286707/innovating_defense_generative_ais_role_in_military_evolution The Pentagon is upping its bet on AI. Here's what it means for the military - QZ.com, https://qz.com/pentagon-scale-ai-us-military-china-1851767958

Research Shows Risk in Using LLMs for Military Decision-Making - Techstrong.ai, https://techstrong.ai/articles/research-shows-risk-in-using-llms-for-military-decision-making/us department of defense responsible artificial intelligence strategy ..., https://www.ai.mil/Portals/137/Documents/Resources%20Page/DoD%20Responsible%20AI%20Strategy%20and%20Implementation%20Pathway.pdf

How to Scale AI in Your Business - Oracle, https://www.oracle.com/artificial-intelligence/scale-ai-in-business/

Scale AI: Accelerate the Development of AI Applications, https://scale.com/

Scale AI - Wikipedia, https://en.wikipedia.org/wiki/Scale_AI

Donovan: Empowering the Public Sector with AI Agents | Scale AI, https://scale.com/donovan Scale AI launches Defense Llama - Intelligence Community News, https://intelligencecommunitynews.com/scale-ai-launches-defense-llama/Ethical Principles for Artificial Intelligence, https://www.edinstudy.law.ed.ac.uk/wpcontent/uploads/sites/38/2021/11/US-Ethical-Principles-for-Artificial-Intelligence.pdf

Large Language Models for System Security Engineering Analysis - Army SBIR, https://armysbir.army.mil/topics/large-language-models-system-security-engineering-analysis/Thunderforge Project: Integrating Commercial AI-Powered Decision ..., https://www.diu.mil/latest/dius-thunderforge-project-to-integrate-commercial-ai-powered-decision-making Scale AI awarded Defense Innovation Unit (DIU) Thunderforge contract - OrangeSlices AI, https://orangeslices.ai/introducing-thunderforge-ai-for-american-defense/Transcending weapon systems: the ethical challenges of AI in military decision support systems - Blogs | International Committee of the Red Cross, https://blogs.icrc.org/law-and-policy/2024/09/24/transcending-weapon-systems-the-ethical-challenges-of-ai-in-military-decision-support-systems/Meet Thunderforge—DOD's Latest AI Play - GovCon Wire, https://www.govconwire.com/article/thunderforge-dod-scale-ai-prime-prototype-contract On Large Language Models in National Security Applications (2407.03453v1) - Emergent Mind, https://www.emergentmind.com/articles/2407.03453 CDAO Sponsors Crowdsourced AI Assurance Pilot in the Context of Military Medicine, https://www.defense.gov/News/Releases/Release/Article/4020407/cdao-sponsors-crowdsourced-ai-assurance-pilot-in-the-context-of-military-medici/Rules of Engagement as a Regulatory Framework for Military Artificial Intelligence, https://lieber.westpoint.edu/rules-engagement-regulatory-framework-military-artificial-intelligence/

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.