英國政府機構(gòu)發(fā)布報告：AI安全防護措施正在改善

2025-12-19 17:30:06　來源: 至頂頭條

北京舉報

分享至

英國政府支持的AI安全研究所（AISI）今日發(fā)布一份深度報告，該機構(gòu)聲稱確保人工智能模型按預(yù)期正常運行的安全防護措施正在改善。這份報告匯集了該機構(gòu)在網(wǎng)絡(luò)安全及其他科學(xué)領(lǐng)域開展的兩年AI研究和實驗成果。

《前沿AI趨勢報告》是對先進AI系統(tǒng)演進情況的公開評估，旨在提供一個"清晰、基于證據(jù)"的視角，并強化相關(guān)討論——這些討論過去常常被猜測和缺乏證據(jù)所主導(dǎo)。

AI部長卡尼什卡·納拉揚表示："這份報告展示了英國對負(fù)責(zé)任開發(fā)AI的重視程度。這意味著確保防護措施足夠穩(wěn)健，并直接與開發(fā)者合作測試領(lǐng)先系統(tǒng)，在它們廣泛使用之前發(fā)現(xiàn)漏洞并修復(fù)。"

他說："通過世界領(lǐng)先的AI安全研究所，我們正在政府內(nèi)部建立科學(xué)能力，以便在這些系統(tǒng)演進的過程中就理解它們，而不是事后才行動，并提高整個行業(yè)的標(biāo)準(zhǔn)。這份報告將證據(jù)而非猜測置于我們思考AI的核心位置，這樣我們就能釋放其在增長、更好的公共服務(wù)和國家振興方面的益處，同時將信任和安全放在首要位置。"

測試結(jié)果顯示顯著進步

AISI表示，盡管其測試的每個系統(tǒng)都容易受到某種形式的繞過攻擊，且防護措施差異很大，但仍取得了巨大進展。其中一個重要進展體現(xiàn)在該研究所的紅隊人員發(fā)現(xiàn)模型安全規(guī)則的通用越獄方法所需的時間，從幾分鐘增加到數(shù)小時，跨越多個模型世代，標(biāo)志著顯著改善。

在網(wǎng)絡(luò)安全相關(guān)事項方面，AISI發(fā)現(xiàn)AI模型在處理學(xué)徒級網(wǎng)絡(luò)任務(wù)時的成功率約為50%，而在24個月前這一比例還不到10%。

此外，AI系統(tǒng)在無需任何人工指導(dǎo)的情況下能夠完成的網(wǎng)絡(luò)任務(wù)持續(xù)時間似乎每八個月翻一番。AISI稱，今年首次有AI模型完成了專家級網(wǎng)絡(luò)任務(wù)，該級別任務(wù)被定義為人類需要長達(dá)10年工作經(jīng)驗才能獨立完成。

其他關(guān)鍵發(fā)現(xiàn)

其他與網(wǎng)絡(luò)安全無關(guān)的關(guān)鍵發(fā)現(xiàn)包括：對軟件工程AI模型演進速度的洞察，許多模型現(xiàn)在能夠在超過40%的情況下完成長達(dá)一小時的軟件工程任務(wù)，而2023年這一比例僅為5%。在生物學(xué)和化學(xué)領(lǐng)域，一些系統(tǒng)據(jù)稱現(xiàn)在在科學(xué)知識測試中超越了博士級研究人員的表現(xiàn)，并使更高級別的實驗室專業(yè)知識為普通人所用。

AISI的分析還識別出一些與自主性相關(guān)的早期能力跡象，但這些僅在嚴(yán)格控制的實驗條件下觀察到。測試的AI模型均未顯示出有害或自發(fā)行為，不過該研究所指出需要盡早考慮并跟蹤此類因素。

支持AI決策者

AISI謹(jǐn)慎地表示，這份報告——該機構(gòu)希望這是眾多報告中的第一份——并非針對英國政府的一系列政策建議，而是旨在為技術(shù)決策者提供關(guān)于AI系統(tǒng)能力的清晰數(shù)據(jù)，提高透明度，并促進關(guān)于進一步發(fā)展的理性討論。

政府在這方面的角色將是繼續(xù)與產(chǎn)業(yè)界、研究人員和國際合作伙伴一起投資于評估和AI科學(xué)，目的是幫助確保AI能夠帶來增長、就業(yè)機會和改善的公共服務(wù)。

英國將通過繼續(xù)投資于評估和AI科學(xué)來支持這項工作，與產(chǎn)業(yè)界、研究人員和國際合作伙伴合作，確保AI為勤勞的社區(qū)帶來增長、新就業(yè)機會、改善的公共服務(wù)和國家振興。

AISI首席技術(shù)官兼首相AI顧問杰德·梁表示："這份報告提供了迄今為止來自政府機構(gòu)關(guān)于前沿AI發(fā)展速度的最可靠公開證據(jù)。我們的工作是用嚴(yán)謹(jǐn)?shù)目茖W(xué)來消除猜測。這些發(fā)現(xiàn)既突顯了AI的巨大潛力，也強調(diào)了獨立評估對跟上這些發(fā)展步伐的重要性。"

Q&A

Q1：英國AI安全研究所的報告主要發(fā)現(xiàn)了什么？

A：報告發(fā)現(xiàn)AI安全防護措施正在改善。例如，紅隊人員發(fā)現(xiàn)模型安全規(guī)則漏洞所需時間從幾分鐘增加到數(shù)小時；AI模型在學(xué)徒級網(wǎng)絡(luò)任務(wù)上的成功率從不到10%提升到約50%；AI完成網(wǎng)絡(luò)任務(wù)的持續(xù)時間每八個月翻一番，并首次有模型完成專家級任務(wù)。

Q2：AI模型在軟件工程方面有什么進展？

A：AI模型在軟件工程領(lǐng)域取得顯著進步。許多模型現(xiàn)在能夠在超過40%的情況下完成長達(dá)一小時的軟件工程任務(wù)，而在2023年這一比例僅為5%。這表明AI在軟件開發(fā)輔助方面的能力正在快速提升。

Q3：英國發(fā)布這份AI趨勢報告的目的是什么？

A：報告旨在為技術(shù)決策者提供關(guān)于AI系統(tǒng)能力的清晰、基于證據(jù)的數(shù)據(jù)，提高透明度，并促進理性討論，而不是被猜測主導(dǎo)。政府希望通過這份報告支持負(fù)責(zé)任的AI開發(fā)，在釋放AI增長潛力的同時確保信任和安全。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.