斯坦福報(bào)告：AI透明度集體倒退！IBM奪冠，馬斯克xAI墊底

2025-12-16 18:13:17　來源: DeepTech深科技

北京舉報(bào)

分享至

最近，美國斯坦福大學(xué)等團(tuán)隊(duì)發(fā)布了一份名為《2025 年基礎(chǔ)模型透明度指數(shù)》（FMTI，The 2025 Foundation Model Transparency Index）的報(bào)告。其中，IBM 以透明度得分最高奪冠，xAI 和 Midjourney 則墊底。

該報(bào)告揭示了一種令人擔(dān)憂的趨勢：隨著技術(shù)的發(fā)展，盡管基礎(chǔ)模型在性能等各方面持續(xù)進(jìn)步，但其在數(shù)據(jù)使用、模型訓(xùn)練和下游影響等方面的透明度卻出現(xiàn)了集體倒退。

這是該報(bào)告自 2023 年以來發(fā)布的第三個(gè)年度版本，就像通過量化透明度為各大基礎(chǔ)模型開發(fā)者做一次“體檢”。

本次評(píng)估共包括 13 家基礎(chǔ)模型公司，其中既有阿里巴巴、DeepSeek 和馬斯克的 xAI 等首次納入報(bào)告的企業(yè)，也有 IBM、OpenAI 等老牌科技巨頭。為使評(píng)估更全面，今年的報(bào)告中還涵蓋了數(shù)據(jù)獲取、使用數(shù)據(jù)和監(jiān)控等方面的新指標(biāo)。

（來源：The 2025 Foundation Model Transparency Index）

從報(bào)告的整體結(jié)果來看，盡管 2024 年報(bào)告顯示模型透明度有短暫的改善，但 2025 年的報(bào)告指出，透明度指數(shù)正呈現(xiàn)倒退：各基礎(chǔ)模型的平均得分從 2024 年的 58 分下降到 2025 年的 40 分，幾乎與 2023 年報(bào)告首次發(fā)布時(shí)的水平相當(dāng)（備注：100 分為滿分）。

報(bào)告顯示，公司在其旗艦?zāi)Ｐ偷挠?xùn)練數(shù)據(jù)、訓(xùn)練計(jì)算以及模型部署后的使用和影響方面信息披露最為有限。盡管公司在模型能力評(píng)估和風(fēng)險(xiǎn)評(píng)估方面披露較多，但在方法透明度、第三方參與、可復(fù)現(xiàn)性和訓(xùn)練-測試數(shù)據(jù)重疊報(bào)告方面仍存在挑戰(zhàn)。

（來源：The 2025 Foundation Model Transparency Index）

從各公司的表現(xiàn)來看差異明顯，其中 IBM 以 95 分獲得透明度最高得分，xAI 和 Midjourney 得分最低，僅 14 分。中國的兩家公司 DeepSeek 和阿里巴巴在透明度的得分則位于中下游。

可以看到的是，公司特征和透明度指數(shù)在某些程度上存在著一些有趣的關(guān)聯(lián)，例如開放模型開發(fā)者、以企業(yè)為中心的 B2B 公司、自行準(zhǔn)備透明度報(bào)告的公司以及簽署歐盟 AI 法案通用目的 AI 行為準(zhǔn)則的公司得分高于平均水平。

（來源：The 2025 Foundation Model Transparency Index）

那么，透明度越高就意味著模型越好嗎？

清華大學(xué)邱寒副教授告訴 DeepTech，“這里的透明度不等同于我們常識(shí)認(rèn)為的開源，而是由一系列明確的打分表組成的量化指標(biāo)——如果不按照這個(gè)指標(biāo)披露相關(guān)的數(shù)據(jù)（而不是什么都沒披露），那么這項(xiàng)指標(biāo)得分就是 0。”

以阿里巴巴 Qwen 和 DeepSeek 得分均為 0 的使用數(shù)據(jù)、影響、部署后監(jiān)控三項(xiàng)指標(biāo)為例：它們都各自含有更詳細(xì)的評(píng)測指標(biāo)，得分為 0 并不等于什么都沒有披露，而這些計(jì)算指標(biāo)的方法與開源、安全、性能并不能直接劃等號(hào)。

需要了解的是，透明或開源也并不意味著模型性能更好。從這份報(bào)告來看，透明度得分最高的模型（IBM 的 Granite 3.3），在實(shí)際應(yīng)用場景種的性能表現(xiàn)并不是最頂尖的那批模型。

試想一下，如果有一個(gè)任務(wù)要做，你是會(huì)去選擇微調(diào) Qwen3 或 Claude 的 API，還是會(huì)因?yàn)橥该鞫鹊梅指叨x擇 Granite 3.3？

邱寒認(rèn)為，透明度是安全的前提，但必須明確不一定是報(bào)告中定義的透明：如果公司拒絕披露任何模型生產(chǎn)相關(guān)的信息，比如版權(quán)內(nèi)容、隱私數(shù)據(jù)的濫用確實(shí)難以發(fā)掘和確認(rèn)；模型的偏見和價(jià)值觀更難評(píng)測，確實(shí)會(huì)給安全和治理帶來一定的影響。更糟的是，一旦嚴(yán)重安全事故發(fā)生，還可能引發(fā)更粗暴的安全監(jiān)管策略落地，反而進(jìn)一步限制了大模型技術(shù)的進(jìn)步。

該報(bào)告提到，隨著全球政策制定者越來越多地要求某些類型的透明度，這項(xiàng)工作揭示了基礎(chǔ)模型開發(fā)者的當(dāng)前透明度狀態(tài)，透明度可能如何變化，以及需要更積極的政策干預(yù)來解決哪些關(guān)鍵信息問題。

正如邱寒所指出的那樣，黑盒模型的評(píng)測技術(shù)可以在一定程度上彌補(bǔ)不透明的問題，而當(dāng)前的透明與否也只是暫時(shí)狀態(tài)。隨著模型落地的深化和監(jiān)管機(jī)制的完善，最終目標(biāo)是“公司不需完全公開，但模型行為可測、聲明可證、安全可控”。

總之，表面上看公司信息披露程度影響透明度，但本質(zhì)上這需要一種權(quán)責(zé)歸屬的清晰界定。通過這份報(bào)告對透明度倒退的警示，我們需要看到，未來需要構(gòu)建一種綜合的激勵(lì)機(jī)制，來理解、評(píng)估并最終確保模型的安全與可信。

參考資料：

https://arxiv.org/abs/2512.10169

運(yùn)營/排版：何晨龍

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.