最近,美國斯坦福大學(xué)等團(tuán)隊(duì)發(fā)布了一份名為《2025 年基礎(chǔ)模型透明度指數(shù)》(FMTI,The 2025 Foundation Model Transparency Index)的報(bào)告。其中,IBM 以透明度得分最高奪冠,xAI 和 Midjourney 則墊底。
該報(bào)告揭示了一種令人擔(dān)憂的趨勢:隨著技術(shù)的發(fā)展,盡管基礎(chǔ)模型在性能等各方面持續(xù)進(jìn)步,但其在數(shù)據(jù)使用、模型訓(xùn)練和下游影響等方面的透明度卻出現(xiàn)了集體倒退。
這是該報(bào)告自 2023 年以來發(fā)布的第三個(gè)年度版本,就像通過量化透明度為各大基礎(chǔ)模型開發(fā)者做一次“體檢”。
本次評(píng)估共包括 13 家基礎(chǔ)模型公司,其中既有阿里巴巴、DeepSeek 和馬斯克的 xAI 等首次納入報(bào)告的企業(yè),也有 IBM、OpenAI 等老牌科技巨頭。為使評(píng)估更全面,今年的報(bào)告中還涵蓋了數(shù)據(jù)獲取、使用數(shù)據(jù)和監(jiān)控等方面的新指標(biāo)。
![]()
(來源:The 2025 Foundation Model Transparency Index)
從報(bào)告的整體結(jié)果來看,盡管 2024 年報(bào)告顯示模型透明度有短暫的改善,但 2025 年的報(bào)告指出,透明度指數(shù)正呈現(xiàn)倒退:各基礎(chǔ)模型的平均得分從 2024 年的 58 分下降到 2025 年的 40 分,幾乎與 2023 年報(bào)告首次發(fā)布時(shí)的水平相當(dāng)(備注:100 分為滿分)。
報(bào)告顯示,公司在其旗艦?zāi)P偷挠?xùn)練數(shù)據(jù)、訓(xùn)練計(jì)算以及模型部署后的使用和影響方面信息披露最為有限。盡管公司在模型能力評(píng)估和風(fēng)險(xiǎn)評(píng)估方面披露較多,但在方法透明度、第三方參與、可復(fù)現(xiàn)性和訓(xùn)練-測試數(shù)據(jù)重疊報(bào)告方面仍存在挑戰(zhàn)。
![]()
(來源:The 2025 Foundation Model Transparency Index)
從各公司的表現(xiàn)來看差異明顯,其中 IBM 以 95 分獲得透明度最高得分,xAI 和 Midjourney 得分最低,僅 14 分。中國的兩家公司 DeepSeek 和阿里巴巴在透明度的得分則位于中下游。
可以看到的是,公司特征和透明度指數(shù)在某些程度上存在著一些有趣的關(guān)聯(lián),例如開放模型開發(fā)者、以企業(yè)為中心的 B2B 公司、自行準(zhǔn)備透明度報(bào)告的公司以及簽署歐盟 AI 法案通用目的 AI 行為準(zhǔn)則的公司得分高于平均水平。
![]()
(來源:The 2025 Foundation Model Transparency Index)
那么,透明度越高就意味著模型越好嗎?
清華大學(xué)邱寒副教授告訴 DeepTech,“這里的透明度不等同于我們常識(shí)認(rèn)為的開源,而是由一系列明確的打分表組成的量化指標(biāo)——如果不按照這個(gè)指標(biāo)披露相關(guān)的數(shù)據(jù)(而不是什么都沒披露),那么這項(xiàng)指標(biāo)得分就是 0。”
以阿里巴巴 Qwen 和 DeepSeek 得分均為 0 的使用數(shù)據(jù)、影響、部署后監(jiān)控三項(xiàng)指標(biāo)為例:它們都各自含有更詳細(xì)的評(píng)測指標(biāo),得分為 0 并不等于什么都沒有披露,而這些計(jì)算指標(biāo)的方法與開源、安全、性能并不能直接劃等號(hào)。
需要了解的是,透明或開源也并不意味著模型性能更好。從這份報(bào)告來看,透明度得分最高的模型(IBM 的 Granite 3.3),在實(shí)際應(yīng)用場景種的性能表現(xiàn)并不是最頂尖的那批模型。
試想一下,如果有一個(gè)任務(wù)要做,你是會(huì)去選擇微調(diào) Qwen3 或 Claude 的 API,還是會(huì)因?yàn)橥该鞫鹊梅指叨x擇 Granite 3.3?
邱寒認(rèn)為,透明度是安全的前提,但必須明確不一定是報(bào)告中定義的透明:如果公司拒絕披露任何模型生產(chǎn)相關(guān)的信息,比如版權(quán)內(nèi)容、隱私數(shù)據(jù)的濫用確實(shí)難以發(fā)掘和確認(rèn);模型的偏見和價(jià)值觀更難評(píng)測,確實(shí)會(huì)給安全和治理帶來一定的影響。更糟的是,一旦嚴(yán)重安全事故發(fā)生,還可能引發(fā)更粗暴的安全監(jiān)管策略落地,反而進(jìn)一步限制了大模型技術(shù)的進(jìn)步。
該報(bào)告提到,隨著全球政策制定者越來越多地要求某些類型的透明度,這項(xiàng)工作揭示了基礎(chǔ)模型開發(fā)者的當(dāng)前透明度狀態(tài),透明度可能如何變化,以及需要更積極的政策干預(yù)來解決哪些關(guān)鍵信息問題。
正如邱寒所指出的那樣,黑盒模型的評(píng)測技術(shù)可以在一定程度上彌補(bǔ)不透明的問題,而當(dāng)前的透明與否也只是暫時(shí)狀態(tài)。隨著模型落地的深化和監(jiān)管機(jī)制的完善,最終目標(biāo)是“公司不需完全公開,但模型行為可測、聲明可證、安全可控”。
總之,表面上看公司信息披露程度影響透明度,但本質(zhì)上這需要一種權(quán)責(zé)歸屬的清晰界定。通過這份報(bào)告對透明度倒退的警示,我們需要看到,未來需要構(gòu)建一種綜合的激勵(lì)機(jī)制,來理解、評(píng)估并最終確保模型的安全與可信。
參考資料:
https://arxiv.org/abs/2512.10169
運(yùn)營/排版:何晨龍
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.