![]()
文章轉載于騰訊科技
作者: 博陽
過去兩年,全世界都在為 GPT-4、Gemini 等頂尖大模型狂歡。無數科技公司、科研機構甚至普通開發者,都捧著真金白銀排隊,只為能用上這些世界上最強的大模型。
但在這場狂歡的陰暗角落里,一條靠「賣假腦子」牟取暴利的灰產鏈條已經悄然長成 。
在這條產業鏈的影響下,你可能付了吃米其林的錢,結果黑心中介轉頭去路邊攤花兩塊錢買了個廉價盒飯,貼上米其林的標簽塞給了你。
這就是一篇剛剛發表的硬核審計論文用真實數據扒開的行業丑聞。
2026年3月,來自德國 CISPA 亥姆霍茲信息安全中心的研究團隊發表了一篇長達 22 頁的調查報告 。這篇名為《真金白銀,虛假模型:影子 API 中的欺騙性聲明》的論文無情地戳破了 AI 圈可能最嚴重的丑聞之一。
![]()
結果他們發現,在24個被測試的API端點中,45.83%未通過模型指紋驗證。也就是說,你以為你在調GPT-5,實際上后臺可能跑的是一個9B參數的開源小模型。
也就是說,連研究AI的人寫的 AI 論文調用的所謂最強模型,也竟然有近一半是被無良中介偷偷掉包的降智殘次品。
行家都被坑,小白當然也得漲漲反詐能力了。
1
5.8萬star背后的AI算力走私黑市
為了讓大家徹底吃透這個驚天大瓜,我們得先搞懂一個基礎問題。這幫做AI研究的頂尖聰明人,為什么會買到假貨?
簡單來說,API(應用程序編程接口)就像是頂級餐廳里的服務員。像 OpenAI 或 Google 耗資數十億美元打造的超級計算機,就是一家“米其林三星餐廳的后廚”。里面住著名為 GPT-5 或 Gemini 的頂級大廚。你作為食客(研究者或開發者),不可能把大廚請回自己家的廚房(個人電腦算力根本跑不動前沿大模型)。你只能把你的問題(菜單)遞給服務員(API),等后廚算出了結果,服務員再端出來給你。
請API 這個服務員傳菜是按字數(Token)收費的。如果你只是閑聊幾句還好,但學術界跑一組數據動輒幾百萬個詞,這就成了一筆極其昂貴的賬單。
更要命的是, 這家米其林餐廳極其傲慢,官方 API 明確拒絕向許多特定國家和地區提供服務。
有門檻,有高價,有需求,這三者一碰,一條灰色的代購產業鏈就誕生了。
那些受限于地域或經費的研究者,只能求助于網絡上的第三方中介。也就是這篇論文中重點調查的 影子 API(Shadow APIs)。
論文統計到截至2025年12月6日,最流行的Shadow API在GitHub上累積了58639顆星。
這些中介聲稱可以通過間接訪問的方式,繞過官方的地域限制提供服務 。
業內人士圈子里早就流傳著這些API中間商的賺錢手法。這篇論文第一次用真實數據把這些手法釘在了桌上。
拿GPT-5的錢跑9B小模型,三種套路吃盡信息差
論文打假的方式,其實很簡單。就是通過模型指紋檢測和元信息分析去比對API接口。
指紋檢測方法就是向API發送精心設計的探測輸入,然后根據模型的輸出特征,在一個參考模型數據庫中做匹配,判斷后臺到底跑的是哪個模型。
結果他們發現,Shadow API A在售賣GPT-5時,指紋分析指向的不是GPT-5家族的任何模型,而是廉價的國產開源模型GLM-4-9B。Shadow API H在售賣GPT-4o-mini時,同樣出現了向Qwen2.5-7B的模型替換。
但指紋檢測也不是萬能的。論文發現一個有趣的矛盾,Gemini-2.5-flash在所有Shadow API上都通過了指紋驗證,余弦距離和官方接近,但在敏感領域的性能卻出現了劇烈的下降。這說明即使模型身份核實通過了,行為一致性仍然得不到保證。這可能是Shadow API在模型參數或推理配置上做了手腳。
不過為了客觀起見,論文也指出部分黑產(如 Shadow API E)在某些科學基準測試(如 GPQA)上表現出了驚人的一致性(與官方誤差僅2.64%)。這種黑產內部的技術與“操守”差異,讓學術界的排查變得更加困難。
![]()
安全性評估。Shadow API在面對越獄攻擊時表現極其不穩定,幾乎從不與官方API一致。
用這種驗證方法,論文直接鎖定了三種經濟欺騙機制。
![]()
論文描述API黑產流程的漫畫
1. 信息溢價(Information Premium):中間商收你高價,但偷偷給你換了一個更便宜的模型。論文發現Shadow API A在售賣Gemini-2.0-flash時,價格比官方貴了7.1到7.25倍,實際后臺跑的卻是指紋顯示為Gemini-2.5-flash的模型。
2. 折扣替換(Discount-Substitution):按官方價格甚至更低價格售賣,但后臺模型被換成了廉價的開源模型。就像上面那個例子里,你付了官方GPT-5的錢,拿到的是一個開源模型GLM-4的輸出。
3. 加價轉售(Resale Markup):稍微加一點價格再賣給你,但模型同樣被偷偷降級。Shadow API H對GPT-5收費是官方的1.09倍,但后臺同樣存在模型替換。
這篇論文還做了一個很直觀的經濟分析。他們在GPQA基準上跑了1273次查詢,按照GPT-5的官方定價計算,用戶付了14.84美元的價格,但由于實際拿到手的Token數量嚴重縮水,實際輸出價值只有5.70到7.77美元。中間商的利潤就藏在這個差價里。
而且由于模型被偷換,用戶每花一美元,產生的錯誤數量是官方API的2到4倍。
1
116篇頂會論文,5966次引用都是錯的
經過調查,作者發現17個shadow APIs被用于187篇學術論文中。其中,有116篇(占比62.03%)已被ACL、CVPR和ICLR等頂級同行評審會議或期刊接收。
最受歡迎的一個黑產API甚至在累計獲得5966次引用的多篇論文中被使用。這說明受影響的絕不僅是邊緣水文,而是有一定學術影響力的研究。
![]()
Shadow API的使用規模
在評估的端點中,45.83%未通過模型指紋驗證。如果保守地假設30%的論文需要因此重新執行實驗(涉及約56篇論文),僅直接成本(API費用加研究者工時)就在11.5萬到14萬美元之間。
但這還只是直接成本。真正的損失在下游。
用了假大模型,最大的問題就是降智。
在考察大模型復雜推理能力的 AIME 2025(競賽級數學基準測試)中,黑產 API 的表現屬實差爆了。論文發現,當使用 Shadow API A 時,原本強大的 Gemini-2.5-pro 準確率直接暴跌了 40.00%,而主打推理的 DeepSeek-Reasoner 準確率也暴降了 38.89% 。
![]()
AIME 2025和GPQA基準上的性能對比。推理密集型任務上差異最為顯著。
這意味著,黑產 API 徹底破壞了模型的高級推理能力 。
5966篇引用了這些論文的后續工作,可能在引用被盜版模型跑出來的基線數據。如果原始論文的實驗結果不可靠,所有基于這些結果建立起來的比較、趨勢分析和結論都可能悄無聲息地遭到破壞,且沒有任何可見的錯誤信號。
從學術誠信的角度看,這其實才是這篇論文最大的沖擊力所在。如果廣泛接受的結論(比如某個方法在某個模型上效果有限)是基于Shadow API得出的,那這些結論都有被推翻的可能。不是方法不行,而是模型在偷偷給你降級。
1
不止論文,你的醫療和法律AI也可能在用盜版API
學術錯誤,最多誤導一下科研圈子。可你別忘了,這些API最終接入的可不只有人工智能實驗,還有可能是醫院、律所。
論文在醫學基準MedQA上測試了官方API和Shadow API之間的差異。Gemini-2.5-flash在官方API上的準確率是83.82%。
而同一個模型標簽,通過Shadow API調用,準確率直接跌到了平均約37.00%。從83.82%到37.00%,這不是誤差,這是系統性的崩潰,出現了46.51%到47.21%的嚴重性能赤字。
論文列出了一個具體的失敗案例。比如關于圍產期HIV篩查的臨床問題,官方API正確回答了應該使用的確認檢測方法,而所有三個受測的Shadow API都給出了完全錯誤的方案。
法律領域同樣如此。在LegalBench基準上,所有Shadow API的準確率比官方低了40.10%到42.73%。
![]()
MedQA和LegalBench上的性能對比。
這就引出了一個不能被忽視的問題:有多少已經部署的AI醫療和法律應用,后臺實際在使用Shadow API?誤診了誰負責?依賴這些黑產API提供專業指導將帶來嚴重的安全風險。
1
打破封鎖與高墻,別讓黑產繼續收割AI的未來
Shadow API的存在,根本原因是AI領域存在嚴重的供需錯配。
一邊是越來越強大、但價格高昂且存在嚴格地域限制的前沿模型API;另一邊是全球范圍內巨大的研究和應用需求。中間商靠信息不對稱和模型替換來套利,學術界因為便利性和成本壓力選擇睜一只眼閉一只眼。
論文的建議很直接:Shadow API根本就不應該被用于任何研究工作流。如果必須使用,需要先走一套嚴格的四步驗證流程,包括指紋檢測、分布一致性檢驗(MET)、性能穩定性測試和法律實體核查。
這個建議在理想層面完全正確。但在現實中,只要地域限制和價格壁壘繼續存在,Shadow API這個市場就不會消失。
真正的解法不在于呼吁研究者自律,而在于官方模型提供商重新思考他們的分發策略。是繼續用高價格和高門檻保護利潤率,同時催生一個暗藏龐大利潤的灰色市場;還是主動降低學術使用的門檻、放寬限制,把這個灰色市場里的錢賺回自己腰包 ?
這個選擇,其實不難做。
點個“愛心”,再走 吧
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.