網易首頁 > 網易號 > 正文申請入駐

真錢買假模型？187篇論文被「套殼API」坑慘，準確率暴跌

2026-03-10 08:10:06　來源: 機器之心Pro

北京舉報

分享至

編輯｜Panda

近段時間，時不時就有用戶抱怨如今的大模型 API 越來越像「薛定諤的貓」：有時候調用 GPT-5 顯得極其聰明，有時候卻像個智障。我們不禁懷疑大模型到底有沒有在后臺偷偷降智。

現在，一篇來自 CISPA 亥姆霍茲信息安全中心的最新論文《Real Money, Fake Models: Deceptive Model Claims in Shadow APIs》為我們揭開了一點謎底：那些你花真金白銀購買的「第三方 API」，有可能偷偷把前沿大模型換成了廉價的替代品

螞蟻集團工程師陳成的總結推文截圖

該論文在社交網絡上引發了廣泛討論：

來自 X 評論，Credit: @frxiaobei、@DeepSky0605、@AgiRay1015、@Tk206_

論文標題：Real Money, Fake Models: Deceptive Model Claims in Shadow APIs
論文地址：https://arxiv.org/abs/2603.01919

大模型 API 的灰色江湖

眾所周知，受限于高昂的定價、支付壁壘以及特定區域的限制，直接訪問 GPT-5 或 Gemini 2.5 等前沿大模型往往困難重重。這種限制催生了一個龐大的第三方代理服務市場。這些服務在學術界被稱為「影子 API（Shadow API）」，它們聲稱可以通過間接訪問，提供不受區域限制的官方模型服務。

在這個充滿各種「鏡像站」和「代理池」的灰色江湖中，大模型套殼現象早有先例。

回顧過去，無論是某斯坦福 AI 團隊挪用清華系開源大模型 MiniCPM 的風波（參閱報道《斯坦福爆火 Llama3-V 竟抄襲國內開源項目，作者火速刪庫》），還是市面上各種打著 GPT-4 旗號實際卻調用廉價小模型的山寨網站，都讓開發者防不勝防。

針對這些 API 進行的系統性審計，徹底暴露了這一灰色產業鏈對嚴肅科學研究的破壞力。

CISPA 的研究人員詳細追蹤了17個影子 API 服務，發現它們已經被引用進了187篇學術論文中，并對一部分具有代表性的 API 進行了針對性審計。

這些論文里約有 62% 已經被 ACL 、 CVPR 和 ICLR 等頂級會議錄用。其中最受歡迎的一個影子 API 已經積累了 5966 次論文引用，與其相關的一個 GitHub 項目更是獲得了將近 6 萬個星標。

深入調查這些服務的合規性時，情況更加令人擔憂。在這 17 個服務中，多達 11 個是基于 OneAPI 或 NewAPI 等開源 API 分發系統搭建的。離譜的是，這 17 個提供商中只有一家擁有正規的 ICP 備案，其余絕大多數都是個人運營的黑盒，毫無透明度可言

Shadow API 在學術界使用情況

能力雪崩：當醫學專家變成赤腳醫生

科研結論如果建立在虛假的底層模型上，整個實驗的地基就會隨之坍塌。為了弄清楚這些影子 API 到底摻了多少水分，研究團隊在科學推理領域（如 AIME 2025、GPQA ）和極其敏感的高風險領域（如醫療 MedQA、法律 LegalBench）對具有代表性的API進行了多維度的基準測試。

測試結果令人觸目驚心。

以高風險的醫療基準 MedQA 為例，官方的 Gemini-2.5-flash 模型準確率高達 83.82%。

當研究人員通過這些號稱「完全一致」的影子 API 進行測試時，準確率直接斷崖式下跌到了平均 36.95%。高達 47% 的性能缺口，意味著在一半以上的醫療診斷問題上，該模型可能給出致命的錯誤建議。

在法律基準測試 LegalBench 中，情況同樣糟糕，所有接受評估的影子 API 表現均落后于官方端點 40.10% 到 42.73%。

影子 API 在醫療和法律領域性能下降

下表展示了兩個示例：

高難度的邏輯推理任務往往是假模型的重災區。在包含競賽級數學題的 AIME 2025 測試中，某熱門影子 API 遭遇了嚴重的精度滑鐵盧，其提供的 Gemini-2.5-pro 準確率暴跌 40.00% ，而 DeepSeek-Reasoner 的準確率也急降了 38.89%。

影子 API 在數學和邏輯推理領域性能下降

除了智商大打折扣，它們的安全性也處于一種高度不可控的狀態。在面臨各種代碼混淆或惡意提示詞的越獄攻擊測試中，影子 API 的表現毫無規律可言。它們有時會嚴重低估有害內容的風險，給出的有害性評分比官方模型低 0.23 ，有時又會把有害性放大近一倍。

影子 API 與官方 API 在 JailbreakBench 數據集上的安全性能比較

指紋識別 & 提供商的三種套路

為了拿到這些黑盒 API 造假的確鑿證據，研究人員動用了大模型指紋識別框架 LLMmap以及模型相等性測試（MET）來直接驗證模型的真實身份。LLMmap 能夠通過分析模型對特定查詢的響應，計算出輸出結果與參考數據庫之間的余弦距離，從而判斷它到底是個什么模型。

在所有被評估的 24 個具體模型端點中，有 45.83% 的端點直接未能通過指紋驗證，另外還有 12.50% 的端點表現出與官方模型存在巨大的余弦距離偏差。這兩個數據加起來，意味著超過半數的服務在底層悄悄替換了模型

通過進一步對生成的 token 數量方差以及推理延遲時間進行分析，研究人員發現官方 API 總是呈現出穩定規律的延遲，而影子 API 的延遲經常出現劇烈的抖動，其波動率甚至會超過官方基準的 2 倍以上。

論文揭露了影子 API 供應商常見的三種經濟欺騙手段：

信息溢價：收取高昂的旗艦版費用，卻在后臺用能力相似但更便宜的模型進行替換。例如某 API 標榜提供 Gemini 2.0 的早期版本，實際卻以 7 倍以上的驚人差價提供 2.5 版本。
折扣替換：以官方原價收費，但把高端的閉源大模型替換成低成本的開源模型。比如用戶高價點名要 GPT-5 ，指紋識別卻無情地揭露后臺默默運行的其實是 GLM-4-9B。
加價倒賣：在官方價格基礎上加收服務費，同時依舊在后臺替換底層模型以賺取多重差價。

三種經濟欺騙機制

經過計算，雖然用戶是按照官方標準費率（例如 1000 次請求約 14.84 美元）支付的費用，但實際上得到的有效 token 價值只有 5.70 美元到 7.77 美元。這種做法讓供應商僅僅在少量查詢中就能賺取過半的暴利利潤。

科研大廈底層受創

如果普通開發者在構建娛樂機器人時買到了假模型，頂多是帶來了糟糕的用戶體驗。一旦學術界大規模將這些摻水接口用于嚴肅的數據標注、算法評估或文獻總結，整個 AI 研究大廈的公信力都會被嚴重動搖。

自 2025 年初 DeepSeek 等前沿大模型相繼發布并迅速迭代以來，學術界對調用最新強大模型的需求與日俱增。由于正規渠道受限，大量亟待發表論文的研究人員被迫轉向這些缺乏監管的影子 API 。

研究者進行了一個保守的估算，即便只有 30% 的受影響論文需要重新運行實驗，僅為了修復這 187 篇已知論文中由模型替換帶來的數據污染，就需要花費高達 11.5 萬至 14 萬美元的計算和人工成本。這筆賬還沒有算上那些引用了這些問題論文的 5966 項后續研究，這些后來者極可能已經在不知不覺中繼承并放大了這些底層錯誤。

Shadow API 生產和交易的生動圖解

論文作者給出的最終建議直白且強硬：應當完全避免在嚴肅的研究工作流中使用任何未經嚴格驗證的影子 API

如果迫于客觀條件不得不使用，研究團隊在正式收集數據前，必須引入強制性的審核協議。這包括運行至少 24 次指紋探測、進行 500 個樣本分布測試以比對 p 值，以及通過多次獨立會話來檢查延遲和方差是否異常

在這個真假難辨的 AI 時代，技術永遠在狂飆突進，而商業的陰暗面也同樣在瘋狂滋長。對于每一位追求嚴謹的從業者和研究員來說，保持懷疑態度是我們面對黑盒大模型服務時的最后一道防線。

你被坑過嗎？

https://x.com/chenchengpro/status/2029586877800686056

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.