<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      真錢買假模型?187篇論文被「套殼API」坑慘,準確率暴跌

      0
      分享至



      編輯|Panda

      近段時間,時不時就有用戶抱怨如今的大模型 API 越來越像「薛定諤的貓」:有時候調用 GPT-5 顯得極其聰明,有時候卻像個智障。我們不禁懷疑大模型到底有沒有在后臺偷偷降智。

      現在,一篇來自 CISPA 亥姆霍茲信息安全中心的最新論文《Real Money, Fake Models: Deceptive Model Claims in Shadow APIs》為我們揭開了一點謎底:那些你花真金白銀購買的「第三方 API」,有可能偷偷把前沿大模型換成了廉價的替代品



      螞蟻集團工程師陳成的總結推文截圖

      該論文在社交網絡上引發了廣泛討論:







      來自 X 評論,Credit: @frxiaobei、@DeepSky0605、@AgiRay1015、@Tk206_



      • 論文標題:Real Money, Fake Models: Deceptive Model Claims in Shadow APIs
      • 論文地址:https://arxiv.org/abs/2603.01919

      大模型 API 的灰色江湖

      眾所周知,受限于高昂的定價、支付壁壘以及特定區域的限制,直接訪問 GPT-5 或 Gemini 2.5 等前沿大模型往往困難重重。這種限制催生了一個龐大的第三方代理服務市場。這些服務在學術界被稱為「影子 API(Shadow API)」,它們聲稱可以通過間接訪問,提供不受區域限制的官方模型服務。

      在這個充滿各種「鏡像站」和「代理池」的灰色江湖中,大模型套殼現象早有先例。

      回顧過去,無論是某斯坦福 AI 團隊挪用清華系開源大模型 MiniCPM 的風波(參閱報道《斯坦福爆火 Llama3-V 竟抄襲國內開源項目,作者火速刪庫》),還是市面上各種打著 GPT-4 旗號實際卻調用廉價小模型的山寨網站,都讓開發者防不勝防。

      針對這些 API 進行的系統性審計,徹底暴露了這一灰色產業鏈對嚴肅科學研究的破壞力。

      CISPA 的研究人員詳細追蹤了17個影子 API 服務,發現它們已經被引用進了187篇學術論文中,并對一部分具有代表性的 API 進行了針對性審計。

      這些論文里約有 62% 已經被 ACL 、 CVPR 和 ICLR 等頂級會議錄用。其中最受歡迎的一個影子 API 已經積累了 5966 次論文引用,與其相關的一個 GitHub 項目更是獲得了將近 6 萬個星標。

      深入調查這些服務的合規性時,情況更加令人擔憂。在這 17 個服務中,多達 11 個是基于 OneAPI 或 NewAPI 等開源 API 分發系統搭建的。離譜的是,這 17 個提供商中只有一家擁有正規的 ICP 備案,其余絕大多數都是個人運營的黑盒,毫無透明度可言



      Shadow API 在學術界使用情況

      能力雪崩:當醫學專家變成赤腳醫生

      科研結論如果建立在虛假的底層模型上,整個實驗的地基就會隨之坍塌。為了弄清楚這些影子 API 到底摻了多少水分,研究團隊在科學推理領域(如 AIME 2025、GPQA )和極其敏感的高風險領域(如醫療 MedQA、法律 LegalBench)對具有代表性的API進行了多維度的基準測試。

      測試結果令人觸目驚心。

      以高風險的醫療基準 MedQA 為例,官方的 Gemini-2.5-flash 模型準確率高達 83.82%。

      當研究人員通過這些號稱「完全一致」的影子 API 進行測試時,準確率直接斷崖式下跌到了平均 36.95%。高達 47% 的性能缺口,意味著在一半以上的醫療診斷問題上,該模型可能給出致命的錯誤建議。

      在法律基準測試 LegalBench 中,情況同樣糟糕,所有接受評估的影子 API 表現均落后于官方端點 40.10% 到 42.73%。



      影子 API 在醫療和法律領域性能下降

      下表展示了兩個示例:



      高難度的邏輯推理任務往往是假模型的重災區。在包含競賽級數學題的 AIME 2025 測試中,某熱門影子 API 遭遇了嚴重的精度滑鐵盧,其提供的 Gemini-2.5-pro 準確率暴跌 40.00% ,而 DeepSeek-Reasoner 的準確率也急降了 38.89%。



      影子 API 在數學和邏輯推理領域性能下降

      除了智商大打折扣,它們的安全性也處于一種高度不可控的狀態。在面臨各種代碼混淆或惡意提示詞的越獄攻擊測試中,影子 API 的表現毫無規律可言。它們有時會嚴重低估有害內容的風險,給出的有害性評分比官方模型低 0.23 ,有時又會把有害性放大近一倍。



      影子 API 與官方 API 在 JailbreakBench 數據集上的安全性能比較

      指紋識別 & 提供商的三種套路

      為了拿到這些黑盒 API 造假的確鑿證據,研究人員動用了大模型指紋識別框架 LLMmap以及模型相等性測試(MET)來直接驗證模型的真實身份。LLMmap 能夠通過分析模型對特定查詢的響應,計算出輸出結果與參考數據庫之間的余弦距離,從而判斷它到底是個什么模型。

      在所有被評估的 24 個具體模型端點中,有 45.83% 的端點直接未能通過指紋驗證,另外還有 12.50% 的端點表現出與官方模型存在巨大的余弦距離偏差。這兩個數據加起來,意味著超過半數的服務在底層悄悄替換了模型



      通過進一步對生成的 token 數量方差以及推理延遲時間進行分析,研究人員發現官方 API 總是呈現出穩定規律的延遲,而影子 API 的延遲經常出現劇烈的抖動,其波動率甚至會超過官方基準的 2 倍以上。

      論文揭露了影子 API 供應商常見的三種經濟欺騙手段:

      • 信息溢價: 收取高昂的旗艦版費用,卻在后臺用能力相似但更便宜的模型進行替換。例如某 API 標榜提供 Gemini 2.0 的早期版本,實際卻以 7 倍以上的驚人差價提供 2.5 版本。
      • 折扣替換: 以官方原價收費,但把高端的閉源大模型替換成低成本的開源模型。比如用戶高價點名要 GPT-5 ,指紋識別卻無情地揭露后臺默默運行的其實是 GLM-4-9B。
      • 加價倒賣: 在官方價格基礎上加收服務費,同時依舊在后臺替換底層模型以賺取多重差價。



      三種經濟欺騙機制

      經過計算,雖然用戶是按照官方標準費率(例如 1000 次請求約 14.84 美元)支付的費用,但實際上得到的有效 token 價值只有 5.70 美元到 7.77 美元。這種做法讓供應商僅僅在少量查詢中就能賺取過半的暴利利潤。



      科研大廈底層受創

      如果普通開發者在構建娛樂機器人時買到了假模型,頂多是帶來了糟糕的用戶體驗。一旦學術界大規模將這些摻水接口用于嚴肅的數據標注、算法評估或文獻總結,整個 AI 研究大廈的公信力都會被嚴重動搖。

      自 2025 年初 DeepSeek 等前沿大模型相繼發布并迅速迭代以來,學術界對調用最新強大模型的需求與日俱增。由于正規渠道受限,大量亟待發表論文的研究人員被迫轉向這些缺乏監管的影子 API 。

      研究者進行了一個保守的估算,即便只有 30% 的受影響論文需要重新運行實驗,僅為了修復這 187 篇已知論文中由模型替換帶來的數據污染,就需要花費高達 11.5 萬至 14 萬美元的計算和人工成本。這筆賬還沒有算上那些引用了這些問題論文的 5966 項后續研究,這些后來者極可能已經在不知不覺中繼承并放大了這些底層錯誤。



      Shadow API 生產和交易的生動圖解

      論文作者給出的最終建議直白且強硬:應當完全避免在嚴肅的研究工作流中使用任何未經嚴格驗證的影子 API

      如果迫于客觀條件不得不使用,研究團隊在正式收集數據前,必須引入強制性的審核協議。這包括運行至少 24 次指紋探測、進行 500 個樣本分布測試以比對 p 值,以及通過多次獨立會話來檢查延遲和方差是否異常

      在這個真假難辨的 AI 時代,技術永遠在狂飆突進,而商業的陰暗面也同樣在瘋狂滋長。對于每一位追求嚴謹的從業者和研究員來說,保持懷疑態度是我們面對黑盒大模型服務時的最后一道防線。

      你被坑過嗎?

      https://x.com/chenchengpro/status/2029586877800686056

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      新歡上位成功?買超又曝喜當爹,新歡似是當年那個女大學生

      新歡上位成功?買超又曝喜當爹,新歡似是當年那個女大學生

      悅君兮君不知
      2026-03-09 21:42:31
      伊朗威脅攻打以色列核反應堆,500美軍被消滅,以:地面進攻開始

      伊朗威脅攻打以色列核反應堆,500美軍被消滅,以:地面進攻開始

      兵說
      2026-03-09 17:01:52
      林青霞親口爆料:當年我全裸給他看,他卻嚇得扭頭就跑!

      林青霞親口爆料:當年我全裸給他看,他卻嚇得扭頭就跑!

      達文西看世界
      2026-03-04 15:07:30
      接受現實吧:去年印度iPhone產能提升53%,已占全球25%了

      接受現實吧:去年印度iPhone產能提升53%,已占全球25%了

      互聯網.亂侃秀
      2026-03-10 14:28:01
      西部排名又變了:掘金2連敗,快船2連勝,2隊排名互換

      西部排名又變了:掘金2連敗,快船2連勝,2隊排名互換

      籃球大視野
      2026-03-10 15:29:52
      戰術航空旅指揮官在烏克蘭東部陣亡

      戰術航空旅指揮官在烏克蘭東部陣亡

      桂系007
      2026-03-09 23:49:42
      河北潑湯女事件升級!身份被扒是老師,疑被解雇,嚴重的還在后面

      河北潑湯女事件升級!身份被扒是老師,疑被解雇,嚴重的還在后面

      寒士之言本尊
      2026-03-09 15:08:13
      普京:責成俄政府評估對歐停供能源可行性,在中東地區持續沖突背景下,俄能源企業要抓住當前時機,利用新增收入來減輕債務

      普京:責成俄政府評估對歐停供能源可行性,在中東地區持續沖突背景下,俄能源企業要抓住當前時機,利用新增收入來減輕債務

      每日經濟新聞
      2026-03-10 16:49:28
      曼晚:無論卡里克成績如何,恩里克、納格爾斯曼順位在他前面

      曼晚:無論卡里克成績如何,恩里克、納格爾斯曼順位在他前面

      懂球帝
      2026-03-10 21:28:31
      為什么追我的人那么少呢

      為什么追我的人那么少呢

      疾跑的小蝸牛
      2026-03-10 20:38:47
      中原突圍損失巨大,將士怨聲載道,李先念無計可施,只得請來陳毅

      中原突圍損失巨大,將士怨聲載道,李先念無計可施,只得請來陳毅

      鶴羽說個事
      2026-03-09 20:06:08
      臺灣命理師:徐熙媛活不過50歲,只因她被迫做了一件不該做的事

      臺灣命理師:徐熙媛活不過50歲,只因她被迫做了一件不該做的事

      吳學華看天下
      2025-02-06 14:34:05
      上海人最近太爽了吧!出門偶遇明星像開盲盒!周冠宇回家,胡彥斌野餐...這也太頂了!

      上海人最近太爽了吧!出門偶遇明星像開盲盒!周冠宇回家,胡彥斌野餐...這也太頂了!

      新民晚報
      2026-03-10 14:05:11
      在岸人民幣兌美元上漲0.5%至6.8732

      在岸人民幣兌美元上漲0.5%至6.8732

      每日經濟新聞
      2026-03-10 15:53:30
      被譽為“蛋白之王”,補鐵是黃豆的30倍!3塊錢做1鍋,睡眠好了

      被譽為“蛋白之王”,補鐵是黃豆的30倍!3塊錢做1鍋,睡眠好了

      岐黃傳人孫大夫
      2026-02-06 09:40:03
      890億美元,600架飛機,特朗普訪華之前,中國要送美國一份大禮?

      890億美元,600架飛機,特朗普訪華之前,中國要送美國一份大禮?

      墨蘭史書
      2026-03-09 12:40:03
      日本發表了涉臺言論后,支持大陸的國家寥寥無幾

      日本發表了涉臺言論后,支持大陸的國家寥寥無幾

      安安說
      2026-03-10 11:36:25
      鄭欽文未來3個月保分壓力巨大,世界排名甚至可能掉到200名開外!

      鄭欽文未來3個月保分壓力巨大,世界排名甚至可能掉到200名開外!

      田先生籃球
      2026-03-10 17:46:43
      謝敬遠身為四川國企原副總經理,年薪90萬,卻與不法商人勾肩搭背

      謝敬遠身為四川國企原副總經理,年薪90萬,卻與不法商人勾肩搭背

      妙知
      2026-03-10 09:25:21
      趴在中國仁愛礁9000多天的菲律賓軍艦,如今已經再也拖不走了

      趴在中國仁愛礁9000多天的菲律賓軍艦,如今已經再也拖不走了

      小小科普員
      2025-11-21 20:23:24
      2026-03-10 22:20:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      12467文章數 142581關注度
      往期回顧 全部

      科技要聞

      全民"養蝦"背后:大廠集體下場瘋狂賣Token

      頭條要聞

      小伙輾轉8天回國:后悔賺錢賺到伊朗 赴死的心都有了

      頭條要聞

      小伙輾轉8天回國:后悔賺錢賺到伊朗 赴死的心都有了

      體育要聞

      加蘭沒那么差,但鱸魚會用嗎?

      娛樂要聞

      《逐玉》注水風波升級!315評論區淪陷

      財經要聞

      “龍蝦補貼”密集出爐 最高1000萬!

      汽車要聞

      MG4有SUV衍生 上汽乘用車多款新車規劃曝光

      態度原創

      本地
      藝術
      時尚
      數碼
      公開課

      本地新聞

      云游中國|候鳥高顏值亮相!沉浸式打卡青海濕地

      藝術要聞

      30000畝杏花開了,新疆的春天這么美!

      今年春夏的褲子,彩色的更好看!

      數碼要聞

      榮耀MagicPad3 Pro官宣首發OTA支持Android & Linux雙系統

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版