<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      真錢買假模型?187篇論文被「套殼API」坑慘,準(zhǔn)確率暴跌

      0
      分享至



      編輯|Panda

      近段時間,時不時就有用戶抱怨如今的大模型 API 越來越像「薛定諤的貓」:有時候調(diào)用 GPT-5 顯得極其聰明,有時候卻像個智障。我們不禁懷疑大模型到底有沒有在后臺偷偷降智。

      現(xiàn)在,一篇來自 CISPA 亥姆霍茲信息安全中心的最新論文《Real Money, Fake Models: Deceptive Model Claims in Shadow APIs》為我們揭開了一點謎底:那些你花真金白銀購買的「第三方 API」,有可能偷偷把前沿大模型換成了廉價的替代品



      螞蟻集團工程師陳成的總結(jié)推文截圖

      該論文在社交網(wǎng)絡(luò)上引發(fā)了廣泛討論:







      來自 X 評論,Credit: @frxiaobei、@DeepSky0605、@AgiRay1015、@Tk206_



      • 論文標(biāo)題:Real Money, Fake Models: Deceptive Model Claims in Shadow APIs
      • 論文地址:https://arxiv.org/abs/2603.01919

      大模型 API 的灰色江湖

      眾所周知,受限于高昂的定價、支付壁壘以及特定區(qū)域的限制,直接訪問 GPT-5 或 Gemini 2.5 等前沿大模型往往困難重重。這種限制催生了一個龐大的第三方代理服務(wù)市場。這些服務(wù)在學(xué)術(shù)界被稱為「影子 API(Shadow API)」,它們聲稱可以通過間接訪問,提供不受區(qū)域限制的官方模型服務(wù)。

      在這個充滿各種「鏡像站」和「代理池」的灰色江湖中,大模型套殼現(xiàn)象早有先例。

      回顧過去,無論是某斯坦福 AI 團隊挪用清華系開源大模型 MiniCPM 的風(fēng)波(參閱報道《斯坦福爆火 Llama3-V 竟抄襲國內(nèi)開源項目,作者火速刪庫》),還是市面上各種打著 GPT-4 旗號實際卻調(diào)用廉價小模型的山寨網(wǎng)站,都讓開發(fā)者防不勝防。

      針對這些 API 進行的系統(tǒng)性審計,徹底暴露了這一灰色產(chǎn)業(yè)鏈對嚴(yán)肅科學(xué)研究的破壞力。

      CISPA 的研究人員詳細追蹤了17個影子 API 服務(wù),發(fā)現(xiàn)它們已經(jīng)被引用進了187篇學(xué)術(shù)論文中,并對一部分具有代表性的 API 進行了針對性審計。

      這些論文里約有 62% 已經(jīng)被 ACL 、 CVPR 和 ICLR 等頂級會議錄用。其中最受歡迎的一個影子 API 已經(jīng)積累了 5966 次論文引用,與其相關(guān)的一個 GitHub 項目更是獲得了將近 6 萬個星標(biāo)。

      深入調(diào)查這些服務(wù)的合規(guī)性時,情況更加令人擔(dān)憂。在這 17 個服務(wù)中,多達 11 個是基于 OneAPI 或 NewAPI 等開源 API 分發(fā)系統(tǒng)搭建的。離譜的是,這 17 個提供商中只有一家擁有正規(guī)的 ICP 備案,其余絕大多數(shù)都是個人運營的黑盒,毫無透明度可言



      Shadow API 在學(xué)術(shù)界使用情況

      能力雪崩:當(dāng)醫(yī)學(xué)專家變成赤腳醫(yī)生

      科研結(jié)論如果建立在虛假的底層模型上,整個實驗的地基就會隨之坍塌。為了弄清楚這些影子 API 到底摻了多少水分,研究團隊在科學(xué)推理領(lǐng)域(如 AIME 2025、GPQA )和極其敏感的高風(fēng)險領(lǐng)域(如醫(yī)療 MedQA、法律 LegalBench)對具有代表性的API進行了多維度的基準(zhǔn)測試。

      測試結(jié)果令人觸目驚心。

      以高風(fēng)險的醫(yī)療基準(zhǔn) MedQA 為例,官方的 Gemini-2.5-flash 模型準(zhǔn)確率高達 83.82%。

      當(dāng)研究人員通過這些號稱「完全一致」的影子 API 進行測試時,準(zhǔn)確率直接斷崖式下跌到了平均 36.95%。高達 47% 的性能缺口,意味著在一半以上的醫(yī)療診斷問題上,該模型可能給出致命的錯誤建議。

      在法律基準(zhǔn)測試 LegalBench 中,情況同樣糟糕,所有接受評估的影子 API 表現(xiàn)均落后于官方端點 40.10% 到 42.73%。



      影子 API 在醫(yī)療和法律領(lǐng)域性能下降

      下表展示了兩個示例:



      高難度的邏輯推理任務(wù)往往是假模型的重災(zāi)區(qū)。在包含競賽級數(shù)學(xué)題的 AIME 2025 測試中,某熱門影子 API 遭遇了嚴(yán)重的精度滑鐵盧,其提供的 Gemini-2.5-pro 準(zhǔn)確率暴跌 40.00% ,而 DeepSeek-Reasoner 的準(zhǔn)確率也急降了 38.89%。



      影子 API 在數(shù)學(xué)和邏輯推理領(lǐng)域性能下降

      除了智商大打折扣,它們的安全性也處于一種高度不可控的狀態(tài)。在面臨各種代碼混淆或惡意提示詞的越獄攻擊測試中,影子 API 的表現(xiàn)毫無規(guī)律可言。它們有時會嚴(yán)重低估有害內(nèi)容的風(fēng)險,給出的有害性評分比官方模型低 0.23 ,有時又會把有害性放大近一倍。



      影子 API 與官方 API 在 JailbreakBench 數(shù)據(jù)集上的安全性能比較

      指紋識別 & 提供商的三種套路

      為了拿到這些黑盒 API 造假的確鑿證據(jù),研究人員動用了大模型指紋識別框架 LLMmap以及模型相等性測試(MET)來直接驗證模型的真實身份。LLMmap 能夠通過分析模型對特定查詢的響應(yīng),計算出輸出結(jié)果與參考數(shù)據(jù)庫之間的余弦距離,從而判斷它到底是個什么模型。

      在所有被評估的 24 個具體模型端點中,有 45.83% 的端點直接未能通過指紋驗證,另外還有 12.50% 的端點表現(xiàn)出與官方模型存在巨大的余弦距離偏差。這兩個數(shù)據(jù)加起來,意味著超過半數(shù)的服務(wù)在底層悄悄替換了模型



      通過進一步對生成的 token 數(shù)量方差以及推理延遲時間進行分析,研究人員發(fā)現(xiàn)官方 API 總是呈現(xiàn)出穩(wěn)定規(guī)律的延遲,而影子 API 的延遲經(jīng)常出現(xiàn)劇烈的抖動,其波動率甚至?xí)^官方基準(zhǔn)的 2 倍以上。

      論文揭露了影子 API 供應(yīng)商常見的三種經(jīng)濟欺騙手段:

      • 信息溢價: 收取高昂的旗艦版費用,卻在后臺用能力相似但更便宜的模型進行替換。例如某 API 標(biāo)榜提供 Gemini 2.0 的早期版本,實際卻以 7 倍以上的驚人差價提供 2.5 版本。
      • 折扣替換: 以官方原價收費,但把高端的閉源大模型替換成低成本的開源模型。比如用戶高價點名要 GPT-5 ,指紋識別卻無情地揭露后臺默默運行的其實是 GLM-4-9B。
      • 加價倒賣: 在官方價格基礎(chǔ)上加收服務(wù)費,同時依舊在后臺替換底層模型以賺取多重差價。



      三種經(jīng)濟欺騙機制

      經(jīng)過計算,雖然用戶是按照官方標(biāo)準(zhǔn)費率(例如 1000 次請求約 14.84 美元)支付的費用,但實際上得到的有效 token 價值只有 5.70 美元到 7.77 美元。這種做法讓供應(yīng)商僅僅在少量查詢中就能賺取過半的暴利利潤。



      科研大廈底層受創(chuàng)

      如果普通開發(fā)者在構(gòu)建娛樂機器人時買到了假模型,頂多是帶來了糟糕的用戶體驗。一旦學(xué)術(shù)界大規(guī)模將這些摻水接口用于嚴(yán)肅的數(shù)據(jù)標(biāo)注、算法評估或文獻總結(jié),整個 AI 研究大廈的公信力都會被嚴(yán)重動搖。

      自 2025 年初 DeepSeek 等前沿大模型相繼發(fā)布并迅速迭代以來,學(xué)術(shù)界對調(diào)用最新強大模型的需求與日俱增。由于正規(guī)渠道受限,大量亟待發(fā)表論文的研究人員被迫轉(zhuǎn)向這些缺乏監(jiān)管的影子 API 。

      研究者進行了一個保守的估算,即便只有 30% 的受影響論文需要重新運行實驗,僅為了修復(fù)這 187 篇已知論文中由模型替換帶來的數(shù)據(jù)污染,就需要花費高達 11.5 萬至 14 萬美元的計算和人工成本。這筆賬還沒有算上那些引用了這些問題論文的 5966 項后續(xù)研究,這些后來者極可能已經(jīng)在不知不覺中繼承并放大了這些底層錯誤。



      Shadow API 生產(chǎn)和交易的生動圖解

      論文作者給出的最終建議直白且強硬:應(yīng)當(dāng)完全避免在嚴(yán)肅的研究工作流中使用任何未經(jīng)嚴(yán)格驗證的影子 API

      如果迫于客觀條件不得不使用,研究團隊在正式收集數(shù)據(jù)前,必須引入強制性的審核協(xié)議。這包括運行至少 24 次指紋探測、進行 500 個樣本分布測試以比對 p 值,以及通過多次獨立會話來檢查延遲和方差是否異常

      在這個真假難辨的 AI 時代,技術(shù)永遠在狂飆突進,而商業(yè)的陰暗面也同樣在瘋狂滋長。對于每一位追求嚴(yán)謹(jǐn)?shù)膹臉I(yè)者和研究員來說,保持懷疑態(tài)度是我們面對黑盒大模型服務(wù)時的最后一道防線。

      你被坑過嗎?

      https://x.com/chenchengpro/status/2029586877800686056

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點推薦
      真沒有錢解決不了的事嗎?網(wǎng)友:如果有,那是因為你錢還不夠多

      真沒有錢解決不了的事嗎?網(wǎng)友:如果有,那是因為你錢還不夠多

      解讀熱點事件
      2026-02-23 18:34:51
      中美國運終局:這不是美伊戰(zhàn)爭,是大國終極對決!

      中美國運終局:這不是美伊戰(zhàn)爭,是大國終極對決!

      音樂時光的娛樂
      2026-03-06 19:21:13
      蒙古煤炭停供中國,轉(zhuǎn)向日韓,正中美國下懷?不!蒙古已經(jīng)反悔了

      蒙古煤炭停供中國,轉(zhuǎn)向日韓,正中美國下懷?不!蒙古已經(jīng)反悔了

      混沌錄
      2025-12-15 18:12:04
      生日當(dāng)天差點毀容!演員王添羽跟風(fēng)模仿“噴火蛋糕”引發(fā)回火事故,睫毛和頭發(fā)被瞬間點燃!本人回應(yīng):為自己的無知買單

      生日當(dāng)天差點毀容!演員王添羽跟風(fēng)模仿“噴火蛋糕”引發(fā)回火事故,睫毛和頭發(fā)被瞬間點燃!本人回應(yīng):為自己的無知買單

      大象新聞
      2026-03-09 17:58:04
      A股大消息!上交所,重磅發(fā)聲

      A股大消息!上交所,重磅發(fā)聲

      新浪財經(jīng)
      2026-03-10 20:27:09
      暗黑界那朵“小白花”,憑什么盛開十年不敗——白桃花

      暗黑界那朵“小白花”,憑什么盛開十年不敗——白桃花

      碧波萬覽
      2026-03-10 00:56:16
      一種新型的異性關(guān)系,正在中年男女間悄然流行:你知我心我知你意

      一種新型的異性關(guān)系,正在中年男女間悄然流行:你知我心我知你意

      楓紅染山徑
      2026-02-26 00:12:30
      萬億煙草市場正在漏水?你常買的煙可能已經(jīng)不值錢了!

      萬億煙草市場正在漏水?你常買的煙可能已經(jīng)不值錢了!

      老特有話說
      2026-03-07 16:09:02
      張凌赫因爭議言論道歉,情商不足但非惡意,火起來之后要謹(jǐn)言慎行

      張凌赫因爭議言論道歉,情商不足但非惡意,火起來之后要謹(jǐn)言慎行

      芊手若
      2026-03-10 21:12:47
      以色列狂轟濫炸黎巴嫩首都!馬克龍放話:敢派地面部隊,我就出手

      以色列狂轟濫炸黎巴嫩首都!馬克龍放話:敢派地面部隊,我就出手

      達文西看世界
      2026-03-07 16:36:01
      碎三觀!一河南網(wǎng)友哭訴長期被妻子身體“冷暴力”,評論區(qū)炸鍋…

      碎三觀!一河南網(wǎng)友哭訴長期被妻子身體“冷暴力”,評論區(qū)炸鍋…

      火山詩話
      2026-03-09 05:29:27
      首款2nm天璣旗艦!OPPO Find X10系列已在路上:三劍齊發(fā)

      首款2nm天璣旗艦!OPPO Find X10系列已在路上:三劍齊發(fā)

      快科技
      2026-03-10 18:27:39
      臨床已見成效!Cell重磅:中國團隊開發(fā)口服新藥,成功逆轉(zhuǎn)肝纖維化

      臨床已見成效!Cell重磅:中國團隊開發(fā)口服新藥,成功逆轉(zhuǎn)肝纖維化

      醫(yī)諾維
      2026-03-09 17:06:16
      美國急調(diào)韓國部分薩德反導(dǎo)系統(tǒng)到中東部署,伊朗稱摧毀4套美薩德系統(tǒng),美伊以較量,韓國反被嘲笑!

      美國急調(diào)韓國部分薩德反導(dǎo)系統(tǒng)到中東部署,伊朗稱摧毀4套美薩德系統(tǒng),美伊以較量,韓國反被嘲笑!

      藍海夢想
      2026-03-10 21:59:59
      分手傳聞兩個月終有果,秦嵐手術(shù)失敗風(fēng)波后,與魏大勛關(guān)系曝光

      分手傳聞兩個月終有果,秦嵐手術(shù)失敗風(fēng)波后,與魏大勛關(guān)系曝光

      一盅情懷
      2026-03-09 17:33:20
      特朗普撂挑子不干了,以色列連俄大樓都敢炸,普京把話說得很清楚

      特朗普撂挑子不干了,以色列連俄大樓都敢炸,普京把話說得很清楚

      一身骨子里的傲氣
      2026-03-10 21:38:25
      2億狂砸!弗洛倫蒂諾亮劍,皇馬夏窗要掀多大風(fēng)暴?

      2億狂砸!弗洛倫蒂諾亮劍,皇馬夏窗要掀多大風(fēng)暴?

      卿子書
      2026-03-10 09:18:19
      尼克松晚年坦言:他很后悔當(dāng)初訪華,只因毛主席識破的訪華計謀!

      尼克松晚年坦言:他很后悔當(dāng)初訪華,只因毛主席識破的訪華計謀!

      冰語歷史
      2026-03-07 06:23:39
      你身邊有吃絕戶的親戚嗎?網(wǎng)友:肯定有很多人想和你結(jié)婚吧

      你身邊有吃絕戶的親戚嗎?網(wǎng)友:肯定有很多人想和你結(jié)婚吧

      帶你感受人間冷暖
      2026-02-16 00:27:46
      人可以狠心到什么程度?看網(wǎng)友講述,發(fā)現(xiàn)我真做不到這般絕

      人可以狠心到什么程度?看網(wǎng)友講述,發(fā)現(xiàn)我真做不到這般絕

      侃神評故事
      2026-02-27 07:40:03
      2026-03-10 23:03:00
      機器之心Pro incentive-icons
      機器之心Pro
      專業(yè)的人工智能媒體
      12467文章數(shù) 142581關(guān)注度
      往期回顧 全部

      科技要聞

      全民"養(yǎng)蝦"背后:大廠集體下場瘋狂賣Token

      頭條要聞

      小伙輾轉(zhuǎn)8天回國:后悔賺錢賺到伊朗 赴死的心都有了

      頭條要聞

      小伙輾轉(zhuǎn)8天回國:后悔賺錢賺到伊朗 赴死的心都有了

      體育要聞

      加蘭沒那么差,但鱸魚會用嗎?

      娛樂要聞

      《逐玉》注水風(fēng)波升級!315評論區(qū)淪陷

      財經(jīng)要聞

      “龍蝦補貼”密集出爐 最高1000萬!

      汽車要聞

      MG4有SUV衍生 上汽乘用車多款新車規(guī)劃曝光

      態(tài)度原創(chuàng)

      親子
      房產(chǎn)
      家居
      本地
      軍事航空

      親子要聞

      程曉玥自曝喜歡懷孕:我愛我的工作,然后我愛懷孕懷著孕工作

      房產(chǎn)要聞

      信號!千億巨頭入局,三亞開啟新一輪大征拆!

      家居要聞

      自然肌理 溫度質(zhì)感婚房

      本地新聞

      云游中國|候鳥高顏值亮相!沉浸式打卡青海濕地

      軍事要聞

      剛說完戰(zhàn)爭很快結(jié)束 特朗普改口

      無障礙瀏覽 進入關(guān)懷版