網易首頁 > 網易號 > 正文申請入駐

18個月,中國Token消化狂飆300倍！清華系AI Infra幫你腰斬API成本

2026-02-02 15:04:18　來源: 機器之心Pro

北京舉報

分享至

編輯｜吳昕

中國版 OpenRouter + Artificial Analysis，讓每一枚 Token 都能流向它最該去的地方。

大模型 API 服務的「黑盒」焦慮

這兩天，Clawbot 病毒式裂變，仿佛是一年前 Manus 的魅影重現。

同樣一夜之間站上風口，同樣點燃了無數開發者對「潑天富貴」的想象，也順手把 Token 燒成了新的「硬通貨」。

最近一組數據，讓人更有體感。

中國大模型數量已超過 1500 個，下游開發者已經開始「瘋狂蓋房子」。數據顯示，2024 年初，中國日均 Token 消耗量約為 1000 億；到 2025 年 6 月，這一數字已突破 30 萬億。一年半時間，增長超過 300 倍。

與三年前的 Chatbot 不同，「能干活」的 Agent 正以前所未有的強度，第一次把 API 調用推入「生產級」——

一次看似簡單的操作，背后往往是十幾次、甚至幾十次模型調用在同時發生。任何一次服務「抽風」，都會在 Agent 鏈路中引發一場多米諾骨牌式崩潰。

問題在于，中國大模型 API 服務現狀，遠比 benchmark 復雜得多。

更像是開盲盒，有人調侃說，以為自己在用「DeepSeek V3.2」，實際可能是蒸餾/量化版本。有人花了兩周時間反復測試，上線后仍遭遇性能回退。還有團隊發現，模型會在某些凌晨時段準時「抽風」，延遲從 300ms 飆升至 2000ms 以上，客服秒變「智障」。

這些并非個案，而是高度碎片化的大模型API服務的「縮影」。

大模型 API 服務的「黑盒」，不只是模型不可解釋，而是用戶根本不知道，服務背后跑的是什么模型、什么配置、什么質量。清華系 AI Infra 創企清程極智聯合創始人兼產品副總裁師天麾告訴機器之心。

中國大模型和大模型 API 服務商本來就多。多算力、多架構、多網絡并存，同一個模型，在不同服務商、不同部署方式下，往往呈現出顯著差異。

比如，同樣調用 DeepSeek-V3 / R1，頭部服務商可以維持毫秒級響應；而部分接入低質量算力或優化不足的服務商，其 TTFT（首 Token 時延）可能慢上 2～3 倍。

與此同時，免費 Token、補貼、打包套餐的價格戰，讓「性價比」變得更加撲朔迷離。

經濟學家羅納德·科斯曾指出，企業與制度的出現，本質上是為了替代高成本的市場交易。當模型服務因高度不透明與供給碎片化不斷抬升交易成本時，市場往往會內生出新的中介形態與制度安排，用以收斂不確定性，降低決策與交易成本。

正是在這樣的背景下，1 月 29 日，清程極智正式發布 AI Ping。這款被業內視為「中國版 OpenRouter + Artificial Analysis」產品，旨在重塑大模型 API 服務秩序，將上游服務的碎片化與「黑盒」，轉化為下游用戶手中穩定、可預期的生產力。

1 月 29 日，清程極智舉行發布會，正式官宣 AI Ping。

中國版 OpenRouter + Artificial Analysis：

AI Ping 怎么玩兒？

簡單來說，AI Ping 是一個通過評測與路由兩大機制，來消除大模型 API 服務不確定性的基礎設施型產品。

如果說OpenRouter 解決的是「統一接入不同模型和服務」，Artificial Analysis 解決的是「評測模型服務質量」，那么 AI Ping 試圖把這兩件事合成一件事

通過評測告訴你模型服務的質量數據，更基于實時評測結果，「接管」模型與服務商的選擇決策。

換句話說，有了這顆動態的「調度大腦」，你只管提需求，不用理解模型，不用挑供應商，更不用為故障兜底。

我們簡單體驗了一把「自動駕駛」，在網頁「多模型對話」中，讓系統完成一個音樂播放器的設計。

模型路由，選擇的是「均衡模式」，在效果、速度與成本之間尋找綜合最優解，而不是只追求單一極端指標（比如最低延遲）。

很快，系統判斷 DeepSeek-V3.2 最適合當前任務，并將請求路由到當時服務能力最優的火山引擎節點。

結果，響應速度快，輸出效果也很不錯。

成本僅消耗 0.04 個算力點（約 4 分錢）。

大規模實驗數據顯示，無論用戶選擇哪種路由策略，AI Ping 都能把調用推向「能力—成本」的最優區域。

比如，即使選擇「效果優先」，系統也會在保證模型能力處于高水平的同時，避免把成本推向極端，而是在質量與價格之間自動找到一個更均衡的位置。

通過模型路由策略，AI Ping 能在「能力—成本」二維空間里，逼近不同目標下的最優解。

長期以來，中國大模型 API 服務市場缺乏一份公允、可對比的「體檢報告」。不同服務商各自披露性能指標，但測試條件、指標口徑與展示方式并不統一，開發者很難判斷，AI Ping 試圖填補這一空白。

目前，該平臺已接入 30 家主流服務商，覆蓋 555 個模型接口，是國內極少數能夠在統一標準下，對大模型服務進行持續評測與公開展示的平臺之一。

在 AI Ping 的網站首頁，不同服務商被放入同一張性能坐標圖中進行對比。以吞吐率與延遲為坐標軸，同一個模型在不同服務商處的實際服務能力差異，一目了然。

用戶提需求，自動生成服務路由策略的代碼。

點開服務商，可以看到同一模型（ DeepSeek-V3.2 ）在不同服務商處的服務波動情況。

Top5服務商最近幾天服務延遲的「心電圖」。

這些對外展示的數據，強調公平性與可比性，按固定周期更新，猶如一份面向行業的「排行榜」和「體檢報告」。對開發者而言，選型不再聽廠商「吹牛」；對服務商而言，服務能力第一次被放在同一把尺子下比較。

對標 Artificial Analysis：

7×24h 數據「開盒」大模型API

從我們的體驗來看，使用 AI Ping 和直接調用某個大模型幾乎沒有區別，只是完成了一次再普通不過的請求。

但在系統內部，這次調用已經悄然完成了一次跨模型、跨服務商的最優路徑選擇。

這種「選路」的能力，源于清程極智構建的技術三角閉環：全維度評測體系、服務商級智能調度、以及多模型智能路由。

這一切的基石，是套對標 Artificial Analysis 的實時評測系統。要像成為公認的「裁判員」，前提是評測體系本身具備足夠的公平性與一致性。

在指標設計上，緊緊圍繞用戶真正關心的體驗維度展開，包括 TTFT（首 Token 延遲）、TPS（吞吐率）、成本、精度等核心性能與經濟指標。

不同應用場景，對指標的敏感點完全不同。師天麾解釋說，在普通聊天場景中，用戶最在意的是「多久開始回復」。只要能在幾百毫秒內出首字、輸出速度達到可閱讀水平，體驗就已經趨于飽和。

而在 Agent 場景中，一個任務往往由多步調用組成，真正決定效率的，不再是單次延遲，而是整個流程的吞吐能力與端到端完成時間。

為了「開盒」國產模型服務的真實水位，AI Ping 沉淀了一套極具技術含量的評測方法。

例如，所有測試使用同一套「考卷」，并在同一時間段進行；測試請求從北、上、深、蓉等多地服務器同時發出，徹底消除網絡波動對單一節點的干擾。

專門針對「服務商緩存」設計特殊策略，確保測出的是真實的算力響應，而非「復用答案」的表象。

始終以普通用戶身份，匿名走真實調用流程，評測結果還會進行交叉驗證，也獲得了數十家主流服務商的認可。

最極致的一點，在于7×24 小時持續觀測

模型本身只是個文件，能力基本是固定的；但模型一旦變成大模型 API 服務，情況就完全不同了。師天麾說。

中國大模型 API 服務，白天和晚上不一樣，北京和成都的節點不一樣，甚至同一家服務商，隔了幾個小時負載也會劇烈波動。如果拿幾分鐘前的評測數據做路由決策，無異于刻舟求劍。

這種對指標的極致苛求，源于團隊的硬核底蘊。AI Ping 背后的清程極智團隊源自清華，長期深耕超算與 AI 性能評測領域。他們不僅參與過 AIperf 等行業評測工具的研發，更承擔過國家級超算集群的性能驗收——這種「國家隊」級別的評測經驗，被降維應用到了大模型 API 服務，最終轉化為 AI Ping 難以被復制的壁壘。

對標 OpenRouter：

用「自動駕駛」接管 Token 調度權

我們的目標不是把數據擺給用戶看，而是要替用戶做決定。師天麾強調。

如果說 OpenRouter 的功勞是實現了 API 的「大統一」，那么 AI Ping 則更進一步，通過一套 L4 級智能路由系統，實現了模型調度的「自動駕駛」。這套系統由「雙引擎」驅動：模型路由（解決「誰來做」）服務商路由（解決「在哪里做」）

在 AI Ping 的邏輯里，模型不是「越大越好」，而應該是「分工明確」，有的擅長寫代碼，有的擅長寫作。

現實中的任務也是分層的：寫代碼需要邏輯嚴密，日常閑聊只需快速響應。「如果所有請求都交給旗艦模型，只會變得又貴又慢。」

AI Ping 的路由模型會通過機器學習，實時對用戶請求進行「畫像」，并在多種模型之間動態選擇當前性價比最優的組合。

在大規模測試中，這種「按問題匹配模型」的策略帶來了兩個結果：整體正確率超過單一旗艦模型的最高得分，而調用成本下降超過 50%。

這一結果也與外部研究結論，不謀而合。

近期一項來自MIT 與佐治亞理工的研究發現，開源模型已經可以用大約 13% 的成本，達到接近 90% 的閉源模型性能。

但在實際市場中，這類高性價比模型的使用比例仍不足 20%，主要受限于認知慣性與切換成本。

兩種不同情況下的模型路由。

解決了模型選型，下一步是決定請求落到哪家服務商。

與傳統的「失敗后再重試」不同，AI Ping 的服務商路由具備預判能力。每一次請求返回的結果，都是一個天然的測量樣本。這些數據會被持續匯總進內部評測池，用來刻畫服務商「此時此刻」的真實服務水平。

一旦發現某條請求的響應時間明顯偏離正常建模，或與最近觀測數據不一致，路由系統就會預判該節點可能進入異常狀態，即使尚未收到明確錯誤，而不是被動等待失敗。

在億次調用的實測中，這套機制讓整體 TPS（吞吐量）提升了約 90%，成本同步下降了 37%。

選擇最適合的大模型API服務商。

實現這種「自動駕駛」非常不容易。師天麾告訴我們。

服務商路由的一個難點在于動態均衡。「如果只把流量給當前最好的服務商，瞬間的高并發可能會直接把對方打崩。」師天麾分享了一個真實細節：曾有服務商因流量集中路由而宕機，CTO 半夜打來電話詢問發生了什么。真正的路由不是簡單的排隊，而是「利用當前最優」與「預測分配負載」之間的精妙平衡。

模型路由的門檻更高，它本質上是用 AI 去選 AI。系統需要通過海量數據學會「什么樣的問題適合什么樣的模型」，并在實際運行中不斷回收結果進行離線糾偏。

歸根結底，這是一套依賴長期數據積累、持續自我演化的系統，也是 AI Ping 作為中國版 OpenRouter 的護城河。

重塑交易秩序：

開發少做「選擇題」，服務不再只有「價格戰」

不同用戶的實踐，從側面印證了 AI Ping 作為「中國版 OpenRouter + Artificial Analysis」的現實價值。

對許多直接面向 C 端或 B 端用戶的團隊而言，在接入 AI Ping 之前，最大的困擾并非模型能力不足，而是被大量「非核心工程」消耗精力。

一位從事 ToB 智能客服助手的開發者回憶，過去團隊長期陷在「工程師手動選型」的循環中：先接幾家跑起來，再拿一批真實問題測效果、測延遲、測報錯，最后再算一遍賬。換一家就要重新適配、重新回歸，周期非常長。

「判斷哪個模型最好用，基本靠線上監控和經驗。哪家最近延遲飄了，就人工降權，往往是用戶先感知到卡頓，我們才開始補救，非常被動。」他們也曾考慮自建調度系統，但很快發現，這意味著還要額外承擔監控、容災和對賬等復雜工程負擔，更加偏離主線任務。

接入 AI Ping 后，這類「選型內耗」被工程化消解，大家又能把主要精力投入到客服體驗上，比如知識庫質量、流程引導，轉人工閉環。

這種調度價值，在對成本高度敏感的場景中表現得更為直接。

一些獨立開發者將 Agent 用于自用場景，對性能要求并不極致，但對成本控制極為敏感。通過 AI Ping 提供的篩選排序功能，開發者可以在多家供應商中，選出性價比最高的方案，比如 TTFT＜5 秒、TPS＞20 ，價格從低至高排序。同時，用戶也可以在智能路由中使用此功能，智能路由會將用戶的每一條需求，依據評測數據，路由至當前滿足用戶需求的最高性價比的服務商。

而在多模型協作場景中，調度能力則直接轉化為商業可行性。

面團 AI 的模擬面試產品需要多模型協作，比如調用語音模型、文本語言模型，不同廠商的模型各有優勢。過去，跨模型、跨平臺調用流程復雜，成本也非常高。

統一接入 AI Ping 之后，團隊再也不需要關心「既要接火山、又要接百度」的底層適配問題，模型調用起來成本更低，效率更高，服務性能也更加穩定。

以往找身邊的學長進行一次模擬面試，往往需要付出半小時三四百元的成本。現在借助 AI 技術，只需幾塊錢，就可以實現一個高擬人度、高仿真的模擬面試。

類似邏輯也出現在情感陪伴應用中。一支清華大學學生團隊發現，用戶大部分提問是日常閑聊，少數才涉及深度推理。通過 AI Ping 的「分層調度」，簡單問題流向低價小模型以保證「秒回」，關鍵情緒點則路由至高階模型。這種精準分發，既避免了響應過慢導致的「冷暴力」，又將穩定性與價格壓到了可控區間。

更耐人尋味的是，這套評測體系也在反向重塑服務商的行為。

硅基智能成為平臺的長期用戶，一個重要原因在于測得準。通過橫向評測，他們可以清晰看到自己在數十家服務商中的真實位置：延遲是否偏高，吞吐是否存在短板，穩定性如何隨時間波動。

過去，服務商只能監控自身數據；如今，不同服務能力被放在同一把尺子下比較。當延遲、吞吐與穩定性被持續量化呈現，用戶也開始以「服務質量」而非單一價格作為選擇依據，行業競爭也由此從價格戰轉向工程優化與算力治理能力的比拼。

在師天麾看來，這將形成一個正向循環：評測數據讓開發者知道什么是好服務，也讓服務商看清自身短板。服務質量提升后，應用體驗改善，AI 使用規模擴大，Token 消耗隨之增長，收益再回流到算力與技術優化之中。

我們希望用透明的數據，讓行業知道什么才是值得競爭的方向，他說，「不是只有價格，而是真正的服務能力。」

院士點贊，預見下一代基礎設施

在發布會上，中國工程院院士、清華大學計算機系教授鄭緯民給出了一個頗具畫面感的比喻。

過去十年，行業解決的是如何把智能「生產出來」。隨著模型生態與智能體（Agent）的快速繁榮，新的瓶頸正在出現：如何讓智能被高效、穩定地「流通」。

在他看來，智能路由正是這一流通體系中最關鍵的基礎設施之一，也是下一階段 AI Infrastructure 必須回答的問題。

當模型路由、服務路由、芯片調度全部打通后，用戶只需提出需求，而無需關心背后究竟是哪個模型、哪一家云廠商、哪一塊芯片在工作，結果便會自動抵達。

「這將是下一代 AI 基礎設施的形態，」他說，「讓智能像電一樣被調用和分發。」

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.