趨境科技發(fā)布ATaaS：全球領(lǐng)先的高效能AI Token生產(chǎn)服務(wù)平臺

2026-03-28 03:12:28　來源: 量子位

上海舉報(bào)

分享至

當(dāng)前，人工智能產(chǎn)業(yè)正從模型能力競爭逐步轉(zhuǎn)向規(guī)模化應(yīng)用競爭。應(yīng)用形態(tài)也從單一問答擴(kuò)展到多智能體協(xié)作、長鏈路推理和復(fù)合任務(wù)執(zhí)行，這使得 Token 需求快速增長。與此同時(shí)，算力采購、部署和運(yùn)行過程中的設(shè)備和能源成本持續(xù)攀升，導(dǎo)致算力投入與實(shí)際 Token 產(chǎn)出之間的不匹配問題日益突出。圍繞 Token 推理效率開展系統(tǒng)優(yōu)化，已成為推動(dòng)產(chǎn)業(yè)持續(xù)發(fā)展的關(guān)鍵環(huán)節(jié)。

基于這一背景，近日，全球領(lǐng)先的高效能 AI Token 生產(chǎn)服務(wù)商趨境科技，正式發(fā)布全新一代 AI 推理平臺 ——趨境 ATaaS 高效能 AI Token 生產(chǎn)服務(wù)平臺（Approaching.AI Token as a Service）。破解大額硬件投入難以轉(zhuǎn)化為優(yōu)質(zhì) Token 產(chǎn)能、資源浪費(fèi)與成本空耗突出的行業(yè)困境。

針對當(dāng)前行業(yè)難題，趨境 ATaaS 平臺依托四大自研核心技術(shù)模塊，構(gòu)建覆蓋異構(gòu)整合、智能調(diào)度、彈性擴(kuò)容的全鏈路能力，并將算力與能源封裝為分層、面向具體應(yīng)用場景定制的高效能 Token 服務(wù)，為國產(chǎn)算力提質(zhì)增效、破解異構(gòu)算力孤島、實(shí)現(xiàn)規(guī)模化降本增效，提供標(biāo)桿級中國方案。

四大產(chǎn)業(yè)現(xiàn)狀：揭秘硬件高投入≠高效 Token 產(chǎn)出

1、硬件負(fù)載分化：過度依賴 GPU，CPU、內(nèi)存等資源閑置空耗

傳統(tǒng) Token 生成鏈路重度依賴 GPU，而 CPU、大容量內(nèi)存、集群 SSD 及 IB 高速互聯(lián)等昂貴資源長期利用率不足 10%，全系統(tǒng)硬件資源利用率不足 20%，造成智算集群規(guī)模化剛性成本巨額空耗。

2、軟硬件迭代失衡：芯片硬件快速更新，配套軟件生態(tài)適配滯后

硬件標(biāo)稱算力雖持續(xù)提升，但軟件層在通信、訪存和算子融合等方面優(yōu)化不足，PD/PP/CP/DP 等分布式并行策略在復(fù)雜組合下穩(wěn)定性有限，最終導(dǎo)致超 80% 理論算力難以充分利用。

3、算力配置失準(zhǔn)：脫離業(yè)務(wù) SLO 精細(xì)化調(diào)度，粗放盲配引發(fā)資源冗余損耗

當(dāng)前集群算力配置難以依據(jù)不同推理業(yè)務(wù)在時(shí)延、吞吐和穩(wěn)定性上的差異化要求，精準(zhǔn)匹配 CPU、GPU、內(nèi)存等異構(gòu)資源。統(tǒng)一部署和粗放配額仍較常見，導(dǎo)致超過 50% 的算力資源被隱形浪費(fèi)。

4、架構(gòu)演進(jìn)失衡：開源模塊豐富，但拼接式集成難以支撐規(guī)模化生產(chǎn)

開源生態(tài)為大模型推理提供了豐富模塊，但在大規(guī)模集群場景下，單靠組件拼接難以解決系統(tǒng)級協(xié)同問題。原生架構(gòu)對 KV Cache、序列長度等模型態(tài)關(guān)鍵參數(shù)感知不足，易引發(fā)負(fù)載失衡，再疊加通信阻塞和服務(wù)波動(dòng)等因素，系統(tǒng)擴(kuò)展后常面臨性能下降與運(yùn)維復(fù)雜度上升，無法支持大規(guī)模高效能 Token 生產(chǎn)。

趨境 ATaaS，四大核心技術(shù)破局產(chǎn)業(yè)困境，重構(gòu) Token 生產(chǎn)效能曲線

趨境科技提供高效能Token的本質(zhì)，是重構(gòu)算力、電力與 Token 產(chǎn)量之間的效能曲線。ATaaS 不是簡單的資源供給平臺，而是效能放大器——用軟件撬動(dòng)數(shù)倍于當(dāng)前的 Token 產(chǎn)能。

六合：異構(gòu)推理 2.0｜全球首創(chuàng)大模型計(jì)算邏輯重構(gòu)技術(shù)

深度融合 CPU+GPU、國產(chǎn)與非國產(chǎn)算力異構(gòu) PD 分離等技術(shù)，重構(gòu)模型計(jì)算邏輯，并基于算子與任務(wù)特征進(jìn)行智能分流：CPU 承載低計(jì)算密度任務(wù)，國產(chǎn)算力卡處理高密度 Prefill，大顯存顯卡承載高訪存 Decode。萬卡級智算集群整體運(yùn)營成本壓降20%以上。

月餅：以存換算 2.0｜全球首創(chuàng)超體量 KV Cache 緩存技術(shù)

通過架構(gòu)重構(gòu)，將原本依賴昂貴顯存承載的 KV Cache 存儲空間擴(kuò)展百倍至千倍，形成近乎無限的緩存池資源，緩存命中率最高可達(dá) 90% ，直接削減 90% GPU 算力開銷。

雙儀：虛實(shí)同構(gòu)｜全球首創(chuàng)算子級 SLO 仿真

基于算子級精細(xì)仿真，推演大模型 Token 生成全鏈路的吞吐、時(shí)延與訪存表現(xiàn)，實(shí)現(xiàn)算力資源的智能預(yù)規(guī)劃與動(dòng)態(tài)調(diào)優(yōu)；圍繞業(yè)務(wù) SLO 分級需求，精準(zhǔn)切分異構(gòu)算力配額并隔離資源優(yōu)先級，可將萬卡級智算集群硬件綜合資源利用率最高提升數(shù)倍。

萬象：極致彈性｜打通規(guī)模化量產(chǎn)最后壁壘

依托系統(tǒng)化工程能力，實(shí)現(xiàn)萬億參數(shù)大模型 7 秒快速拉起與動(dòng)態(tài)配置變更、數(shù)百節(jié)點(diǎn)超大規(guī)模 EP 彈性調(diào)度，以及智能容災(zāi)重構(gòu)和負(fù)載均衡，形成平臺原生支持萬卡級高性能橫向擴(kuò)展的關(guān)鍵能力。在落地初期，便推動(dòng)某在線公司的AI業(yè)務(wù)實(shí)現(xiàn)千卡集群吞吐實(shí)現(xiàn)翻倍提升。

從“數(shù)據(jù)中心”到“Token工廠”

“趨境 ATaaS：高效能 AI Token 生產(chǎn)服務(wù)平臺（Approaching.AI Token as a Service）”的發(fā)布，體現(xiàn)了 AI 基礎(chǔ)設(shè)施發(fā)展重點(diǎn)的進(jìn)一步演進(jìn)。行業(yè)關(guān)注的焦點(diǎn)，正在從單純的算力規(guī)模競爭，轉(zhuǎn)向?qū)?Token 生產(chǎn)效率的綜合衡量，其中包括 Token 響應(yīng)延時(shí)（TTFT）、Token 吞吐（TPS）以及資源利用效率等關(guān)鍵指標(biāo)。

這一理念與當(dāng)前的行業(yè)共識一致，當(dāng)黃仁勛宣布 NVIDIA 的1萬億美元需求預(yù)測，當(dāng) Token “供不應(yīng)求”成為常態(tài)，算力基礎(chǔ)設(shè)施正從“數(shù)據(jù)中心”演進(jìn)為“Token 工廠”。

作為高效能 AI Token 生產(chǎn)服務(wù)商，趨境科技依托長期的團(tuán)隊(duì)積累和推理優(yōu)化能力，推出趨境 ATaaS 平臺的意義不僅在于拓展了推理基礎(chǔ)設(shè)施的技術(shù)邊界，更在于為 AI 基礎(chǔ)設(shè)施的建設(shè)和運(yùn)營提供了新的思路和行業(yè)標(biāo)準(zhǔn)：通過提升算力調(diào)度效率、優(yōu)化推理過程、增強(qiáng)資源協(xié)同能力，使每單位算力和能耗投入都能夠數(shù)倍轉(zhuǎn)化為更穩(wěn)定、更可衡量的 Token 價(jià)值產(chǎn)出。

轉(zhuǎn)載來源：趨境科技

本文為量子位獲授權(quán)轉(zhuǎn)載，觀點(diǎn)僅為原作者所有。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.