3月27日消息,在2026中關(guān)村論壇期間,高效能AI Token生產(chǎn)服務(wù)商趨境科技發(fā)布全新一代 AI 推理平臺趨境 ATaaS 高效能 AI Token 生產(chǎn)服務(wù)平臺(Approaching.AI Token as a Service)。據(jù)悉,趨境 ATaaS 平臺依托四大自研核心技術(shù)模塊,構(gòu)建覆蓋異構(gòu)整合、智能調(diào)度、彈性擴容的全鏈路能力,并將算力與能源封裝為分層、面向具體應(yīng)用場景定制的高效能 Token 服務(wù),為國產(chǎn)算力提質(zhì)增效、破解異構(gòu)算力孤島、實現(xiàn)規(guī)模化降本增效。
具體來看,趨境 ATaaS具有四大核心技術(shù),一是異構(gòu)推理2.0,大模型計算邏輯重構(gòu)技術(shù),其深度融合 CPU+GPU、國產(chǎn)與非國產(chǎn)算力異構(gòu) PD 分離等技術(shù),重構(gòu)模型計算邏輯,并基于算子與任務(wù)特征進行智能分流:CPU 承載低計算密度任務(wù),國產(chǎn)算力卡處理高密度 Prefill,大顯存顯卡承載高訪存 Decode。萬卡級智算集群整體運營成本壓降20%以上。
二是以存換算2.0,超體量 KV Cache 緩存技術(shù),通過架構(gòu)重構(gòu),將原本依賴昂貴顯存承載的 KV Cache 存儲空間擴展百倍至千倍,形成近乎無限的緩存池資源,緩存命中率最高可達(dá)90% ,直接削減90% GPU 算力開銷。
三是虛實同構(gòu),算子級 SLO 仿真,基于算子級精細(xì)仿真,推演大模型 Token 生成全鏈路的吞吐、時延與訪存表現(xiàn),實現(xiàn)算力資源的智能預(yù)規(guī)劃與動態(tài)調(diào)優(yōu);圍繞業(yè)務(wù) SLO 分級需求,精準(zhǔn)切分異構(gòu)算力配額并隔離資源優(yōu)先級,可將萬卡級智算集群硬件綜合資源利用率最高提升數(shù)倍。
四是極致彈性,實現(xiàn)萬億參數(shù)大模型7秒快速拉起與動態(tài)配置變更、數(shù)百節(jié)點超大規(guī)模 EP 彈性調(diào)度,以及智能容災(zāi)重構(gòu)和負(fù)載均衡,形成平臺原生支持萬卡級高性能橫向擴展的關(guān)鍵能力。(定西)
