當(dāng)前,人工智能產(chǎn)業(yè)正從模型能力競爭逐步轉(zhuǎn)向規(guī)模化應(yīng)用競爭。應(yīng)用形態(tài)也從單一問答擴(kuò)展到多智能體協(xié)作、長鏈路推理和復(fù)合任務(wù)執(zhí)行,這使得 Token 需求快速增長。與此同時(shí),算力采購、部署和運(yùn)行過程中的設(shè)備和能源成本持續(xù)攀升,導(dǎo)致算力投入與實(shí)際 Token 產(chǎn)出之間的不匹配問題日益突出。圍繞 Token 推理效率開展系統(tǒng)優(yōu)化,已成為推動(dòng)產(chǎn)業(yè)持續(xù)發(fā)展的關(guān)鍵環(huán)節(jié)。
基于這一背景,近日,全球領(lǐng)先的高效能 AI Token 生產(chǎn)服務(wù)商趨境科技,正式發(fā)布全新一代 AI 推理平臺 ——趨境 ATaaS 高效能 AI Token 生產(chǎn)服務(wù)平臺(Approaching.AI Token as a Service)。破解大額硬件投入難以轉(zhuǎn)化為優(yōu)質(zhì) Token 產(chǎn)能、資源浪費(fèi)與成本空耗突出的行業(yè)困境。
針對當(dāng)前行業(yè)難題,趨境 ATaaS 平臺依托四大自研核心技術(shù)模塊,構(gòu)建覆蓋異構(gòu)整合、智能調(diào)度、彈性擴(kuò)容的全鏈路能力,并將算力與能源封裝為分層、面向具體應(yīng)用場景定制的高效能 Token 服務(wù),為國產(chǎn)算力提質(zhì)增效、破解異構(gòu)算力孤島、實(shí)現(xiàn)規(guī)模化降本增效,提供標(biāo)桿級中國方案。
![]()
四大產(chǎn)業(yè)現(xiàn)狀:揭秘硬件高投入≠高效 Token 產(chǎn)出
1、硬件負(fù)載分化:過度依賴 GPU,CPU、內(nèi)存等資源閑置空耗
傳統(tǒng) Token 生成鏈路重度依賴 GPU,而 CPU、大容量內(nèi)存、集群 SSD 及 IB 高速互聯(lián)等昂貴資源長期利用率不足 10%,全系統(tǒng)硬件資源利用率不足 20%,造成智算集群規(guī)模化剛性成本巨額空耗。
2、軟硬件迭代失衡:芯片硬件快速更新,配套軟件生態(tài)適配滯后
硬件標(biāo)稱算力雖持續(xù)提升,但軟件層在通信、訪存和算子融合等方面優(yōu)化不足,PD/PP/CP/DP 等分布式并行策略在復(fù)雜組合下穩(wěn)定性有限,最終導(dǎo)致超 80% 理論算力難以充分利用。
3、算力配置失準(zhǔn):脫離業(yè)務(wù) SLO 精細(xì)化調(diào)度,粗放盲配引發(fā)資源冗余損耗
當(dāng)前集群算力配置難以依據(jù)不同推理業(yè)務(wù)在時(shí)延、吞吐和穩(wěn)定性上的差異化要求,精準(zhǔn)匹配 CPU、GPU、內(nèi)存等異構(gòu)資源。統(tǒng)一部署和粗放配額仍較常見,導(dǎo)致超過 50% 的算力資源被隱形浪費(fèi)。
4、架構(gòu)演進(jìn)失衡:開源模塊豐富,但拼接式集成難以支撐規(guī)模化生產(chǎn)
開源生態(tài)為大模型推理提供了豐富模塊,但在大規(guī)模集群場景下,單靠組件拼接難以解決系統(tǒng)級協(xié)同問題。原生架構(gòu)對 KV Cache、序列長度等模型態(tài)關(guān)鍵參數(shù)感知不足,易引發(fā)負(fù)載失衡,再疊加通信阻塞和服務(wù)波動(dòng)等因素,系統(tǒng)擴(kuò)展后常面臨性能下降與運(yùn)維復(fù)雜度上升,無法支持大規(guī)模高效能 Token 生產(chǎn)。
趨境 ATaaS,四大核心技術(shù)破局產(chǎn)業(yè)困境,重構(gòu) Token 生產(chǎn)效能曲線
趨境科技提供高效能Token的本質(zhì),是重構(gòu)算力、電力與 Token 產(chǎn)量之間的效能曲線。ATaaS 不是簡單的資源供給平臺,而是效能放大器——用軟件撬動(dòng)數(shù)倍于當(dāng)前的 Token 產(chǎn)能。
![]()
六合:異構(gòu)推理 2.0|全球首創(chuàng)大模型計(jì)算邏輯重構(gòu)技術(shù)
深度融合 CPU+GPU、國產(chǎn)與非國產(chǎn)算力異構(gòu) PD 分離等技術(shù),重構(gòu)模型計(jì)算邏輯,并基于算子與任務(wù)特征進(jìn)行智能分流:CPU 承載低計(jì)算密度任務(wù),國產(chǎn)算力卡處理高密度 Prefill,大顯存顯卡承載高訪存 Decode。萬卡級智算集群整體運(yùn)營成本壓降20%以上。
月餅:以存換算 2.0|全球首創(chuàng)超體量 KV Cache 緩存技術(shù)
通過架構(gòu)重構(gòu),將原本依賴昂貴顯存承載的 KV Cache 存儲空間擴(kuò)展百倍至千倍,形成近乎無限的緩存池資源,緩存命中率最高可達(dá) 90% ,直接削減 90% GPU 算力開銷。
雙儀:虛實(shí)同構(gòu)|全球首創(chuàng)算子級 SLO 仿真
基于算子級精細(xì)仿真,推演大模型 Token 生成全鏈路的吞吐、時(shí)延與訪存表現(xiàn),實(shí)現(xiàn)算力資源的智能預(yù)規(guī)劃與動(dòng)態(tài)調(diào)優(yōu);圍繞業(yè)務(wù) SLO 分級需求,精準(zhǔn)切分異構(gòu)算力配額并隔離資源優(yōu)先級,可將萬卡級智算集群硬件綜合資源利用率最高提升數(shù)倍。
萬象:極致彈性|打通規(guī)模化量產(chǎn)最后壁壘
依托系統(tǒng)化工程能力,實(shí)現(xiàn)萬億參數(shù)大模型 7 秒快速拉起與動(dòng)態(tài)配置變更、數(shù)百節(jié)點(diǎn)超大規(guī)模 EP 彈性調(diào)度,以及智能容災(zāi)重構(gòu)和負(fù)載均衡,形成平臺原生支持萬卡級高性能橫向擴(kuò)展的關(guān)鍵能力。在落地初期,便推動(dòng)某在線公司的AI業(yè)務(wù)實(shí)現(xiàn)千卡集群吞吐實(shí)現(xiàn)翻倍提升。
從“數(shù)據(jù)中心”到“Token工廠”
“趨境 ATaaS:高效能 AI Token 生產(chǎn)服務(wù)平臺(Approaching.AI Token as a Service)”的發(fā)布,體現(xiàn)了 AI 基礎(chǔ)設(shè)施發(fā)展重點(diǎn)的進(jìn)一步演進(jìn)。行業(yè)關(guān)注的焦點(diǎn),正在從單純的算力規(guī)模競爭,轉(zhuǎn)向?qū)?Token 生產(chǎn)效率的綜合衡量,其中包括 Token 響應(yīng)延時(shí)(TTFT)、Token 吞吐(TPS)以及資源利用效率等關(guān)鍵指標(biāo)。
這一理念與當(dāng)前的行業(yè)共識一致, 當(dāng)黃仁勛宣布 NVIDIA 的1萬億美元需求預(yù)測,當(dāng) Token “供不應(yīng)求”成為常態(tài),算力基礎(chǔ)設(shè)施正從“數(shù)據(jù)中心”演進(jìn)為“Token 工廠”。
作為高效能 AI Token 生產(chǎn)服務(wù)商,趨境科技依托長期的團(tuán)隊(duì)積累和推理優(yōu)化能力,推出趨境 ATaaS 平臺的意義不僅在于拓展了推理基礎(chǔ)設(shè)施的技術(shù)邊界,更在于為 AI 基礎(chǔ)設(shè)施的建設(shè)和運(yùn)營提供了新的思路和行業(yè)標(biāo)準(zhǔn):通過提升算力調(diào)度效率、優(yōu)化推理過程、增強(qiáng)資源協(xié)同能力,使每單位算力和能耗投入都能夠數(shù)倍轉(zhuǎn)化為更穩(wěn)定、更可衡量的 Token 價(jià)值產(chǎn)出。
轉(zhuǎn)載來源:趨境科技
本文為量子位獲授權(quán)轉(zhuǎn)載,觀點(diǎn)僅為原作者所有。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.