![]()
![]()
性價比之王!
國內首款LPDDR6:推理GPU啟望S3發布!
曦望GPU路線圖公布:“百萬 token 一分錢”!
1月27日,杭州GPU創企曦望舉辦發布會,披露三年產品路線圖,發布啟望S3推理GPU芯片、寰望SC3超節點方案及推理云計劃。
S3芯片作為國內首款LPDDR6顯存GPGPU,推理性價比提升10倍以上,單位token成本降90%。發布會同步啟動“百萬Token一分錢”合作,聯動多家伙伴布局生態,彰顯其深耕推理賽道、重構AI算力成本的決心。
![]()
![]()
一、啟望S3芯片,以極致設計重塑推理性價比
2026年1月27日,曦望在杭州披露三年產品路線圖,發布專為大模型推理定制的啟望S3芯片。徐冰指出,為追求極致性價比,曦望“拋棄了傳統訓推一體GPU為訓練準備的冗余設計,不追求峰值TFLOPS這種紙面數據,把真實業務場景中每個token的成本、能耗以及SLA穩定性作為所有設計決策的根本出發點”,并強調這三大指標“直接決定了最終的業務毛利率,直接影響了終端客戶群體的用戶體驗”。
![]()
啟望S3有三大核心亮點:一是極致PPA,摒棄訓練冗余組件,采用推理優化架構及先進第三方高速接口IP;二是采用合規先進國際工藝節點;三是作為國內首款LPDDR6顯存GPGPU芯片,帶寬較LPDDR5提升1倍以上,顯存容量較上一代提升4倍,經論證為當前推理最優解。
曦望精準把控大模型黃金算力訪存比,避免資源浪費,芯片支持FP16至FP4多精度切換,適配MoE及長上下文模型需求。據王勇分享,啟望S3“取得了10倍以上的推理性價比提升”,單芯片性能較前代提升5倍,單位token成本下降約90%,力爭生命周期內實現百億級收入,將于今年上市。
![]()
二、系統方案:寰望SC3超節點,構建高效推理基礎設施
同步發布的寰望SC3超節點方案,聚焦千億級以上參數多模態MoE推理需求,支持單域256卡一級互聯,適配PD分離、大EP部署,提升系統利用率與穩定性,可應對長上下文、多并發等復雜場景。
該方案采用全液冷設計,PUE表現優異,支持模塊化快速交付。王勇介紹,大EP部署下吞吐率提升20~25倍,“在同等推理能力量級下,該方案可將整體系統交付成本從行業常見的億元級降低至千萬元級,實現1個數量級的下降”。通過RDMA連接,可擴展為千卡級集群,滿足大規模部署需求。
![]()
軟件層面,其自研體系覆蓋驅動、算子庫等全鏈路,95%兼容CUDA,降低遷移門檻,已適配DeepSeek、通義千問等百余種大模型,兼容ModelScope平臺90%以上主流模型形態。
![]()
三、生態布局:推理云計劃,邁向“百萬token一分錢”目標
曦望以“芯片+系統+生態”布局,啟動推理云計劃,與商湯、范式共建“百萬Token一分錢”合作,聯動杭鋼數字等平臺落地浙江、輻射全國,同時與三一、協鑫等十余家伙伴簽約,將推理能力嵌入制造、能源等多場景。
![]()
聯席CEO王湛表示,新一代AI原生智算平臺為核心支撐,具備四大優勢:軟硬件深度協同,自研內核與通信庫,量化壓縮技術實現250%+性能提升且精度損失極小;資源彈性調度,通過GPU池化等技術按需供給;開箱即用,集成模型市場與工具;穩定可靠,具備高可用及智能運維能力。
基于該平臺,曦望以“推理即服務”升級商業模式,構建“芯片+云基建”雙輪驅動,通過GPU池化整合算力,以MaaS為入口,為客戶提供零門檻一體化服務,成為“百萬Token一分錢”合作的技術核心。
王勇補充,“百萬token一分錢”目標將在S3至S5迭代中逐步達成。據煒燁智算測算,目前曦望每百萬token價格約0.57元,遠低于行業7~14元水平。未來將以“token as a service”為核心,提供多元服務,輸出高性價比綠色算力。
四、產品路線圖:三代迭代規劃,完善全鏈路產品矩陣
曦望遵循“量產一代、發布一代、預研一代”節奏,明確三年路線:2026年推啟望S3,2027年發布S4高性能芯片,2028年推出S5安全可控芯片,以每年一迭代鞏固賽道優勢,邁向極致推理成本目標。
圍繞啟望S3,曦望構建了覆蓋計算卡、服務器、AI集群、終端設備的全鏈路產品矩陣,形成完整生態,為各行業提供一體化推理方案,強化“更懂AI的推理GPU廠商”定位,助力降低國內AI推理成本。
![]()
五、企業根基:脫胎商湯,匯聚頂尖力量深耕推理賽道
曦望成立于2020年5月,前身為商湯科技大芯片部門,是國內首家All in推理的GPU芯片公司。董事長徐冰明確表示:“我們是一家更懂AI的GPU芯片公司,而且是國內第一家All in推理的GPU芯片公司。” 其使命是“把大模型推理做到極致,要讓AI推理真正變得便宜穩定,而且隨處可用”。
![]()
公司核心團隊超300人,多來自英偉達、AMD、昆侖芯等頭部企業,核心骨干平均擁有15年行業經驗,采用“雙引擎”架構:研發端聯席CEO王勇,曾任AMD、昆侖芯核心架構師,擁有20年芯片研發經驗,2020年加入商湯后帶領團隊實現兩代芯片一次性研發量產成功;商業化端聯席CEO王湛,為百度創始團隊成員、前集團副總裁,曾執掌百度搜索8000人團隊,2025年初加入,負責產品化、商業化及組織文化建設。
過去8年,曦望累計研發投入20億元,堅持GPU每年一迭代,成功量產啟望S1、S2。2025年,其推理GPU交付量突破1萬片,斬獲多個頭部訂單,收入大增;同年完成約30億元戰略融資,股東涵蓋商湯、三一、杭州數據集團等龍頭及多家國資、頂尖風投。王勇強調:“我們拒絕做跑分黨,不希望用benchmark來定義芯片,而是希望能夠做到幫客戶賺錢的算力。”
曦望擁有全棧GPGPU架構,率先提出用大容量DDR替代HBM、以高性價比推理芯片替代訓推一體芯片的理念。啟望S1于2018年研發、2020年量產,IP已授權索尼、小米,應用于AI攝像頭及手機;啟望S2對標國際旗艦,2021年流片、2023年產品化,在DeepSeek滿血版適配中達國際巨頭80%推理性能,穩居國內第一梯隊。軟件棧實現95%CUDA兼容,已適配商湯全系列小浣熊模型,與長城集團打造國產信創一體機,拓展多元垂直應用。
—— 深科技 ——
深科技是聚焦人工智能與機器人領域的新興專業科技媒體,憑借敏銳行業洞察力深耕技術創新與產業落地。業務覆蓋前沿動態報道、核心技術解析及應用場景深度分析,重點聚焦人形機器人、AI 算力等熱點賽道。以兼具深度與時效性的內容矩陣為核心,為行業從業者、投資者提供精準資訊與專業洞察,助力用戶快速把握行業趨勢與技術風口,是 AI 與機器人領域極具潛力的新興信息服務平臺。
1、
2、
3、
4、
5、
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.