<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      曦望,死磕AI推理成本|甲子光年

      0
      分享至



      解析曦望新一代推理GPU芯片啟望S3。

      作者|王藝

      編輯|王博

      國產(chǎn)GPU又有新發(fā)布。

      1月27日,國產(chǎn)GPU廠商曦望(Sunrise)在杭州發(fā)布新一代推理GPU芯片啟望S3,并同步推出面向大模型推理的超節(jié)點方案及推理云計劃。這是曦望在近一年累計完成約30億元戰(zhàn)略融資后的首次系統(tǒng)性技術(shù)亮相。

      曦望是國產(chǎn)全棧自研人工智能算力芯片企業(yè),前身是商湯大芯片部門,2024年底分拆獨立運營,專注于高性能GPU及多模態(tài)場景推理芯片的研發(fā)與商業(yè)化。

      曦望聯(lián)席CEO王勇身穿皮衣、牛仔褲走上舞臺,作為一位芯片技術(shù)老兵,這個場景他并不陌生。王勇曾任AMD dGPU首席架構(gòu)師、昆侖芯核心架構(gòu)師,2020年加入商湯科技領(lǐng)導(dǎo)大芯片部門,為曦望的前身奠定技術(shù)基礎(chǔ)。

      這一次,他和團(tuán)隊目標(biāo)很明確——極致推理性價比


      啟望S3是一款面向大模型推理深度定制的GPGPU芯片,其設(shè)計進(jìn)行了系統(tǒng)級重構(gòu)。

      在算力層面,啟望S3支持從FP16到FP4的多精度靈活切換。模型在保證效果的前提下,最大化釋放低精度推理效率。

      在存儲層面,啟望S3采用LPDDR6顯存方案,成為國內(nèi)首款采用該方案的芯片。相比HBM(高帶寬內(nèi)存)路線,LPDDR6更強(qiáng)調(diào)容量與能效比。

      系統(tǒng)級重構(gòu),也體現(xiàn)在推理成本上。在DeepSeek V3/R1滿血版等主流大模型推理場景中,啟望S3單位Token推理成本較上一代產(chǎn)品下降約90%。

      “當(dāng)推理成為主要算力消耗場景后,GPU的商業(yè)價值不再取決于參數(shù)指標(biāo),而是單位Token的真實成本。”王勇說。

      這并不是在“畫餅”。「甲子光年」了解到,曦望2025年推理GPU芯片交付量已突破1萬片,這說明其推理GPU路線已完成從工程驗證到規(guī)模化交付的關(guān)鍵跨越。

      而新發(fā)布的啟望S3目前已完成內(nèi)部研發(fā),預(yù)計將于今年年中流片,年底回片量產(chǎn)。

      賣芯片不是一錘子買賣,如何把算力轉(zhuǎn)化為可交付的生產(chǎn)力,是所有國產(chǎn)GPU廠商都需要回答的問題。

      1.死磕推理成本

      硅谷早期風(fēng)險投資機(jī)構(gòu)Benchmark的合伙人Everett Randle在2025年底接受采訪時表示,AI應(yīng)用會有大量的AI推理成本計入COGS(銷售成本),導(dǎo)致毛利率低于傳統(tǒng)SaaS。

      “人們因此認(rèn)為AI應(yīng)用不是一門好生意。”Everett Randle說,“但如果關(guān)注單客絕對毛利率,AI應(yīng)用的絕對毛利潤可以達(dá)到普通SaaS公司的四到五倍,擁有比SaaS公司大得多的潛在市場。”

      以剛剛上市的智譜為例,招股書顯示,智譜在2022~2024年毛利率分別為54.6%、64.6%、56.3%,2025年上半年回落至50%,這雖然高于傳統(tǒng)項目制公司,但和傳統(tǒng)SaaS行業(yè)相比并不突出。

      就在今年的CES上,英偉達(dá)創(chuàng)始人&CEO黃仁勛宣布新一代Rubin平臺通過“極端協(xié)同設(shè)計”整合六款芯片(GPU、CPU、NVLink 6、DPU等),這將加速agentic AI、高級推理以及大規(guī)模混合專家(MoE)模型推理,其每token成本比Blackwell平臺降低了多達(dá)10倍。


      黃仁勛在CES 2026演講,圖片來源:「甲子光年」拍攝

      降低推理成本已逐漸成為行業(yè)共識。

      在這次曦望的發(fā)布會上,曦望董事長徐冰把行業(yè)的變化概括為三句話:需求變了、場景變了、成本結(jié)構(gòu)變了。AI正在從“被訓(xùn)出來”走向“能被用起來”的實戰(zhàn)階段。智能體、物理AI、3D/視頻生成等場景爆發(fā),會讓推理從配角變成主力。

      “誰能持續(xù)降低推理成本,誰就掌握了AI產(chǎn)業(yè)的成本曲線。”徐冰說。

      徐冰此前是商湯集團(tuán)聯(lián)合創(chuàng)始人、執(zhí)行董事及董事會秘書。去年,徐冰辭去商湯集團(tuán)執(zhí)行董事、董事會秘書職位。后來徐冰擔(dān)任曦望董事長,開始掌舵這家國產(chǎn)GPU公司。

      “如果我們能夠讓推理的成本下降90%,并且可以提供穩(wěn)定的服務(wù),那我們的競爭不是市面上的又多一個芯片選擇,而是說我們可以真正重寫中國AI產(chǎn)業(yè)的損益表,助力全行業(yè)盈利增收。”徐冰說。

      但這次發(fā)布會,曦望并沒有公布啟望S3更為具體的性能參數(shù),僅用一張綜合性能指標(biāo)表格進(jìn)行了對比。


      啟望S3綜合性能指標(biāo),圖片來源:「甲子光年」拍攝

      不過,「甲子光年」根據(jù)圖中的信息可以解讀出,啟望S3的綜合性能與摩爾線程的S系列智算加速卡相當(dāng),高于昇騰910B、英偉達(dá)A系列,低于昇騰910C、英偉達(dá)H系列。

      對比來看,以摩爾線程大模型智算加速卡MTT S4000為例,其采用第三代MUSA架構(gòu),配備了Tensor核心,單卡支持48GB顯存和768GB/s的顯存帶寬。

      王勇在現(xiàn)場更多強(qiáng)調(diào)的是成本,啟望S3的單卡成本預(yù)計在2~4萬元之間,比友商更具性價比。

      那么,如何降低推理成本?曦望進(jìn)行了一場架構(gòu)革命,王勇稱之為“重新定義推理GPU”。


      啟望S3架構(gòu)進(jìn)化,圖片來源:「甲子光年」拍攝

      PPA是芯片設(shè)計核心指標(biāo),代表Power(功耗)、Performance(性能)、Area(面積)。王勇介紹,啟望S3追求極致的PPA,在架構(gòu)上揚棄了所有與訓(xùn)練相關(guān)的比較重且貴的技術(shù)組件,而采用了比較新的針對推理極致優(yōu)化的架構(gòu)和技術(shù)組件。

      在IP層面,團(tuán)隊融合了國際主流GPU架構(gòu)的最新特性,引入Warp調(diào)度優(yōu)化與Tensor Memory等先進(jìn)設(shè)計,并在合規(guī)前提下采用目前最先進(jìn)的國際工藝節(jié)點,同時集成國際巨頭的高速接口IP。

      啟望S3最顯著的差異化在于顯存方案。由于HBM與先進(jìn)封裝強(qiáng)綁定,這會大幅推高訓(xùn)推一體芯片的成本,在做了非常多的架構(gòu)研究后,曦望發(fā)現(xiàn)LPDDR6才是當(dāng)前推理的最優(yōu)解。

      如果說HBM是為訓(xùn)練而生,追求極限帶寬,不惜成本,那么LPDDR6就是為推理而生,追求容量與能效比,極致成本控制。

      因此啟望S3成為國內(nèi)首款采用LPDDR6方案的芯片。官方數(shù)據(jù)顯示,S3的顯存容量較上一代產(chǎn)品提升4倍,有效緩解了大模型推理中普遍存在的顯存駐留與訪存瓶頸。

      而從本質(zhì)上來看,曦望團(tuán)隊是在“性能-成本-功耗”的不可能三角中,針對推理負(fù)載特性(非連續(xù)計算、大容量需求、成本敏感)做出的精準(zhǔn)取舍。

      啟望S3還擁有“黃金訪存比”,這也是團(tuán)隊在研究大模型本身特點后的發(fā)現(xiàn),達(dá)到訪存比的“甜點”意味著不浪費每一分的算力和帶寬。

      最后是核心性能。王勇介紹,F(xiàn)lash Attention算子計算效率高達(dá)98%;GEMM算子TensorCore利用率更達(dá)99%,基于這些數(shù)據(jù),王勇稱:“曦望的研發(fā)和架構(gòu)能力遙遙領(lǐng)先。”

      2.不止芯片

      圍繞啟望S3,曦望同步發(fā)布了面向大模型推理的寰望SC3超節(jié)點解決方案。

      寰望SC3從一開始即面向千億、萬億級參數(shù)多模態(tài)MoE推理的真實部署需求進(jìn)行設(shè)計。該方案支持單域256卡一級互聯(lián),可高效支撐PD分離架構(gòu)與大EP(Expert Parallelism)規(guī)模化部署,顯著提升推理階段的系統(tǒng)利用率與穩(wěn)定性,適配長上下文、多并發(fā)、多專家并行等復(fù)雜推理場景。

      在交付形態(tài)上,寰望SC3采用全液冷設(shè)計,具備極致PUE表現(xiàn),并支持模塊化交付與快速部署。在同等推理能力量級下,該方案可將整體系統(tǒng)交付成本從行業(yè)常見的億元級,降低至千萬元級,實現(xiàn)一個數(shù)量級的下降。


      寰望SC3超節(jié)點,圖片來源:「甲子光年」拍攝

      除了寰望,S3的產(chǎn)品矩陣還包括智望系列的PCIe卡與OMS卡、辰望系列的PCIe服務(wù)器與OMS服務(wù)器,以及熙望系列的AIPC(液冷工作站)。


      S3產(chǎn)品矩陣,圖片來源:「甲子光年」拍攝

      在軟件層面,曦望構(gòu)建了與CUDA兼容的基礎(chǔ)軟件體系,覆蓋驅(qū)動、運行時API、開發(fā)工具鏈、算子庫和通信庫,降低推理應(yīng)用的遷移門檻。目前,該體系已適配ModelScope平臺90%以上主流大模型形態(tài),包括DeepSeek、通義千問等。


      曦望軟硬協(xié)同,圖片來源:「甲子光年」拍攝

      此外,曦望團(tuán)隊在卡間互聯(lián)方面也做了很多工作,支持高帶寬、低延時的Scale-Up、Scale-Out互聯(lián)架構(gòu),這種原生支持的互聯(lián)架構(gòu)可以讓寰望超節(jié)點產(chǎn)品,不僅是256卡,也可以向下覆蓋。

      “這取決于我們的客戶的需求,可以做到16到256卡這樣的超節(jié)點產(chǎn)品。同時,當(dāng)我們把多個超節(jié)點通過我們直出的RDMA(遠(yuǎn)程直接內(nèi)存訪問)連接起來的時候,我們可以做到千卡甚至幾千卡的互聯(lián)集群。”王勇說。

      在曦望看來,推理GPU的競爭并不止于芯片本身,而在于能否將硬件能力穩(wěn)定轉(zhuǎn)化為可交付、可計價的推理算力。

      3.曦望憑什么能站穩(wěn)腳跟?

      國產(chǎn)AI芯片已經(jīng)是一個擁擠而殘酷的賽道。

      昇騰、摩爾線程、沐曦、寒武紀(jì)、億鑄、燧原等都已在某些層面證明了自己的實力,這意味著,目前的時間點競爭已充分激烈,對技術(shù)路線和資本競爭等關(guān)系公司戰(zhàn)略的重大事項,決策的容錯率會大大降低。

      而面對國內(nèi)外的競爭,曦望憑什么能站穩(wěn)腳跟?

      徐冰對于這個問題的回答簡單而直接:“我們不是在做又一個GPU,而是從底層架構(gòu)就為推理場景重新設(shè)計,徹底重寫。

      在徐冰看來,啟望S3徹底拋棄了傳統(tǒng)的訓(xùn)推一體GPU為訓(xùn)練準(zhǔn)備的那些冗余設(shè)計,不追求峰值TFLOPS這種紙面數(shù)據(jù),“我們是把真實業(yè)務(wù)場景中的每個token的成本,每個token的能耗,還有實實在在的穩(wěn)定性,作為所有設(shè)計決策的根本出發(fā)點。”

      芯片設(shè)計不能紙上談兵,必須結(jié)合真實業(yè)務(wù)場景,滿足各種客戶需求。2025年全球大模型token的消耗量激增,其中推理消耗占了很大一部分比例,這種結(jié)構(gòu)性改變也堅定了團(tuán)隊研發(fā)的方向。

      過去的2025年,在徐冰看來是團(tuán)隊“最忙的一年”,整個團(tuán)隊幾乎是“沒日沒夜全速研發(fā)”。

      目前曦望已擁有三百多人的團(tuán)隊,聚攏了行業(yè)中一批芯片研發(fā)精英,他們來自英偉達(dá)、AMD、昆侖芯、商湯等。核心的技術(shù)骨干平均有15年的行業(yè)經(jīng)驗。徐冰形容這是“一支真正懂芯片,懂AI能落地的特種部隊”。

      「甲子光年」從曦望內(nèi)部了解到,公司里有這樣一句話:我們不做“向上管理”,我們要“求真務(wù)實”。

      團(tuán)隊曾經(jīng)去一家AI公司調(diào)研發(fā)現(xiàn),這家AI公司的GPU的峰值使用率有85%,但是日均使用率只有28%。GPU的長期空閑率達(dá)到40%,每月浪費的算力成本,可以買兩臺新的服務(wù)器。

      一個推理集群往往由眾多的服務(wù)器組成的,這些服務(wù)器在不同的推理算力的需求下會呈現(xiàn)出一個問題——資源利用率低,而曦望就是要解決這樣的問題。

      此外,還有模型適配問題,這也是行業(yè)當(dāng)中很多客戶都會遇到的問題。曦望團(tuán)隊的解法是專門做一個MaaS(Model as a Service)平臺,方便模型調(diào)用和定制優(yōu)化。

      從成功量產(chǎn)啟望S1和S2,到發(fā)布S3,展示S4和S5的路徑圖,曦望在在一步步靠近AI推理時代。過去一年,國內(nèi)已經(jīng)有一些廠商把大模型的推理價格做到了百萬token一元甚至幾毛錢,曦望的目標(biāo)是在這個基礎(chǔ)上,把成本再壓一個數(shù)量級,把“百萬token一分錢”變成行業(yè)新基準(zhǔn)。


      徐冰介紹曦望的目標(biāo),圖片來源:「甲子光年」拍攝

      如果說啟望S3回答的是“推理算力如何更便宜”,那么曦望與商湯科技、第四范式等生態(tài)伙伴探索的推理云平臺,則試圖解決“推理算力如何更好用”。

      通過GPU池化與彈性調(diào)度,曦望將底層算力整合為統(tǒng)一的推理算力池,并以 MaaS(Model as a Service)作為核心入口,使企業(yè)無需關(guān)注底層硬件配置與集群運維,即可按需調(diào)用大模型推理能力。這一體系也成為“百萬Token一分錢”推理成本合作的重要技術(shù)基礎(chǔ)。

      「甲子光年」了解到,曦望在過去一年內(nèi)順利完成了近30億元戰(zhàn)略融資,投資方的陣容也很強(qiáng)大,包括三一集團(tuán)旗下華胥基金、范式智能、杭州數(shù)據(jù)集團(tuán)、正大機(jī)器人、協(xié)鑫科技、游族網(wǎng)絡(luò)、北京利爾等產(chǎn)業(yè)投資方,無極資本、IDG 資本、心資本、高榕創(chuàng)投、中金資本、普華資本、松禾資本、易方達(dá)資本、工銀投資、海通開元、越秀產(chǎn)業(yè)基金、銀泰投資、國元基金、粵民投、華民投等國內(nèi)知名VC/PE機(jī)構(gòu),同時獲得誠通混改基金、杭州金投、杭州高新金投等國資背景資本的加持。

      當(dāng)然,推理算力價值的實現(xiàn)離不開協(xié)同,需要芯片設(shè)計、系統(tǒng)集成、軟件開發(fā)到產(chǎn)業(yè)應(yīng)用的全鏈條協(xié)作。曦望在生態(tài)打造、商業(yè)化等方面還有很長一段路需要走。

      與各類算力廠商和芯片廠商深度合作,成為現(xiàn)有算力系統(tǒng)的推理分流是曦望的一個務(wù)實的選擇。

      “曦望的使命只有一個,”徐冰說,“就是把大模型推理這件事做到極致。

      (封面圖來源:曦望)

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點推薦
      程瀟為什么被稱為“奶瀟”?看了這張圖片后秒懂,不愧是內(nèi)娛身材數(shù)一數(shù)二的女明星!

      程瀟為什么被稱為“奶瀟”?看了這張圖片后秒懂,不愧是內(nèi)娛身材數(shù)一數(shù)二的女明星!

      背包旅行
      2026-02-02 15:03:55
      下課僅 1 個月!曼聯(lián)棄帥竟要接手歐洲豪門,穆里尼奧成最大推手

      下課僅 1 個月!曼聯(lián)棄帥竟要接手歐洲豪門,穆里尼奧成最大推手

      瀾歸序
      2026-02-12 03:14:56
      碧桂園楊惠妍被通報批評

      碧桂園楊惠妍被通報批評

      時間財經(jīng)
      2026-02-11 16:57:30
      3度遷徙!張本智和官宣遷居德國,日本隊措手不及,妹妹會跟風(fēng)嗎

      3度遷徙!張本智和官宣遷居德國,日本隊措手不及,妹妹會跟風(fēng)嗎

      卿子書
      2026-02-01 14:59:33
      董璇夫婦帶老人三亞過年,小年夜吃海鮮大餐,張維伊過年不孤單了

      董璇夫婦帶老人三亞過年,小年夜吃海鮮大餐,張維伊過年不孤單了

      觀察者海風(fēng)
      2026-02-11 22:11:28
      彭德懷欲用4個師圍殲陸戰(zhàn)一師,毛澤東急電:人數(shù)不夠,加上26軍

      彭德懷欲用4個師圍殲陸戰(zhàn)一師,毛澤東急電:人數(shù)不夠,加上26軍

      歷史龍元閣
      2026-02-11 08:15:10
      破案了!看了牢A的直播后,終于知道宋祖兒為什么會被全網(wǎng)黑了!

      破案了!看了牢A的直播后,終于知道宋祖兒為什么會被全網(wǎng)黑了!

      樂悠悠娛樂
      2026-01-22 08:57:21
      說句扎心的大實話,咱們在南海的“牌”,一開始爛到家了。

      說句扎心的大實話,咱們在南海的“牌”,一開始爛到家了。

      南權(quán)先生
      2026-01-27 15:44:44
      以總理被曝向特朗普提要求:與伊朗的協(xié)議不應(yīng)設(shè)置到期時間

      以總理被曝向特朗普提要求:與伊朗的協(xié)議不應(yīng)設(shè)置到期時間

      財聯(lián)社
      2026-02-12 02:44:05
      王室默契!索菲公爵夫人戴凱特同款圍巾,10 年老西裝穿出高級感

      王室默契!索菲公爵夫人戴凱特同款圍巾,10 年老西裝穿出高級感

      述家娛記
      2026-01-15 15:52:25
      女子婚禮穿低胸婚紗遭熱議,現(xiàn)場尷尬全程用紙巾遮擋。

      女子婚禮穿低胸婚紗遭熱議,現(xiàn)場尷尬全程用紙巾遮擋。

      特約前排觀眾
      2026-02-11 00:05:07
      吉利與欣旺達(dá)和解,獲6億賠償,極氪召回超3.82 輛汽車

      吉利與欣旺達(dá)和解,獲6億賠償,極氪召回超3.82 輛汽車

      車圈小隆哥
      2026-02-12 02:08:51
      醫(yī)生忠告:肺癌早期不是咳嗽,而是頻繁出現(xiàn)這3癥狀,千萬別忽視

      醫(yī)生忠告:肺癌早期不是咳嗽,而是頻繁出現(xiàn)這3癥狀,千萬別忽視

      健康之光
      2026-02-09 16:40:05
      女兒接母親去美國養(yǎng)老,過海關(guān)時,外孫女突然用中文說了句話,她當(dāng)場愣住,連夜買了回國的機(jī)票

      女兒接母親去美國養(yǎng)老,過海關(guān)時,外孫女突然用中文說了句話,她當(dāng)場愣住,連夜買了回國的機(jī)票

      LULU生活家
      2026-01-27 13:35:37
      7年敗光2個億,鄒市明冉瑩穎共同發(fā)文,終究還是踏出了這一步

      7年敗光2個億,鄒市明冉瑩穎共同發(fā)文,終究還是踏出了這一步

      明天見灌裝冰塊
      2026-02-12 01:25:24
      南加州一比基尼咖啡廳被查封!十多名咖啡女郎被捕

      南加州一比基尼咖啡廳被查封!十多名咖啡女郎被捕

      大洛杉磯LA
      2026-02-11 16:26:02
      西方不賣還不讓造?荷蘭70萬的平衡車,國產(chǎn)一出手,600拿下

      西方不賣還不讓造?荷蘭70萬的平衡車,國產(chǎn)一出手,600拿下

      瘋狂小菠蘿
      2026-02-11 15:46:02
      印度2nm成功流片!

      印度2nm成功流片!

      中國半導(dǎo)體論壇
      2026-02-11 22:26:02
      出大事了,被俘烏克蘭特工終于開口,兩大秘密曝光,普京不再手軟

      出大事了,被俘烏克蘭特工終于開口,兩大秘密曝光,普京不再手軟

      斜煙風(fēng)起雨未
      2026-02-12 02:10:50
      一次性出手8公斤金條!金價高位震蕩,千萬元級套現(xiàn)頻頻

      一次性出手8公斤金條!金價高位震蕩,千萬元級套現(xiàn)頻頻

      環(huán)球網(wǎng)資訊
      2026-02-11 08:52:13
      2026-02-12 04:15:01
      甲子光年
      甲子光年
      中國科技產(chǎn)業(yè)化前沿智庫
      3343文章數(shù) 9256關(guān)注度
      往期回顧 全部

      科技要聞

      V4來了?DeepSeek 灰度測試新版本

      頭條要聞

      遭特朗普威脅 卡尼一個電話打過去:47億美元我們付的

      頭條要聞

      遭特朗普威脅 卡尼一個電話打過去:47億美元我們付的

      體育要聞

      搞垮一個冬奧選手,只需要一首歌?

      娛樂要聞

      大孤山風(fēng)波愈演愈烈 超50位明星扎堆

      財經(jīng)要聞

      廣州前首富被判無期 200億集資窟窿何償

      汽車要聞

      比亞迪最美B級SUV? 宋Ultra這腰線美翻了

      態(tài)度原創(chuàng)

      時尚
      本地
      家居
      房產(chǎn)
      公開課

      3種美翻天的穿搭,換個方式過春天

      本地新聞

      下一站是嘉禾望崗,請各位乘客做好哭泣準(zhǔn)備

      家居要聞

      簡雅閑居 靜享時光柔

      房產(chǎn)要聞

      999元開線上免稅店?海南爆出免稅大騙局,多人已被抓!

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進(jìn)入關(guān)懷版