<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      大模型“造夢”,推理引擎“還債”,CTO們正在還AI的“應用賬”

      0
      分享至

      站在2025年中,回顧半年來大模型的發展,以年初DeepSeek爆火為標志,大模型快速蛻變角色,走出實驗室,真正融入企業核心業務系統,在政務、金融、醫療、能源等領域加速落地。

      隨著大模型走向深度應用,CTO從關注基礎模型轉向推理引擎,推理過程中的資源消耗,每一度電、每一塊錢、每一分鐘所能產出的Token數量,正在成為衡量一家公司在AI時代先進性的關鍵指標。

      怎么用推理引擎提升推理效率、榨干每一塊算力的價值、盡可能降低推理成本,已經成為CTO們必須解決的問題。

      01 大模型跑不動,是因為推理引擎不給力

      什么是推理引擎?

      簡單來說就是一套專門負責讓大模型“跑”起來的系統,既負責“怎么算”,又負責“在哪算”和“算得多快”,盡可能提高大模型推理的響應速度、并發能力和算力資源利用率。

      如果說大模型是發動機,推理引擎就是動力總成,決定了發動機在不同道路、不同油品、不同氣候下是否能高效運轉。調校得當,就能低延遲、高吞吐、低成本;調校不佳,再強的模型也可能“燒油多、輸出低”。

      大約從2023年開始,推理引擎開始作為一個獨立賽道興起,陸續出現了TGI、vLLM、TensorRT、SGLang等面向推理效率優化的開源項目。彼時業界的注意力還停留在“大煉模型”上,對推理引擎的需要求不高——能用就行。

      2025年初是一個分水嶺。

      DeepSeek為代表的一批大模型開源后,企業對AI的態度由觀望轉向行動,紛紛采購算力、治理數據、微調模型,落地部署時卻發現:推理響應慢、吞吐跟不上、成本高昂。

      90%的算力花在了推理上,結果又貴又慢,連“謝謝”都不敢多說一句,幾乎談不上性價比。

      大模型推理到底難在哪里呢?答案是效果、性能、成本的“不可能三角”。

      想要效果好,就得用更大的模型、更高的精度、更長的上下文,但算力開銷就上去了;想要跑得快、響應快,就要用緩存、做批處理、圖優化,可能影響模型輸出的質量;想要成本低,就要壓縮模型、降低顯存、用更便宜的算力,又可能會犧牲推理的性能或準確率。

      企業的CTO們在為大模型推理焦慮時,推理引擎賽道也“熱鬧”了起來,不少在AI應用上“搶跑”的大廠,同樣意識到了推理引擎的短板,試圖將自己摸索出的經驗,做成標準化產品和服務,幫企業壓下這筆越來越沉重的應用賬。



      比如英偉達發布了推理框架Dynamo;AWS的SageMaker提供了多項增強功能提高大模型推理的吞吐量、延遲和可用性;京東云推出了JoyBuilder推理引擎,可將推理成本降低90%

      一句話來總結:大模型能力再強,沒有高效的推理引擎,就像一輛發動機不行的跑車,只能原地轟油門。

      02 為了推理快、省、穩,大廠都在死磕工程創新

      過去為了提高推理能力,思路主要放在模型上,通過剪枝、蒸餾、量化等技術給大模型“瘦身”。越來越多企業發現,如果推理過程上存在太多短板,模型再怎么輕,推理的效能也上不去,必須要優化推理流程。

      在理解工程創新的思路前,先把大模型的推理過程拆解一下:

      第一階段(Prefill):先聽懂你在說什么。

      就像人聊天前要先把對方說的話聽清楚、理解透,大模型的第一步,就是認真“讀題”,一字一句地“消化”,并在腦子里畫好一套“思考地圖”(KVCache)。

      第二個階段(Decode):一字一句地回答你。

      不是一下子把答案全說完,而是一字一句地往下寫,每寫一個字,都會根據剛才的思路更新一下自己的“思路地圖”,確保后面寫的內容更連貫、更合理。



      AWS、京東云、英偉達、谷歌云等,都在“死磕”工程創新。

      比如優化“思考地圖”,如果“思考地圖”又大又亂,占了GPU大量空間還查得慢,就會成為性能瓶頸。

      AWS SageMaker和谷歌云Vertex AI的做法是給“思考地圖”建了一個“緩存共享中心”,動態調度顯存資源:誰先用、誰能共用、誰暫時擱置,都安排得明明白白,盡可能讓GPU的價值“壓榨到極致”。

      京東云JoyBuilder推理引擎和英偉達的Dynamo,則進一步給出一種“以存代算”的解法:直接把“思考地圖”從GPU挪出去。其中京東云通過自研的云海AI存儲,支持PB級緩存擴展,并配合高效檢索算法與負載感知調度,直接將多輪對話和長文本處理的響應時延壓縮了60%。

      再比如將“聽”和“說”分離,相當于開會時讓“準備”和“發言”同步進行,避免出現“干等閑耗”的場景。

      其中AWS不只實現了“聽”和“說”分離,還改變了大模型說話的方式,不再是“想到哪說到哪”,而是提前整理好了大綱,省下了大量來回思考的時間。

      京東云JoyBuilder推理引擎的方案稍有不同:第一招和AWS相似,整體吞吐提升了30%以上;第二招是將“聽”和“說”交給不同的GPU處理,兩邊像流水線一樣并行工作,中間用“傳送帶”快速傳遞信息,大幅提升了推理吞吐量。

      對CTO們而言,技術大廠的深度參與,不失為一個好消息,相當于是把推理引擎打磨成了能直接用的高性能“電子電氣架構”。

      03 異構算力是挑戰,也是低成本取勝的機會

      我們在和幾位CTO溝通時,除了普遍焦慮的推理性能,還涉及到另一個問題——異構算力。

      隨著大模型應用的深入,以CPU為中心的架構在支持AI原生應用上面臨挑戰,需要以GPU為中心重塑基礎設施;此外,面對激增的推理需求,計算資源持續增加,企業需要思考資源投入產出的問題,都指向需要一套AI Native的基礎設施。

      而異構算力,通俗來說就是將不同品牌的芯片“拼著用”。就像是一支臨時組成的軍隊,語言、指令、作戰邏輯全都不統一。以至于一位CTO打趣說:“我們要想打仗,得先發明統一的語言和作戰地圖。”

      vLLM、SGLang等比較熱門的開源引擎,目前都還停留在同類型GPU之間高效調度,對“異構”集群依然捉襟見肘。但國內的研究機構和科技大廠都已經試圖解決:怎樣讓不同芯片“聽得懂一個指揮”,各司其職、取長補短。



      一種主流思路是“把大鍋飯變自助餐”。

      過去用GPU跑模型,就像是大鍋飯,一整張顯卡只能給一個任務用,哪怕只吃了一口,剩下的資源也不能被別人接著用。就像京東云JoyBuilder推理引擎的策略是把異構算力資源統一管理,把一張GPU“切成很多小份”(1%),顯存也能按MB級別來分,按需分給多個模型、多個任務使用,誰需要多少就用多少,GPU利用率最高可提升70%。

      還有一種思路是把“拼芯片”和“拆流程”結合起來。

      比如在MoE模型的部署上,京東云JoyBuilder推理引擎可以將不同專家部署在不同GPU上,讓每個GPU干最擅長的活。甚至可以將“輸入”部署在擅長高吞吐的昇騰集群,將“輸出”部署在N卡上確保低延遲,充分利用不同算力的優勢。

      對于CTO們來說,在“推理成本決定最終勝利”的大模型競賽中,異構算力是挑戰,同樣也是機會。

      04 高性能低成本,大模型推理正在重塑AI生產力

      經歷了一段時間的高歌猛進后,越來越多企業對大模型的訴求,正在從“不能沒有”轉向要落地、要價值、要增長。我們看到,大模型已經在營銷推廣、協同辦公、客戶服務等場景深度應用,成為新的增長引擎。

      例如在零售場景,包括面向用戶的AI生成商品圖、AI營銷內容生成、AI數字人,面向管理的AI客服與售后管理、AI經營托管、AI倉配優化,以及配送環節的自動分揀機器人、自動駕駛等需求。



      JoyBuilder推理引擎源于京東自身復雜業務場景打磨,基于企業級的AI Native架構,正在廣泛服務于內外部眾多業務場景。

      京東透露了一組數據:目前推理框架已經在內部多個場景應用,在可交互式導購、商品對比、商品總結、購物建議等環節,大幅提升了響應速度,節省了計算成本,同時還有效助力了用戶的活躍度;在核心的商品理解環節,也有效提升了大模型的理解能力和信息處理能力,模型推理成本最高可節省70%。

      除了服務于京東內部,京東云推理引擎也廣泛服務于外部產業客戶,提供高性能、低成本的大模型服務。



      在行業實踐中,京東云成功支持某新能源汽車頭部廠商、某全球新能源科技領導企業,打造覆蓋全集團的智能計算底座,實現千卡級AI算力集群的精細化管理。技術上一方面創新多元算力調度,顯著提升GPU利用率,另一方面創建全生命周期AI開發環境,實現開箱即用,大幅提升研發效率。

      目前,該平臺已支撐起企業智能駕駛研發、人形機器人等20余個核心場景,成為集團的“數智發動機”。預計一年內,兩家企業大模型訓練周期將縮短40%,每年節省的算力成本相當于新建兩座數據中心。

      05 寫在最后

      盡管推理引擎已經在性能壓榨、資源調度和成本控制等方面取得了初步成果,但真正的競爭才剛剛開始。

      尤其是在異構能力方面,無論是多種芯片的適配整合,還是對不同模型結構、大小、任務類型的統一支持,當前的技術體系還遠未成熟。同時也意味著,誰能率先構建起靈活、高效、可持續的推理能力,誰就有可能在AI大規模落地的浪潮中占據先機。

      這是一場跨硬件、跨模型、跨場景的系統性挑戰,也將是未來十年AI競賽的核心主戰場。

      聲明:個人原創,僅供參考

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      徐湖平跑不了!收藏家顏明:江南春剛調撥出去,隔天就被陸挺買走

      徐湖平跑不了!收藏家顏明:江南春剛調撥出去,隔天就被陸挺買走

      放開他讓wo來
      2025-12-24 10:20:32
      10中5轟13+2!放棄引進控衛,美記曝火箭新動向,烏度卡也明牌了

      10中5轟13+2!放棄引進控衛,美記曝火箭新動向,烏度卡也明牌了

      巴叔GO聊體育
      2025-12-26 16:38:14
      不準踏入中國市場一步?我國下達“逐客令”,三星絕望:放過我們

      不準踏入中國市場一步?我國下達“逐客令”,三星絕望:放過我們

      法老不說教
      2025-12-10 22:27:14
      海歸光環徹底消失?49.5萬留學生涌回國,殘酷真相:企業只認這個

      海歸光環徹底消失?49.5萬留學生涌回國,殘酷真相:企業只認這個

      夢史
      2025-12-23 10:18:20
      56歲女教授與27歲小伙結婚,洞房那天她提了個要求,小伙頓時懵了

      56歲女教授與27歲小伙結婚,洞房那天她提了個要求,小伙頓時懵了

      溫情郵局
      2025-10-20 15:43:42
      一場大裁員正在席卷中國的銀行!金飯碗,也不香了,什么原因?

      一場大裁員正在席卷中國的銀行!金飯碗,也不香了,什么原因?

      小鬼頭體育
      2025-12-26 13:05:21
      塔利斯卡:在中國生活簡直是一種享受,那段時光非常美好

      塔利斯卡:在中國生活簡直是一種享受,那段時光非常美好

      懂球帝
      2025-12-26 13:44:47
      東北那旮瘩人都太有才了!個個都有梗啊

      東北那旮瘩人都太有才了!個個都有梗啊

      夜深愛雜談
      2025-12-21 18:28:27
      俄媒:俄烏和平進程再現新轉折

      俄媒:俄烏和平進程再現新轉折

      參考消息
      2025-12-26 12:27:08
      43歲金莎的婚房火了,裝飾高級,一點俗氣都沒,一定要幸福!

      43歲金莎的婚房火了,裝飾高級,一點俗氣都沒,一定要幸福!

      娛樂領航家
      2025-12-26 23:00:03
      CBA新消息!北京欲裁掉馬帝昂,孫銘徽骨折 盧偉再次對洛夫頓不滿

      CBA新消息!北京欲裁掉馬帝昂,孫銘徽骨折 盧偉再次對洛夫頓不滿

      中國籃壇快訊
      2025-12-26 16:40:15
      東南互保之后,清廷和地方的兵權博弈

      東南互保之后,清廷和地方的兵權博弈

      老崔鏟史
      2025-12-26 21:12:37
      圣誕夜遭受近三年最大處罰,重慶農商行原副行長舒靜被終身禁業!已被查!

      圣誕夜遭受近三年最大處罰,重慶農商行原副行長舒靜被終身禁業!已被查!

      穿透公司
      2025-12-26 12:25:16
      雷霆一戰吞7恥辱紀錄 !73勝概率跌至5% 被馬刺三殺衛冕SGA最扎心

      雷霆一戰吞7恥辱紀錄 !73勝概率跌至5% 被馬刺三殺衛冕SGA最扎心

      顏小白的籃球夢
      2025-12-26 10:54:31
      約基奇56+16+15創6大歷史第1神跡,還刷爆紀錄!愛德華茲被驅逐

      約基奇56+16+15創6大歷史第1神跡,還刷爆紀錄!愛德華茲被驅逐

      一將籃球
      2025-12-26 17:11:11
      我國有上千萬人做頸動脈超聲!院士:做一次頸動脈超聲,或管七年

      我國有上千萬人做頸動脈超聲!院士:做一次頸動脈超聲,或管七年

      岐黃傳人孫大夫
      2025-12-19 09:16:53
      《老舅》大結局:崔國明安排身后事,“大英雄霍東風”讓二胖破防

      《老舅》大結局:崔國明安排身后事,“大英雄霍東風”讓二胖破防

      東方不敗然多多
      2025-12-27 08:24:06
      2036年奧運會舉辦地,有兩個國家很頭痛,一個中國,另一個是印度

      2036年奧運會舉辦地,有兩個國家很頭痛,一個中國,另一個是印度

      扶蘇聊歷史
      2025-12-26 18:01:18
      順德魚生是淡水生魚片,不擔心寄生蟲嗎?網友:大數據不會騙人!

      順德魚生是淡水生魚片,不擔心寄生蟲嗎?網友:大數據不會騙人!

      夜深愛雜談
      2025-12-23 17:35:17
      順差一萬億美元你知道是啥概念不?放200年前八國聯軍早到家門口

      順差一萬億美元你知道是啥概念不?放200年前八國聯軍早到家門口

      沈言論
      2025-12-21 11:50:03
      2025-12-27 11:19:00
      Alter聊科技 incentive-icons
      Alter聊科技
      探究產業興衰,專注商業解讀。
      1474文章數 168101關注度
      往期回顧 全部

      科技要聞

      小米也漲價了!業界稱終端再不漲明年必虧

      頭條要聞

      女子洗澡浴室玻璃突然自爆致受傷 開發商:已超質保期

      頭條要聞

      女子洗澡浴室玻璃突然自爆致受傷 開發商:已超質保期

      體育要聞

      NBA教練圈的布朗尼,花了22年證明自己

      娛樂要聞

      王傳君生病后近照變化大,面部浮腫

      財經要聞

      注意,開始拉物價了!

      汽車要聞

      保時捷經銷商連夜閉店,維權車主寒風中瑟瑟發抖

      態度原創

      健康
      家居
      旅游
      房產
      手機

      這些新療法,讓化療不再那么痛苦

      家居要聞

      格調時尚 智慧品質居所

      旅游要聞

      旅日大熊貓回國后,日本動物園“神操作”:由人扮演大熊貓供游客體驗互動

      房產要聞

      炸裂,三亞360億超級清單發布,又一批重大配套要來了!

      手機要聞

      小米17 Ultra今天開售!雷軍:史上最好看的小米影像旗艦

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 怡春院AV| 亚欧洲乱码视频在线专区| 熟女[21p]| a在线视频v视频| 国产欧美日韩在线在线播放| 国产视频一区二区| 无码一级视频在线| 久久成人国产精品免费软件| 亚洲熟妇色自偷自拍另类| 欧美成人影院亚洲综合图| 中文字幕熟女人妻丝袜| 精品人妻一二| 丰满少妇人妻无码专区| 国产成人无码AV片在线观看不卡| 91资源在线观看| 欧美肥妇多毛bbw| 一个人看的www视频在线播放| 国产95在线 | 亚洲| 国产精品v欧美精品∨日韩| 久久久国产乱子伦精品作者| 69堂在线观看线无码视频一| 人妻无码不卡中文字幕系列| 麻豆一区二区三区蜜桃免费| 亚洲高清WWW色好看美女| 无码h黄肉3d动漫在线观看| 亚洲欧美综合| 人人妻人人做人人爽夜欢视频| 久久99国内精品自在现线| 加勒比久久AV| 亚州九九久久| 亚洲欧洲日产国码高潮αv| yy19影院| 99精品全国免费观看视频| 91探花在线播放| 极品妇女扒开粉嫩小泬| 日韩成人社区| 婷婷综合色| 91视频精选| 亚洲最大成人| 成人午夜电影福利免费| 99re6在线视频精品免费下载|