今年上半年,算力圈相當魔幻。
好用的GPU被瘋搶,好用的服務器賣斷貨,連公有云上的高端GPU云主機都供不應求。
![]()
背后的原因簡單粗暴——都是大模型鬧的。
訓練、后訓練、微調,尤其是今年大火的推理,哪哪兒都離不開GPU。

可是你知道嗎?為了把模型伺候好,我們狂搶GPU、囤算力的操作,可能花了很多冤枉錢!
因為,剛剛有人爆料說↓
他們公司,這個月累計少買1000張卡,模型跑得竟然比以前還溜。

還有這種便宜事兒??
看到爆料,算力圈吃瓜群眾的反應是這樣的——

然鵝,這真不是開玩笑,一種榨干GPU算力的新玩法,誕生了。
就在上周,字節跳動旗下的云與AI服務平臺火山引擎,發布了一個全新的算力彈性調度方案,效果就像上面說的那樣——
少用GPU、少花錢,模型的推理效果依然有保障。
![]()
火山引擎到底拿出了什么神仙方案?
這個新方案叫做→企業自有模型托管方案,具備兩大特色↓
01、全托管
簡單講,就是當用戶部署自有模型的時候,可以完全交給火山引擎的MaaS平臺「火山方舟」,模型部署、推理優化、彈性調度全幫你搞定。
![]()
02、極致彈性
這種部署方案,能夠以「模型單元」為顆粒度彈性伸縮。
依據大模型推理業務的“潮汐效應”,系統能夠自動增加或者縮減算力消耗,從而大幅降低用戶的算力開支,讓每分錢都花到刀刃上。
![]()
為什么這套方案能夠幫助用戶省大錢?
先討論一個問題,云上各種通用大模型API不香嗎,為啥企業還要費勁吧啦的部署自有模型?
對于中小型企業或者個人開發者來說,通用大模型的能力已經足夠用了,而且還是基于Tokens消耗按需付費。
![]()
但是,通用模型雖強,卻可能缺少垂直行業的專業領域知識。
對于很多專業大客戶、專業場景來說,并不能完全滿足需求。
![]()
![]()
所以,越來越多的企業,開始利用自己的專屬數據,對基礎模型進行強化學習訓練、微調對齊,從而得到更“懂行”的專屬模型。
這樣的模型,既有通用知識,又有專業知識,能更好地在專業場景上崗干活。

以懂車帝為例,AI選車場景涉及大量汽車垂類知識和專業評價數據,通用模型不具備這些知識,懂車帝基于豆包大模型進行二次訓練,構建了專屬的AI選車模型和智能體。
可是專屬模型訓練出來,問題也隨之而來。
這種BYOM(Bring your own model)模型需要企業自己先完成部署,才能提供推理應用。
以前,大概有這么幾種部署路徑↓
①企業自己買設備,自己組集群,全部自己干。
![]()
2、從算力黃牛那里臨時租算力資源,用多少租多少。
![]()
3、從公有云租GPU云主機,包月或者按時長付費。
![]()
三種方案相比較,用云平臺來部署推理服務的模式,看起來最靈活、最省錢。
但即便如此,也可能會花“冤枉錢”。
因為,絕大多數線上AI服務,都是具有「潮汐效應」的,白天很繁忙,晚上可能很閑。
![]()
一個事實是,目前市面上用于企業專屬大模型推理的云端GPU算力,都是以賣卡、整租的模式交付。
無論包月還是計時,都不提供自動伸縮能力。
即便晚上沒啥負載,只要你還占用著GPU不釋放(即便GPU在摸魚),你仍然要按照整個資源池的規模來付費。
![]()
看下面這張圖→
橫軸代表一天中不同時間段,紅色曲線代表一天中AI業務量的變化趨勢,藍色方塊代表算力資源單位(服務器數或GPU數)。
用戶需要按照峰值業務量來購買算力,雖然低谷很多GPU是空閑的,但這個錢卻省不下來。

除非企業自己的運維團隊特別牛掰,能夠根據算力需求的波動自己搞一套調度系統來自動伸縮(閑時釋放算力,忙時補充算力)。
但幾乎沒人這么干,因為這類客戶都搞模型定制了,對性能體驗要求極高,萬一調度策略沒整好(該伸的時候沒伸,該縮的時候沒縮),影響終端客戶體驗,得不償失。
![]()
現在,這個問題終于有了解法↓
火山引擎在這套剛剛發布的「企業自有模型托管方案」里,推出了一種新型算力形態:全托管彈性模型單元。
企業可以選擇不同規格的模型單元:單機型、多機PD分離型的等等。
![]()
然后,根據自己的業務特點,設置推理性能指標(TPOT、TTFT),并且根據應用的潮汐波動特點,設置彈性伸縮系數,系數越大,彈性越強。
注:TFTT為首Token時長,TPOT為單位時間生成的Token數,這兩個是衡量大模型推理體驗的關鍵指標。
![]()
這就意味著,客戶的實際付費算力,會根據自己業務量的大小,以模型單元為單位動態增加或者減少。
從此,客戶再也不需要為摸魚的GPU買單了,對于那些波動性較大的AI業務,省掉一半GPU都不止!

還有一點特別重要,這是一種“全托管”模式的服務。
企業只需要把自己的模型交給火山方舟,剩下那一系列的調度、優化、推理加速的事兒,都不用操心,“火山”全包。
![]()
尤其模型推理優化,企業重新精調過的模型,針對通用模型的標準優化手段可能不再適用,需要重新優化。
沒關系,火山方舟會幫客戶一站式搞定。
經過一番優化操作,你可能會發現,峰值需要的算力規模,都比以前變少了,又狂省了一筆。
![]()
當然,這種模型單元,不只適用于企業定制模型,如果企業使用通用模型時,對延遲和吞吐要求特別高,也同樣可以采用這種模式。
因為此時算力資源是獨享的,相比API調用共享算力,這種模式可以提供更確定的性能保障(沒人跟你搶)。
![]()
為了讓用戶省錢少買GPU火山引擎真是操碎了心
你能想象嗎?一個云廠商,這么費勁扒拉一頓操作猛如虎,竟然是為了幫用戶省錢。
當別人還在云上賣卡,火山引擎已經開始為用戶提供按需可得的AI算力。
![]()
為啥各大云廠商,只有火山引擎率先做到這一點?
首先明確一點,這種高并發高彈性算力保障,是充沛算力×推理層優化×系統調度能力的乘積,這種能力積累來自于字節內部業務驅動。
![]()
比如,2024年的時候,字節系的AI產品(抖音AI應用、豆包、即夢等)就迎來了高速發展,AI推理需求量急劇增長,比業界更早的看到了風向。
這種領先于業界半年左右的生產級AI需求,倒逼字節AI Infra產研團隊不斷提升推理效率、降低推理成本。
![]()
正是基于這樣的需求驅動,火山引擎團隊早在2024年下半年就開始研發“模型單元”方案。
彼時,DeepSeek還沒有大爆發,業界的推理需求還沒有爆炸式增長,但字節基于內部領先的AI需求驅動,就已經預判到趨勢。
![]()
機會果然是留給了有準備的人——
2025年初,這個高彈性的“模型單元”方案就已經悄悄上線,并在字節內部抖音等業務推廣應用,持續用最極端的實戰場景淬煉、打磨。
![]()
后來的故事大家都知道了,DeepSeek走紅,整個業界開始尋求更優的推理方案。
而火山引擎的“先發優勢”得到充分體現,在那一波全民狂炫DeepSeek的大潮中,火山引擎(火山方舟)成為性能最優的那個第三方DeepSeek API服務平臺。
![]()
而過去一年來,火上引擎持續擊穿Token計費的地板價,敢降價的底氣,同樣來自于這份需求前瞻性和長期技術積累的乘積。
同時,根據IDC的最新報告,火山引擎以46.4%的份額,高居中國公有云大模型調用量榜首。
![]()
最近兩個月,業界需求沿著字節去年踩過的足跡如期而至——
智能體、Agentic AI掀起熱潮,越來越多的企業開始用定制模型提供更個性化、更精準的推理服務和智能體應用。
火山引擎再次跑贏了趨勢,打磨已久的模型單元進一步升級,為這類客戶提供效率更高、成本更低的自有模型托管服務,幫客戶輕松省下每一分錢,榨干每一分算力。
一切的毫不費力,都是因為曾經的竭盡全力!
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.