
vLLM 和 SGLang 的社區(qū)發(fā)展故事。
作者 | 趙晨、夏小雅
責(zé)編 | Echo Tang
出品丨AI 科技大本營(yíng)(ID:rgznai100)
首先,什么是 LLM 推理?
大語(yǔ)言模型(LLM)的訓(xùn)練過(guò)程因巨大的計(jì)算需求和突破性的成果而備受關(guān)注,然而決定這些模型在現(xiàn)實(shí)世界中實(shí)用性和廣泛采用的關(guān)鍵,卻是在推理(Inference)階段的效率、成本和延遲。推理的定義是,一個(gè)經(jīng)過(guò)訓(xùn)練的 AI 模型將其學(xué)到的知識(shí)應(yīng)用于全新的、未見(jiàn)過(guò)的數(shù)據(jù),以做出預(yù)測(cè)或生成輸出的過(guò)程。對(duì)于 LLM 而言,這一過(guò)程具體表現(xiàn)為:接收用戶的提示(Prompt),通過(guò)模型龐大的權(quán)重網(wǎng)絡(luò)進(jìn)行計(jì)算,最終生成一段連續(xù)的文本響應(yīng)。
LLM 推理的核心挑戰(zhàn)在于,如何在嚴(yán)格的延遲、吞吐量和成本約束下,部署參數(shù)量高達(dá)數(shù)百億甚至數(shù)千億的模型。這是一個(gè)涉及算法、軟件和硬件等多個(gè)層面的復(fù)雜問(wèn)題。一方面,模型本身的巨大體積,以及對(duì)應(yīng)的計(jì)算和內(nèi)存密集型操作(如注意力機(jī)制的計(jì)算),構(gòu)成了本質(zhì)上的障礙;另一方面,生成文本所依賴的自回歸解碼(Autoregressive Decoding)過(guò)程,其固有的串行性限制了并行處理能力。因此,LLM 推理需要一個(gè)全棧式的解決方案,涵蓋從底層硬件到頂層應(yīng)用的全方位考量,而推理引擎處于上述方案的核心位置。
vLLM 和 SGLang 就是其中最受人關(guān)注的兩個(gè)開(kāi)源的推理引擎項(xiàng)目。
![]()
![]()
從學(xué)術(shù)創(chuàng)新到社區(qū)驅(qū)動(dòng)的開(kāi)源標(biāo)桿
vLLM 起源于 2023 年圍繞著 PagedAttention 算法的一篇論文
“Efficient Memory Management for Large Language Model Serving with PagedAttention”。如果你仔細(xì)關(guān)注這篇論文的作者列表,會(huì)發(fā)現(xiàn)很多名字在后面會(huì)或多或少地被提及。
![]()
在 LLM 服務(wù)化還處于初期階段時(shí),vLLM 的突破性貢獻(xiàn)在于,它沒(méi)有發(fā)明一種新的 AI 算法,而是借鑒了操作系統(tǒng)中的分頁(yè)緩存管理技術(shù)來(lái)精細(xì)化內(nèi)存管理,通過(guò) PagedAttention 機(jī)制,為高吞吐量的請(qǐng)求處理奠定了基礎(chǔ)。此外,vLLM 也充分借鑒和發(fā)揚(yáng)了業(yè)界的一些先進(jìn)特性,例如由論文
“Orca: A Distributed Serving System for Transformer-Based Generative Models”最早提出的 Continuous Batching 技術(shù)。
在大模型推理領(lǐng)域,性能和速度是絕對(duì)的殺手锏。實(shí)踐證明,vLLM 對(duì)性能的提升是驚人的,在當(dāng)時(shí)官方發(fā)布的博客中表明,與之前基于 Hugging Face Transformers 的后端相比,vLLM 能夠處理高達(dá) 5 倍的流量,并將吞吐量提升了 30 倍。也正因如此,在很短時(shí)間內(nèi),vLLM 從一個(gè)學(xué)術(shù)機(jī)構(gòu)中的研究型項(xiàng)目演變?yōu)橐粋€(gè)由強(qiáng)大社區(qū)驅(qū)動(dòng)的開(kāi)源項(xiàng)目,不到半年時(shí)間就獲得了上萬(wàn)的 Star 關(guān)注,直到今天,已經(jīng)發(fā)展出了強(qiáng)大的開(kāi)發(fā)者社區(qū):倉(cāng)庫(kù)中有超過(guò)上萬(wàn)個(gè)社區(qū)開(kāi)發(fā)者參與到 Issue 或 PR 的討論之中,而提交過(guò) PR 的開(kāi)發(fā)者就將近 2000 位,平均每天,都有不少于 10 位開(kāi)發(fā)者在項(xiàng)目中提交新的 Issue,海量的用戶請(qǐng)求甚至是貢獻(xiàn)請(qǐng)求不斷的涌入進(jìn)項(xiàng)目里,至今仍有超過(guò) 2000 條 Issue 和 PR 等待著處理。
![]()
來(lái)源:star-history
SGLang 則起源于論文
“SGLang: Efficient Execution of Structured Language Model Programs”,通過(guò)其高度優(yōu)化的后端運(yùn)行時(shí)(以 RadixAttention 為核心),以及高效的 CPU 調(diào)度設(shè)計(jì),開(kāi)辟了全新的發(fā)展空間。RadixAttention 并沒(méi)有丟棄 PagedAttention 的設(shè)計(jì),而是在其基礎(chǔ)上繼續(xù)拓展,盡可能的保留過(guò)往的 Prompt 和生成結(jié)果的 KVCache,在新的請(qǐng)求到達(dá)時(shí)嘗試重用過(guò)往其他請(qǐng)求的 KVCache,在前綴成功匹配時(shí)可以大幅度減少 Prefill 階段的計(jì)算量從而提升性能,其論文表明相對(duì)于未采用 RadixAttention 的推理引擎有顯著的性能優(yōu)勢(shì)。除了 RadixAttention 的創(chuàng)新,SGLang 的基本功底也非常扎實(shí),即使關(guān)閉 RadixAttention 進(jìn)行 Benchmark 測(cè)試,其性能表現(xiàn)仍然優(yōu)秀。
從開(kāi)源社區(qū)的發(fā)展層面,SGLang 作為后起之秀,擁有一個(gè)體量更加輕盈的社區(qū),整體開(kāi)發(fā)者數(shù)量不及 vLLM 的二分之一,用戶和參與者的規(guī)模雖然也多達(dá) 2000 多人,依舊不及 vLLM 的五分之一。快速的迭代和過(guò)于熱情的社區(qū)也讓項(xiàng)目的維護(hù)者們有些疲于應(yīng)對(duì):兩個(gè)項(xiàng)目中都堆積了大量待解決的 issue/PR,近 3 個(gè)月中,vLLM 社區(qū)中的大部分的 Issue 一般在 12 小時(shí)到 3 天能夠得到響應(yīng),而 SGLang 社區(qū)則需要 3 到 5 天。
![]()
![]()
(兩個(gè)項(xiàng)目當(dāng)前的社區(qū)數(shù)據(jù),數(shù)據(jù)統(tǒng)計(jì)截止時(shí)間:2025 年 8 月 22 日)
![]()
起源,創(chuàng)新基因的持續(xù)流淌
作為美國(guó)頂尖的公立研究型大學(xué),加州大學(xué)伯克利分校為世界貢獻(xiàn)了非常多杰出的開(kāi)源項(xiàng)目。在上一個(gè)時(shí)代,比較知名的有數(shù)據(jù)庫(kù)領(lǐng)域的 Postgres、硬件領(lǐng)域的 RISC-V、大數(shù)據(jù)處理領(lǐng)域的 Spark、機(jī)器學(xué)習(xí)領(lǐng)域的 Ray。在這個(gè)被大模型浪潮沖擊的時(shí)代,創(chuàng)新的基因持續(xù)流淌,伯克利又誕生了 vLLM 這樣頂尖的開(kāi)源推理引擎項(xiàng)目。而 SGLang 雖然不是由伯克利獨(dú)立創(chuàng)建,但它的誕生同樣與伯克利有著緊密的關(guān)聯(lián)。
vLLM 作為先行者,于 2023 年 6 月正式開(kāi)源發(fā)布,SGLang 則在半年后橫空出世。兩個(gè)項(xiàng)目在早期的核心發(fā)起人之一 Woosuk Kwon(vLLM)、 和 Lianmin Zheng(SGLang )都來(lái)自伯克利并且都師從 Ion Stoica,也就是曾帶領(lǐng)學(xué)生先后創(chuàng)造出 Spark 和 Ray 這兩個(gè)頂級(jí)開(kāi)源項(xiàng)目的超級(jí)大神。
2023 年,Lianmin 和來(lái)自斯坦福的 Ying Sheng 以及其他幾位來(lái)自不同高校的學(xué)者,成立了開(kāi)放研究組織 LMSYS.org,并很快推出了 FastChat、Chatbot Arena、Vicuna 這樣廣受歡迎的項(xiàng)目。而當(dāng)下依然十分主流的大模型評(píng)測(cè)平臺(tái) Chatbot Arena,早在 vLLM 正式開(kāi)源出來(lái)之前的 4 月份就已經(jīng)使用 vLLM 和 FastChat 作為其后端服務(wù)引擎。在倉(cāng)庫(kù)早期的提交記錄里,還能看到一些歷史的腳印:
SGLang 作者 Lianmin Zhang 在 2023 年 6 月給 vLLM 提交的修改
FastChat 曾是一個(gè)旨在覆蓋模型全生命周期的開(kāi)源平臺(tái),集訓(xùn)練、推理和評(píng)估于一體,但如今已逐漸淡出維護(hù)。后來(lái)蓬勃發(fā)展的 SGLang(核心 Idea 起源于 YingSheng 所在的斯坦福)和 Chatbot Arena(現(xiàn)已更名為 LMArena),或許正是基于 FastChat 的早期實(shí)踐,分別在推理和評(píng)估領(lǐng)域發(fā)展壯大,成為它的兩個(gè)分支。
如今作為核心發(fā)起人的 Woosuk 和 Lianmin 仍在積極的參與項(xiàng)目的維護(hù)和迭代。經(jīng)過(guò)一兩年的發(fā)展,兩個(gè)項(xiàng)目的核心開(kāi)發(fā)者群體也或多或少地發(fā)生了變化。從近半年內(nèi)貢獻(xiàn)度靠前的開(kāi)發(fā)者信息來(lái)看,來(lái)自高校的年輕研究者們依然是不可忽視的力量,這也與這兩個(gè)項(xiàng)目深厚的學(xué)術(shù)背景密不可分。除此之外,vLLM 的貢獻(xiàn)主力來(lái)自 Red Hat,而 SGLang 的貢獻(xiàn)主力則來(lái)自 xAI、Skywork、Oracle 和 LinkedIn。
![]()
在 vLLM 和 SGLang 這兩個(gè)項(xiàng)目中都提交過(guò)代碼的開(kāi)發(fā)者多達(dá) 194 人,這個(gè)數(shù)字占到 SGLang 至今所有代碼貢獻(xiàn)者總數(shù)的 30%。
其中,有幾位值得關(guān)注的共同貢獻(xiàn)者。通過(guò)觀察他們的行為軌跡,我們可以一窺開(kāi)源貢獻(xiàn)者在不同項(xiàng)目間的流動(dòng)關(guān)系,甚至可以大膽地做出一些推測(cè):
comaniac:一位來(lái)自 OpenAI 的工程師。去年年初 SGLang 剛剛問(wèn)世時(shí),他提交了 17 個(gè)代碼請(qǐng)求。他也是 vLLM 的重要貢獻(xiàn)者,前后提交了 77 個(gè)代碼請(qǐng)求。但從今年三月之后,他的活躍度也逐漸降低。聯(lián)想到 vLLM 的早期作者 Zhuohan 加入 OpenAI 之后也幾乎停止了對(duì)項(xiàng)目的貢獻(xiàn),這不禁讓人猜測(cè):OpenAI 是否打算開(kāi)發(fā)自己的內(nèi)部推理引擎?
ShangmingCai:一位來(lái)自阿里云飛天實(shí)驗(yàn)室的研究員。從去年六月到今年四月,他在 vLLM 提交了 18 個(gè)代碼請(qǐng)求。而從四月開(kāi)始,他的興趣明顯轉(zhuǎn)向 SGLang,并提交了 52 個(gè)代碼請(qǐng)求,已成為該項(xiàng)目的重要貢獻(xiàn)者。
CatherineSue:一位來(lái)自 Oracle 的工程師。去年七月至十月,她在 vLLM 提交了 4 個(gè) Bug 修復(fù)請(qǐng)求。而從去年七月至今,她已在 SGLang 中提交了 76 個(gè)代碼請(qǐng)求,是該項(xiàng)目的核心貢獻(xiàn)者。
![]()
發(fā)展,重構(gòu)和激烈競(jìng)爭(zhēng)
從兩個(gè)項(xiàng)目的版本迭代與社區(qū)熱度時(shí)間線來(lái)看,vLLM 自發(fā)布以來(lái)一路高歌猛進(jìn),直至去年 9-12 月出現(xiàn)明顯放緩;V1 上線后動(dòng)能回歸,增長(zhǎng)重啟。相較之下,SGLang 自 v0.2 發(fā)布后始終穩(wěn)步向上。今年上半年,或受 DeepSeek V3/R1 帶動(dòng),二者又雙雙進(jìn)入更為迅猛的增長(zhǎng)通道。
![]()
OpenRank 視角下的關(guān)鍵發(fā)展節(jié)點(diǎn):
2023 年 6 月:vLLM 正式發(fā)布,提出 PagedAttention 與 Continuous Batching,憑借領(lǐng)先的性能迅速發(fā)展。
2024 年 1 月:在 vLLM 快速演進(jìn)之際,SGLang 發(fā)布首個(gè)版本,依托其 RadixAttention 創(chuàng)新逐步獲得業(yè)界關(guān)注。
2024 年 7 月:SGLang 發(fā)布 v0.2,進(jìn)入首個(gè)加速增長(zhǎng)階段。
2024 年 9 月:vLLM 發(fā)布 v0.6.0,通過(guò) CPU 調(diào)度等優(yōu)化,實(shí)現(xiàn)約 2.7 倍性能提升與 5 倍延遲下降。前一日,SGLang 亦發(fā)布 v0.3。此后從趨勢(shì)看,SGLang 延續(xù)穩(wěn)健增長(zhǎng),而 vLLM 增速趨緩。
2024 年 12 月-2025 年 1 月:vLLM 經(jīng)過(guò)數(shù)月籌備推出 v1 重構(gòu)版本。伴隨 DeepSeek V3/R1 的橫空出世,vLLM 與 SGLang 同步開(kāi)啟第二輪爆發(fā)式增長(zhǎng)。
2024 年,隨著特性、模型與硬件支持的迅猛擴(kuò)張,vLLM 不可避免地遭遇了軟件工程中的經(jīng)典難題:代碼與架構(gòu)日益復(fù)雜,進(jìn)而拖緩了性能提升的步伐。一份第三方在 9 月發(fā)布的性能評(píng)估顯示,vLLM 的 CPU 調(diào)度開(kāi)銷在部分場(chǎng)景下可能占到總推理時(shí)間的一半以上,致使本應(yīng)充分壓榨 GPU 的推理計(jì)算受制于過(guò)高的 CPU 開(kāi)銷負(fù)擔(dān)。其官方博客也坦言,快速演進(jìn)帶來(lái)了水平擴(kuò)展方面的挑戰(zhàn),許多獨(dú)立開(kāi)發(fā)的特性難以順暢合并,這促使團(tuán)隊(duì)回頭重審并重構(gòu)基礎(chǔ)設(shè)計(jì):他們于 2025 年初及時(shí)推出 V1 版本,隨后重回增長(zhǎng)軌道。相比之下,同時(shí)期的 SGLang 貌似在特性、模型與硬件支持上略顯不足,卻憑借更易擴(kuò)展的架構(gòu)與出色的 CPU 調(diào)度設(shè)計(jì),乃至后續(xù)提出的“零開(kāi)銷”調(diào)度方案,表現(xiàn)同樣亮眼。
![]()
vLLM(左) 和 SGLang(右) 的 CPU 調(diào)度開(kāi)銷對(duì)比(來(lái)源:https://mlsys.wuklab.io/posts/scheduling_overhead/)
2025 年,推理引擎的性能之爭(zhēng)逐漸白熱化,業(yè)界前沿功能的持續(xù)集成、主流開(kāi)源模型的首日支持、硬件平臺(tái)的不斷拓展,各家無(wú)不爭(zhēng)分奪秒。雙方每次發(fā)版幾乎都會(huì)同步公布 Benchmark 測(cè)試結(jié)果,且聲稱性能領(lǐng)先,由此在社交媒體上屢屢引發(fā)熱議。隨后,意識(shí)到“數(shù)字之爭(zhēng)”可能存在的局限性,二者逐步淡化同日對(duì)標(biāo),轉(zhuǎn)而強(qiáng)調(diào)可復(fù)現(xiàn)的方法、真實(shí)工作負(fù)載下的端到端指標(biāo),并鼓勵(lì)第三方獨(dú)立評(píng)測(cè),幫助用戶作出更理性的選擇。
![]()
從大模型的發(fā)展趨勢(shì)看,模型架構(gòu)正在顯露收斂跡象,主流推理引擎在功能、算法與底層算子層面也日趨同質(zhì)化。處于領(lǐng)跑位置的 vLLM 與 SGLang 均已相繼支持 Continuous Batching、PagedAttention、RadixAttention、Chunked Prefill、Speculative Decoding、Disaggregated Serving、CUDA Graph 等特性,F(xiàn)lashInfer、FlashAttention、DeepGEMM 等算子庫(kù),以及并行、量化等等關(guān)鍵能力。這些進(jìn)展往往帶來(lái)成倍的性能提升,而步履蹣跚者則被遠(yuǎn)遠(yuǎn)甩在身后,例如 Hugging Face 的 TGI 在性能上已與 vLLM、SGLang、TensorRT-LLM 逐漸拉開(kāi)差距。與此同時(shí),開(kāi)源生態(tài)中的優(yōu)良特性會(huì)迅速互相借鑒,新出現(xiàn)的優(yōu)化方法也常被多方同步采納。可以預(yù)見(jiàn),處于第一梯隊(duì)的推理引擎之間的性能表現(xiàn)將進(jìn)一步收斂,競(jìng)爭(zhēng)的焦點(diǎn)可能更多轉(zhuǎn)向性能之外的因素。
一句話點(diǎn)評(píng)其他值得關(guān)注的一些推理引擎:
TensorRT-LLM:由 NVIDIA 在 2023 年下半年推出,專門為自家硬件做了深度定制,NVIDIA 之前對(duì)它的掌控比較強(qiáng),社區(qū)不容易深度參與。
OpenVINO:由 Intel 開(kāi)發(fā),專注于在 Intel 自家的 CPU、GPU 多種硬件上高效部署和優(yōu)化模型,也是端側(cè)和集群推理場(chǎng)景的重要工具。
LLama.cpp:社區(qū)開(kāi)發(fā)者 Georgi Gergano 在 2023 年使用 C++ 編寫(xiě),主要針對(duì)低硬件門檻的端側(cè)推理場(chǎng)景,主打可以在普通電腦甚至手機(jī)上運(yùn)行大模型,在個(gè)人開(kāi)發(fā)者和小型公司中得到廣泛采用。
LMDeploy: 由 MMDeploy 與 MMRazor 團(tuán)隊(duì)(上海 AI Lab)聯(lián)合開(kāi)發(fā),采用 TurboMind(高性能)與 PyTorch(廣泛硬件適配)雙后端架構(gòu),官方數(shù)據(jù)表明吞吐量?jī)?yōu)勢(shì)明顯,同時(shí)提供了強(qiáng)大的量化支持,可與 vLLM/SGLang 同臺(tái)競(jìng)爭(zhēng)的一款推理引擎。
![]()
在生態(tài)鏈接中繼續(xù)向前
在項(xiàng)目快速發(fā)展的階段,vLLM 和 SGLang 先后獲得了投資機(jī)構(gòu)和開(kāi)源基金會(huì)的關(guān)注:
嗅覺(jué)敏銳的 a16z 在 2023 年 8 月份成立了 Open Source AI Grant 專項(xiàng)基金,專門用于支持與 AI 相關(guān)的開(kāi)源項(xiàng)目。在首批受資助名單中,vLLM 的核心開(kāi)發(fā)者 Woosuk Kwon 和 Zhuohan Li 位列其中。而在今年 6 月公布的第三批名單中,SGLang 的核心開(kāi)發(fā)者 Ying Sheng 和 Lianmin Zheng 也獲得了資助。
2024 年 7 月,真格基金宣布向 vLLM 提供捐贈(zèng)。與此同時(shí),Linux 基金會(huì)旗下的 LF AI & Data 子基金會(huì)也宣布 vLLM 正式進(jìn)入孵化捐贈(zèng)流程,在今年,vLLM 又被轉(zhuǎn)移到 LF 的另一個(gè)子基金會(huì) PyTorch 基金會(huì)中,計(jì)劃在多個(gè)方向上與 PyTorch 展開(kāi)緊密合作。
而在 vLLM 正式加入 PyTorch 基金會(huì)的兩個(gè)月前,也就是 2025 年 3 月,PyTorch 官方發(fā)布了一篇博客,歡迎 SGLang “加入 PyTorch 生態(tài)系統(tǒng)”(注意,這不代表項(xiàng)目捐贈(zèng)給了 PyTorch 基金會(huì))。至此,PyTorch Landscape 的版圖也變得更加完整。
兩個(gè)項(xiàng)目幾乎已經(jīng)成為硅谷以及國(guó)內(nèi)科技公司在推理工具上的首選方案。在它們的代碼倉(cāng)庫(kù)中,可以清晰看到來(lái)自 Google、Meta、Microsoft、字節(jié)跳動(dòng)、阿里巴巴、騰訊等頂尖科技公司的開(kāi)發(fā)者積極參與。
![]()
數(shù)據(jù)來(lái)源:ossinsight
如今,這兩個(gè)項(xiàng)目都擁有龐大的中國(guó)開(kāi)發(fā)者社區(qū)。在 vLLM 中,中國(guó)開(kāi)發(fā)者占比約為 33%,而在 SGLang 中,這一比例更是高達(dá) 52%。
vLLM 社區(qū)自誕生之初就展現(xiàn)出強(qiáng)大的號(hào)召力,平均每隔一兩個(gè)月就會(huì)舉辦一次與用戶和開(kāi)發(fā)者面對(duì)面的線下交流活動(dòng)。今年,在國(guó)內(nèi)北京、上海、深圳多地也舉辦了多場(chǎng)線下 Meetup。而在美麗的西子湖畔剛剛結(jié)束的 上,SGLang 也舉辦了首場(chǎng)專屬于中國(guó)開(kāi)發(fā)者的線下 Workshop。
本文出自《》洞察報(bào)告專題洞察 Model Serving 篇,作者趙晨、夏小雅(螞蟻集團(tuán))。
特別注明:本文數(shù)據(jù)洞察所采用的 OpenRank 是一種基于社區(qū)協(xié)作關(guān)聯(lián)關(guān)系,計(jì)算生態(tài)中所有項(xiàng)目的相對(duì)影響力的算法,詳細(xì)介紹可以參閱文檔:https://open-digger.cn/docs/user_docs/metrics/openrank。同時(shí),安裝 HyperCRX 瀏覽器插件,即可在 GitHub 倉(cāng)庫(kù)右下角看到開(kāi)源項(xiàng)目的 OpenRank 趨勢(shì)。
系列閱讀:
最新消息:
10 月 16-17 日,2025 全球機(jī)器學(xué)習(xí)技術(shù)大會(huì)將在北京威斯汀大酒店(亮馬橋)舉行,在會(huì)上,vLLM 核心維護(hù)者游凱超將為大家深入分享《vLLM:人人可用、快速且低成本的大模型推理服務(wù)》,SGLang 核心開(kāi)發(fā)者、新加坡南洋理工大學(xué)在讀博士李升桂將帶來(lái)《SpecForge: 用于訓(xùn)練投機(jī)采樣模型的開(kāi)源框架》的主題演講,歡迎感興趣或者想要面基的開(kāi)發(fā)者朋友們掃描下方二維碼報(bào)名。
日程詳情可戳:《》
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.