開源模型都在用的重要推理框架vLLM,核心團隊宣布創業了!
創始團隊官宣,成立新公司Inferact,種子輪即斬獲1.5億美元(約10.5億人民幣)融資,估值達8億美元(約56億人民幣)。
這一規模創下了近期AI基礎設施領域的融資新高,也是有史以來規模最大的種子輪融資之一。
![]()
投資方指出,隨著AI應用落地,行業焦點正從訓練轉向推理,如何低成本、高可靠地運行現有模型已成為新的痛點。
Inferact正是為了解決這一“推理瓶頸”而生,旨在構建下一代商業引擎以應對大規模部署挑戰。
出任CEO的Simon Mo也表示,這反映了市場機遇的廣闊,因為在推理規模化階段,即使是微小的效率提升也能帶來顯著的成本節省。
vLLM商業化,Inferact正式成立
本次1.5億美元的種子輪融資由Andreessen Horowitz(a16z)與Lightspeed Venture Partners共同領投。
除了兩大領投方,跟投名單中還出現了紅杉資本(Sequoia Capital)、Altimeter Capital、Redpoint Ventures以及真格基金(ZhenFund)。
如此豪華的投資規模集中在一家剛成立的初創公司身上,顯示出資本市場對于AI基礎設施賽道風向的劇烈轉變。
a16z合伙人Matt Bornstein指出,隨著大模型能力趨于成熟,開發者已不再單純等待模型架構的更新,而是開始大規模部署現有模型。
這一轉變帶來了新的難題,即當應用程序需要頻繁與大模型進行交互時,算力成本和系統負載會呈指數級上升,推理環節因此成為制約行業發展的最大瓶頸。
市場對于低成本、高可靠運行現有模型的需求,目前已經超過了對新模型研發的期待。
作為Inferact的技術基石,vLLM在此之前已經進入了工業界的實際生產環境。
亞馬遜目前已采用該技術,而且是直接應用于自身核心購物應用的內部系統。
這種來自萬億級商業場景的實際部署,在真實的高并發流量下驗證了技術的穩定性,也讓資本市場看到了技術在大規模商業落地上的確定性。
面對開源與商業化的平衡問題,Inferact目前的策略是維持雙線并行。
公司明確表示將繼續支持vLLM作為一個獨立的開源項目發展,并將技術改進回饋給社區。
在商業層面,團隊將目光投向了硬件適配的效率問題,計劃開發獨立的商業產品,幫助企業在不同類型的硬件上運行AI模型。
從vLLM到Inferact
vLLM創立之初,團隊自己都認為是一個“副業”項目。
但如今的Inferact時刻前夕,vLLM已成為大模型領域的事實標準,幾乎所有主流開源大模型在發布與部署時,都會將vLLM作為首選支持的推理框架。
在a16z合伙人Matt Bornstein主持的深度對談中,Simon Mo和Woosuk Kwon回溯了vLLM如何從一個不起眼的“副業”一步步走到聚光燈下的全過程。
![]()
最初,vLLM僅僅是兩人在伯克利求學期間的一個Side Project,驅動代碼更新的動力源于一種極其樸素的技術信仰——
他們堅信,在這個大模型重塑世界的時代,開源代碼必須是全球AI基礎設施的地基。
這種純粹的初衷,讓vLLM在沒有商業推廣的情況下,迅速成為了開發者社區的寵兒。
然而,隨著項目從實驗室走向工業界,團隊的角色發生了質的轉變。
作為核心維護者,他們不僅是在寫代碼,更是在與全球最頂尖的開發者協作,這種高強度的社區互動成為了他們技術能力的“煉金石”。
他們積累了獨有的技術洞察,并確立了在行業內的權威身份,構成了后來他們能夠駕馭一家獨角獸企業的底層能力。
但在這一過程中,現實的引力也越來越重。他們發現,當推理任務從簡單的Demo演示變成數千張GPU集群的生產級部署時,挑戰的量級呈指數級上升。
“推理正在變得越來越難”,這是團隊在第一線摸爬滾打后得出的痛切結論。
現有的開源方案在面對深度底層優化、大規模集群的線性擴展以及復雜的GPU部署流程時,往往顯得力不從心。
企業需要的不再是零散的代碼庫,而是能夠穩定承載萬億次調用的工業級引擎。
為了攻克那些開源社區難以消化的“硬骨頭”,必須引入嚴密的商業組織形式構建下一代引擎。
與此同時,為了在商業化的同時保證開源項目繼續運行,Inferact設計了一套獨特的反哺機制,利用商業資源繼續滋養vLLM,確保這個曾經的副業項目能繼續作為行業的基石繁榮生長。
伯克利博士攜手清華特獎
Inferact的CEO由Simon Mo擔任。
他曾就讀于加州大學伯克利分校電氣工程與計算機科學系(EECS),主攻機器學習系統設計方向。
在此之前,他是Anyscale的早期工程師,積累了將分布式系統科研成果轉化為工業級產品的工程實踐經驗。
作為vLLM項目的原始維護者之一,他主要負責項目的工程化構建與社區運營。
![]()
另一位聯合創始人是vLLM項目的發起人Woosuk Kwon。
他擁有加州大學伯克利分校計算機科學博士學位,師從Ion Stoica教授,研究重點聚焦于大語言模型的高效服務系統。
他在博士期間提出了Paged Attention算法,通過引入操作系統中分頁內存管理的思想,解決了KV Cache顯存碎片化問題,這一算法創新為vLLM在吞吐量性能上的提升提供了核心技術支撐。
![]()
團隊的核心技術力量還包括清華特獎得主游凱超(Kaichao You)。
他曾在加州大學伯克利分校EECS系擔任訪問學者,主攻分布式深度學習系統。
作為vLLM的關鍵維護者,他主導了基于張量并行的分布式推理功能實現,并優化了與PyTorch原生生態的集成接口,使得vLLM能夠支持多卡大規模模型推理并降低了開發者的遷移成本。
![]()
此外,核心團隊與顧問團還集結了學術界與工業界的資深力量。
前Roblox高級機器學習工程師Roger Wang作為核心成員加入,為團隊帶來了生產級基礎設施的實戰經驗;
加州大學伯克利分校教授Joseph Gonzalez以及Databricks聯合創始人Ion Stoica教授則作為顧問深度參與其中,為公司提供技術愿景與商業路徑的頂層指導。
參考鏈接:
[1]https://www.bloomberg.com/news/articles/2026-01-22/andreessen-backed-inferact-raises-150-million-in-seed-round
[2]https://x.com/a16z/status/2014394081452163231
文章來源:量子位。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.