網易首頁 > 網易號 > 正文申請入駐

“在Python的慣性中，為何要用C++重走一遍推理引擎的長路？”對話xLLM負責人劉童璇

2026-01-05 18:19:02　來源: CSDN

北京舉報

分享至

采訪 | 張紅月嘉賓｜劉童璇

出品 | CSDN（ID：CSDNnews）

2025 年，AI 基礎設施（AI Infra）告別了技術概念的空談模式，轉入了由成本和效率定義的殘酷現實。

在 3 月，DeepSeek 拋出了一個極具沖擊力的事實：基于其 MoE 架構與系統級優化，整體推理業務實現了 545% 的利潤率。這一數字清晰地揭示了一個趨勢：當模型能力趨同，真正拉開差距的，不再是參數規模，而是底層推理系統對算力的極致壓榨效率。

這種轉變背后，是整個行業面臨的雙重壓力：一方面，大模型從“能用”走向“規模化可用”，推理延遲與吞吐效率成為企業落地的核心瓶頸；另一方面，高企的 GPU 成本與國產算力的全面登場，使得“如何把算力榨干”從優化問題升級為生存問題。

AI Infra 的戰場，正從“框架之爭”全面轉向“系統能力之爭”。

正是在這場系統能力的比拼中，誕生于 2025 年的國產推理引擎 xLLM，以一個“破局者”的姿態嶄露頭角。它沒有選擇在現有框架上做增量優化，而是毅然決然地走上了一條從零開始、以 C++ 為核的“hard mode”之路。這背后是怎樣的技術判斷與戰略考量？

在 2025 全球 C++ 及系統軟件技術大會現場，我們獨家專訪了京東零售集團智能平臺部算法總監，開源大模型推理引擎 xLLM 負責人劉童璇。他不僅揭示了 xLLM 在國產芯片上實現超預期性能背后的秘密，更分享了他對于技術路線、未來 AI Infra 終局的深刻洞見。

右：張紅月左：劉童璇

其核心觀點有：

C++ 依然是高性能 AI Infra 的“底層語言”：當大模型推理進入毫秒、微秒級競爭階段，性能瓶頸不再藏在算子里，而是暴露在調度與系統層。以 Python 為核心的上層框架正在觸碰性能天花板，而真正決定 AI Infra 上限的，仍然是對底層系統能力的掌控。
從零構建是自由，而非負擔：真正的創新無法在既有框架的“地基”上發生，另起爐灶意味著不受技術天花板的束縛，能將對 AI 推理的獨特理解直接注入架構靈魂；
性能即成本，穩定是基石：在昂貴的算力時代，優化的每一微秒都直接轉化為商業價值；而穩定性，是所有技術理想能夠服務于業務的唯一前提；
業務驅動，走向統一：引擎的生命力源于真實、復雜的業務場景。未來的 AI Infra 將是一個統一的模型服務平臺，用不同引擎服務不同模型是當下最大的資源浪費；
技術壁壘，源于學術：頂尖的工程項目必須有頂尖的學術研究作為支撐，將業務問題升華為SOTA（State-of-the-Art）研究，是構建長期護城河的關鍵。

以下是采訪的全部內容：

CSDN：首先我們從您的個人和團隊先談起。首先想了解一下劉老師是如何與編程結緣成為一名開發者的？

劉童璇：其實我本身就是計算機專業，跟 C++ 很早就結緣了。我的編程生涯一直是跟 C++ 這個語言打交道的。即使到現在為止，我的書架里面還有一些 C++ 的書，包括像《Effective C++》、《More Effective C++》，還有《Ruminations on C++》等。

CSDN：C++ 的應用領域非常廣泛，請問您是如何進入 AI 這個領域的？

劉童璇：這源于我職業生涯中的一個契機。2016 年底，我獲得了一個參與深度學習框架項目的機會。當時，TensorFlow 正嶄露頭角，我便投身于其性能優化工作。可以說，我從那時起正式進入了 AI 領域。

CSDN：您與 C++ 有著深厚的淵源，這是否也是您決定基于 C++ 打造 xLLM 的一個主要原因呢？

劉童璇：可以這么說。一方面，盡管近年來涌現出許多新興編程語言，它們在 AI 領域的生態也十分火熱，但 C++ 在工業級應用中，尤其是在對性能和吞吐量有嚴苛要求的場景下，其地位依然不可替代，主流方案仍以 C++ 為主。

xLLM 從立項之初就定位于高性能，因此，追求極致性能是我們選擇 C++ 最直接的原因。在大模型推理領域，堅持使用 C++ 構建底層引擎，代表了我們團隊對技術性能的更高標準和不懈追求。

CSDN：您曾提到，xLLM 團隊在創立之初面臨一個“懸崖邊的問題”：是基于現有的 vLLM 和 SGLang 進行迭代，還是另起爐灶從頭構建。最終你們選擇了后者。能否分享一下當時的考量因素？回顧 2025 這一年，從零起步的決策為 xLLM 帶來了哪些核心優勢？

劉童璇：這背后是我們對技術趨勢的核心判斷。首先，vLLM 和 SGLang 這類框架，雖然底層核心（Kernel）由 C++ 實現，但上層調度和啟動（Launch）仍依賴 Python。我們預見到，隨著模型對性能要求日益嚴苛，Python 層的開銷將逐漸成為性能瓶頸。

其次，大模型推理技術尚處于早期發展階段，遠未成熟。未來，業界對延遲的優化將深入到毫秒、微秒甚至更精細的級別。在這樣的趨勢下，底層語言的選擇對性能的影響至關重要。此外，我們認為對于經驗豐富的團隊而言，使用 C++ 開發的難度和效率并非不可逾越的障礙。

最后一點，當時國內市場，特別是針對國產芯片的推理引擎領域，存在明顯的空白。我們看到了填補這一空白的機會和責任。

回顧 2025 年，從零開始的最大優勢在于技術選型和架構設計上的完全自由，使我們不受既有框架的束縛。這讓我們能夠將團隊對大模型推理的深刻理解直接融入到核心實現中。雖然團隊和項目尚處起步階段，但我們已經開展了多項前沿研究并取得了初步成果。可以說，2025 年是我們的開局之年，未來可期，一切都在穩步推進。

CSDN：之前你在采訪中說你們的團隊平均年齡不到 30 歲，是一群 95 后的工程師。在一年之內完成 xLLM 的核心引擎打造，您作為舵手是如何激發這支年輕的戰斗團隊？

劉童璇：我非常榮幸能跟他們在一起。我們這幫同學們很年輕，可能比我要年輕得多。從一開始做 xLLM 大家可能有些信心不足，到后面我們把這個事情做得還不錯，一直到現在，大家是滿懷激情來做這件事情的。非常感謝這個團隊的同學過往一年的風雨同舟和不懈拼搏。

我們團隊的一大特色是吸納了大量優秀的實習生，他們做出了卓越的貢獻。我們與清華、北大、中科大、北航等頂尖高校建立了深入的合作關系，這些合作不僅為項目注入了新鮮血液，也為我們帶來了寶貴的學術資源和支持。例如，我們近期一篇投向頂會的論文，其核心工作就是由一位大二的實習同學主導完成的。這種高素質的人才儲備，是我們項目能夠在學術前沿和技術領先性上不斷突破的關鍵資產，也是我們行穩致遠的保障。

CSDN：您在演講中提到了動態圖融合、全局 KV 緩存、動態 PT 分解等技術。這些優化背后的共同思想是什么？以及您如何平衡性能、成本、穩定性這個“三角關系”？

劉童璇：這些功能很多時候源自于我們實際場景的洞察。我們從實際的業務場景、集群里面看到問題，把這些問題提煉。一方面我們把這個功能做下來，另一方面我們會把對應的論文做下來。這也是我們團隊做事情的一個風格。其實我跟我們團隊的每個同學在交流的時候，也是跟大家定下的一個默契。如果想把 xLLM 打造成最頂尖的大模型推理引擎，意味著我們一定要有很多壁壘性的工作在里面。我們將業務場景中的問題抽象成論文解決的問題，同時把這個工作去落地，其實就是能夠形成一個非常好的閉環。一方面解決我們業務的問題，另一方面能夠讓我們有更好的影響力，在 xLLM 這個引擎上有很強的壁壘。

關于平衡，在大模型推理領域里面，性能就意味著成本。只要性能越好，你節省的成本是非常非常多的。因為 GPU 卡很貴。

另一方面就是穩定性，其實這三個沒有矛盾。包括在 xLLM 這個項目上，我們做任何的功能上線，要給業務帶來效果，首先第一點要保證穩定性。穩定性是一個基礎。

此外，對于性能的追求是我們項目一直不停追逐的目標。應該說這三個其實都是我們“既要又要”的。

CSDN：xLLM 不僅做推理引擎，還開放了推理服務。您是如何定義二者之間的關系？這種閉環方案對企業級的 AIGC 部署來說實際解決了哪些痛點？

劉童璇：這同樣源于我們在企業內部的實踐。當模型部署規模達到成百上千張卡時，僅有引擎是遠遠不夠的，必須有一個強大的服務層來進行資源管理、任務調度和高可用保障。

因此，推理引擎和推理服務是密不可分、相輔相成的。將它們割裂開發，會犧牲整體性能。我們之所以將二者一同開源，就是希望傳遞這一理念。

企業級部署的核心痛點之一是資源碎片化和管理復雜性。如果使用不同的引擎來部署不同類型的模型（如大語言模型、文生圖模型），會導致資源無法共享，調度困難。xLLM 的目標是成為一個統一的模型服務平臺。通過將各類 AIGC 模型統一納入管理，我們可以在一張卡或一個進程內實現混合部署和協同調度，極大地提升資源利用率。

CSDN：您一直強調功能和方向源于業務實踐。目前 xLLM 在京東內部有哪些具體的落地案例？

劉童璇：在京東內部，xLLM 已廣泛應用于零售業務的各類 To C 產品中，覆蓋了大模型、多模態和文生圖等多種應用場景，部署規模相當可觀。其中，生成式推薦是我們今年下半年重點打造的方向。我們提供的解決方案能夠在 xLLM 上高效執行生成式推薦模型，將推理延遲控制在極低水平，完全滿足“搜推廣”（搜索、推薦、廣告）這類對實時性要求極高的場景。

CSDN：接下來聊聊在與國產芯片的合作過程中，你們有沒有一些工程上的挑戰？以及 xLLM 在國產芯片上這種超預期的性能表現背后，做了哪些關鍵的技術因素？

劉童璇：我們對國產芯片的優化，是一個源于實踐、持續迭代的過程。我們從執行引擎、顯存管理、算子優化到分布式策略，都進行了大量針對性的優化。

CSDN：能不能具體以某個例子來講一講？方便講嗎？

劉童璇：舉個簡單的例子。大模型推理是逐個 Token 生成，在兩個 Token 生成之間，存在調度和計算的間隙（Gap）。我們通過深度優化，實現了調度與計算的高度重疊（Overlap）。

在 xLLM 中，我們將這個間隙壓縮到了百微秒甚至更低的級別，這是許多其他框架難以企及的。此外，我們還構建了多級流水線機制，包括通信與計算的重疊、算子內部數據加載與計算的重疊等，這些技術共同確保了國產芯片的算力得到最大限度的利用。

CSDN：xLLM 是從 9 月份發布及開源以來，您收到的來自開源社區以及用戶案例方面，有沒有讓你驚喜或者印象深刻的可以跟我們分享？

劉童璇：說到這個我想到一個故事。有一次在杭州的時候，有一個公司負責人很興奮地跟我分享，他們把 xLLM 集成到一體機中，成功部署到了新疆的一座電站里。

這件事情讓我特別感動。作為一名在互聯網行業工作多年的技術人，我們很少有機會直觀地感受到自己的工作如何影響國計民生。但在那一刻，我真切地感受到，我們所做的事情正在為國家的基礎設施貢獻力量，這讓我倍感自豪。這也讓我意識到，xLLM 開源的意義，遠不止于一個技術項目，它承載了讓國產芯片用得更好、國產算力得到更充分釋放的使命。

CSDN：下一個部分聊聊全球 AI Infra 的格局。2025 年是百花齊放的一年，無論是 vLLM、TensorRT-LLM 還是 xLLM，我想問一下你如何看待它們與 xLLM 的關系？是直接的競爭，還是生態位場景化的差異互補？在這個開源社區又在其中扮演了怎樣的角色？

劉童璇：當前大模型推理領域仍處于發展的早期階段，百花齊放、百家爭鳴是健康且必然的。xLLM的獨特之處在于，它誕生于大型互聯網公司的真實業務需求。我們的功能迭代和場景覆蓋，是由內部海量、多樣的需求驅動的，這與其他研究驅動或純社區驅動的項目有所不同。

此外，我們堅信AI領域需要持續的技術深度挖掘。因此，我們不僅關注工程實現，更致力于通過發表頂會論文等方式，構建項目的技術壁壘和學術影響力。當然，我們非常樂意與其他開源項目交流合作，共同推動技術進步。

CSDN：在過去一年的 AI 推理技術當中，有哪些業界被普遍認可的路線、技術理念被證明是行不通的？那又有哪些能力反而成了長期的護城河？

劉童璇：直接評判哪些技術路線“行不通”可能過于武斷。許多學術研究的價值在于思想啟發，而非直接的落地應用。有些研究在當時看可能難以落地，但其思想卻可能在未來某個節點爆發出巨大的應用價值。因此，即使是那些看似難以直接轉化的研究，也為我們提供了寶貴的思路，幫助我們更深入地思考問題。

CSDN：xLLM 已經公布了 2026 年的一些路線圖，其中提到了場景縱深、模型聯盟和芯片協同的“三箭齊發”策略。您認為哪一項挑戰最大？一旦突破，可能會帶來怎樣的代際提升？

劉童璇：這三條路徑都極具挑戰性，但我們決心同步推進。

首先是模型聯盟，我們與模型廠商的合作正在積極推進。真正的挑戰在于，我們需要拿出足夠亮眼的性能表現，來證明xLLM的價值，從而贏得他們的信任并展開合作。我們與智譜AI合作首發支持 GLM4.6V和 GLM4.7，就是我們邁出的第一步。歸根結底，xLLM對高性能的追求是不變的，我們的目標就是讓所有國產模型都能在我們平臺上發揮出極致性能。

其次是芯片協同。我們在這方面有一個天然優勢：xLLM是C++項目。這意味著我們可以通過編譯能力，非常便捷地將不同芯片的底層實現整合進來。這是我們與許多Python項目最根本的區別之一，也是我們能夠高效統一支持各類硬件的基礎。

最后是場景縱深，我們的終極目標是打造一個數據中心級的智能操作系統。這個想法并非空中樓閣，而是由內部需求驅動的——我們需要解決數千個獨立部署帶來的巨大資源浪費。未來的系統應當能將所有模型和服務統一管理，實現資源互通和智能調度，最終形成一個自適應的整體。這是我們規劃的演進路徑，也是一個必然的方向。

CSDN：非常感謝劉總今天帶來的精彩分享，也期待 xLLM 在未來成長為全球 AI 推理的智能操作系統，驅動下一個 AI 十年的創新。再次感謝劉總，劉老師。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.