2025年11月17日,以"生態(tài)共融·智驅(qū)未來"為主題的龍蜥操作系統(tǒng)大會在北京隆重召開。作為龍蜥社區(qū)副理事長單位,浪潮信息深度參與了此次盛會。面對智能體技術(shù)推動下AI推理需求的迅猛增長,元腦服務(wù)器操作系統(tǒng)KOS迎來了重要升級,這款基于龍蜥技術(shù)路線開發(fā)的元腦服務(wù)器系統(tǒng)通過在內(nèi)存池化分層、vLLM協(xié)同優(yōu)化等關(guān)鍵領(lǐng)域的技術(shù)創(chuàng)新,成功實現(xiàn)了大模型運行時系統(tǒng)吞吐量提升20%以上,GPU帶寬使用率提升50%的顯著效果,為智能體產(chǎn)業(yè)化發(fā)展構(gòu)建了更加高效的元腦服務(wù)器操作系統(tǒng)底座。
![]()
大模型推理時代,服務(wù)器操作系統(tǒng)要AI原生化
會上,由中國智能計算產(chǎn)業(yè)聯(lián)盟和電子四院主導(dǎo)撰寫的《服務(wù)器操作系統(tǒng)發(fā)展報告(2025)》(以下簡稱為“報告”)正式發(fā)布。報告指出,“云+AI”正在重塑和加速服務(wù)器操作系統(tǒng)的發(fā)展,未來服務(wù)器操作系統(tǒng)必須同時滿足高并發(fā)彈性調(diào)度與高效智能計算的雙重目標,顯著提升算力的使用效率與資源的自動化管理水平,才能滿足指數(shù)增長的AI計算需求。
自2023年起,全球范圍內(nèi)用于AI推理的算力消耗已超過訓(xùn)練,且差距持續(xù)拉大。這一趨勢反映了大模型商業(yè)化落地后,實際應(yīng)用場景(如智能客服、內(nèi)容生成、推薦系統(tǒng))對推理算力的強勁需求。IDC預(yù)測,在中國,推理工作負載占AI服務(wù)器總負載的比例將從2025年的67%增長至2028年的73%。
與傳統(tǒng)計算任務(wù)不同,AI推理具有高并發(fā)、低延遲、專用加速芯片多元異構(gòu)、資源敏感等鮮明特征,這些特性要求操作系統(tǒng)要更加主動的理解AI工作負載,提供一個高效、安全、可擴展的AI運行環(huán)境,這不僅涉及操作系統(tǒng)在內(nèi)核調(diào)度、內(nèi)存管理、安全模型等核心技術(shù)的重構(gòu),更要求操作系統(tǒng)與TensorRT、vLLM等AI框架深度協(xié)同,形成軟硬一體的高效推理棧。
龍蜥社區(qū)技術(shù)委員會副主席、浪潮信息系統(tǒng)軟件產(chǎn)品部總經(jīng)理蘇志遠認為,從長遠來看,服務(wù)器操作系統(tǒng)必須面向AI原生持續(xù)演進。這場演進的本質(zhì),是服務(wù)器操作系統(tǒng)從被動響應(yīng)資源請求的“管理者”,轉(zhuǎn)變?yōu)槟苤鲃永斫釧I語義、協(xié)同異構(gòu)硬件、優(yōu)化端到端推理鏈路的“智能運行底座”,不僅需要更大級別的創(chuàng)新,也需要產(chǎn)業(yè)生態(tài)的合力,才能共同打造最A(yù)I的服務(wù)器操作系統(tǒng)。
元腦KOS全新升級,持續(xù)向最A(yù)I的服務(wù)器操作系統(tǒng)演進
操作系統(tǒng)向AI原生演進將是漸進式的,要根據(jù)大模型軟硬件技術(shù)的發(fā)展,持續(xù)滿足對異構(gòu)算力環(huán)境的支持,對海量、多級存儲的管理,對數(shù)據(jù)多態(tài)、跨模態(tài)巨量數(shù)據(jù)的管理,以及對各種新型融合網(wǎng)絡(luò)架構(gòu)的支持等等,解決AI在實際應(yīng)用中面臨的技術(shù)瓶頸。
此次元腦KOS升級主要針對AI推理當前面臨的算力與數(shù)據(jù)搬運瓶頸,通過內(nèi)核級優(yōu)化,實現(xiàn)高效計算與快速I/O,將系統(tǒng)吞吐量提升20%以上,GPU間通信帶寬提升50%。
在算力層面,AI推理雖然高度依賴GPU、NPU、TPU等專用加速器,但并不意味著CPU僅能作為控制中心存在,這會帶來算力資源的浪費。元腦KOS針對預(yù)填充和解碼的計算特征不同,一方面通過元腦KOS和vLLM的協(xié)同優(yōu)化,按需在CPU和GPU間動態(tài)調(diào)度解碼任務(wù),提升并行計算能力;另一方面將MoE模型的路由專家卸載到CPU端,在顯存受限條件下仍可以支撐大模型運行。基于元腦KOS,企業(yè)級客戶可在中低端AI算力平臺上,實現(xiàn)輕量化AI推理方案的快速部署。
在內(nèi)存層面,大模型推理動輒占用數(shù)十GB顯存,且其計算過程涉及稀疏激活、KVCache等復(fù)雜結(jié)構(gòu),傳統(tǒng)通用內(nèi)存分配策略難以滿足效率需求。其中,KVCache作為推理過程中關(guān)鍵的性能資源,一向是優(yōu)化的重點。元腦KOS基于CXL池化共享內(nèi)存構(gòu)建起KVCache分級存儲,采用CXL共享內(nèi)存代替RDMA實現(xiàn)集群間免網(wǎng)絡(luò)的數(shù)據(jù)通信,可將首token生成時間降低10%,降低網(wǎng)絡(luò)設(shè)備投入成本,同時通過CXL擴展內(nèi)存容量將每GB內(nèi)存成本降低20%;通過增加CXL池化內(nèi)存層級可以使平均首token生成時間下降40%,KVCache完全復(fù)用時首token生成時間下降80%。
![]()
蘇志遠進一步表示,未來的操作系統(tǒng)需構(gòu)建分層、智能的內(nèi)存管理體系,打通CPU內(nèi)存、GPU顯存、持久內(nèi)存乃至遠程內(nèi)存池的統(tǒng)一虛擬地址空間。在此基礎(chǔ)上,引入模型感知的分配器,根據(jù)張量布局優(yōu)化內(nèi)存對齊與NUMA親和性,并支持多個推理實例安全共享模型參數(shù),顯著降低冗余內(nèi)存開銷。
筑基智算,以龍蜥智算聯(lián)盟構(gòu)建開放協(xié)同AI新生態(tài)
大模型時代,操作系統(tǒng)要發(fā)揮關(guān)鍵生態(tài)位作用,做好上游芯片與下游AI應(yīng)用開發(fā)商之間的紐帶,實現(xiàn)AI能力的快速價值轉(zhuǎn)化。在當前算力產(chǎn)業(yè)格局下,龍蜥社區(qū)的一個重要目標就是推動本土芯片快速融入到AI發(fā)展浪潮之中,實現(xiàn)本土算力從“可用”向“好用”的質(zhì)變。
對此,浪潮信息牽頭成立龍蜥智算聯(lián)盟,匯聚AI芯片、服務(wù)器、操作系統(tǒng)、應(yīng)用開發(fā)及高校等產(chǎn)業(yè)鏈各方,以“打造AI原生操作系統(tǒng)、形成開放兼容的AI生態(tài)體系、增強AI產(chǎn)業(yè)鏈競爭力”為目標,推動操作系統(tǒng)和AI融合發(fā)展,促進AI技術(shù)在各行業(yè)的落地應(yīng)用。
浪潮信息在會上公布了聯(lián)盟在性能優(yōu)化、兼容易用、穩(wěn)定可靠等方向的技術(shù)研究進展。性能方面,實現(xiàn)了基于CXL共享內(nèi)存池的KVCache分級存儲,提升了推理吞吐性能;兼容易用方面,聯(lián)合國內(nèi)GPU廠商在龍蜥OS上新增了超800個硬件KABI接口,建立了AI容器參考規(guī)范,并首批發(fā)布了7個AI容器鏡像,為用戶AI軟件棧部署提供支撐;穩(wěn)定可靠方面,圍繞本土GPU故障信息提取等內(nèi)容起草了標準規(guī)范,提升AI基礎(chǔ)設(shè)施的RAS處理能力。
未來,依托龍蜥智算聯(lián)盟等開源組織,系統(tǒng)廠商與本土芯片廠商將實現(xiàn)深度聯(lián)動,聚焦異構(gòu)計算、資源調(diào)度、RAS增強等關(guān)鍵領(lǐng)域持續(xù)創(chuàng)新,打造軟硬件高效協(xié)同的AI Infra生態(tài)體系,支撐人工智能產(chǎn)業(yè)高質(zhì)量發(fā)展。
![]()
本次2025龍蜥操作系統(tǒng)大會由多個權(quán)威機構(gòu)聯(lián)合指導(dǎo),龍蜥社區(qū)主辦,阿里云、浪潮信息、Intel、Arm等25家理事單位共同承辦。最新調(diào)研數(shù)據(jù)顯示,在企業(yè)用戶當前采用的服務(wù)器操作系統(tǒng)中,龍蜥生態(tài)相關(guān)的社區(qū)版和商業(yè)版市場占有率已接近50%,元腦服務(wù)器系統(tǒng)的裝機總量更是突破了1000萬大關(guān)。這一成就充分證明了元腦服務(wù)器操作系統(tǒng)在業(yè)界的廣泛認可度和技術(shù)領(lǐng)先地位,標志著元腦服務(wù)器生態(tài)正在成為推動AI基礎(chǔ)設(shè)施發(fā)展的重要力量。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.