隨著人工智能技術的迅猛發展,算力需求迎來了爆炸式增長。與此同時,大模型、大數據、異構算力的興起,為AI創新提供了堅實基礎之時,也帶來了軟件與硬件適配、系統穩定性和生態協同等多重挑戰。
![]()
上述背景之下,在日前舉辦的2025開放計算技術大會上,國內領先的開源操作系統根社區龍蜥社區攜手產業鏈上下游多方,成立了龍蜥智算基礎設施聯盟(以下簡稱龍蜥智算聯盟)。聯盟匯聚AI芯片、服務器、操作系統、應用開發及高校等產業鏈各方,以“打造AI原生操作系統、形成開放兼容的AI生態體系、增強AI產業鏈競爭力”為目標,聚焦開源大模型等AI技術落地過程中的兼容適配、系統穩定性、人才培養以及AI安全等問題,推動操作系統和AI融合發展,促進AI技術在各行業的落地應用。此舉被業界視為一次旨在打造面向未來AI原生操作系統生態體系、推動國內AI軟硬件協同發展的戰略性嘗試。
AI時代算力模式轉變,面臨異構和生態之痛
眾所周知,最近幾年,AI產業的發展速度超乎想象。尤其是大模型的興起,帶來了算力需求爆炸式增長的同時,徹底顛覆了傳統的計算模式,即由傳統計算模式中單一的CPU、GPU演變成今天除了CPU、GPU,還有DPU、FPGA、ASIC等算力硬件的異構和多樣化,而這種異構和多樣化,雖然極大豐富了計算資源,但同時也帶來了相應的新挑戰。其中最明顯的,就是上述不同芯片類型構成的“異構算力”的管理和協調變得越來越復雜。
具體表現在:各芯片廠商往往自帶專屬的驅動和開發工具,每一家都獨立做適配,AI算法開發者則不得不面對多種不同的開發庫,軟件層面像豎起了“煙囪”,很難打通形成一體化的使用體驗。
對此,浪潮信息系統軟件產品部總經理蘇志遠進一步解釋道,每家芯片廠商都有自己的驅動和配套的軟件開發工具包(SDK),它們各自為戰,導致算法開發深度依賴特定硬件。更讓業界頭疼的是,操作系統版本一升級,好多東西都要跟著變化,甚至不同的加速器廠商對Python等軟件包的版本要求都各不相同。而這種適配的復雜性和巨大的工作量,讓各方都不得不將寶貴的人力、物力投入到繁瑣的兼容適配工作,而不是更具價值的AI技術創新。
![]()
事實上,除了異構算力的適配,萬億參數的大模型還需要萬卡級別的集群來支撐,但如此龐大的集群極易出現故障,且穩定性差,稍有不慎就可能出現性能瓶頸,甚至系統崩潰,進而影響AI模型的穩定運行,而一旦大規模設備間出現故障,其定位和恢復又成了新的問題。同時,內存、存儲和網絡帶寬也成為制約性能的瓶頸,導致AI大模型的效率難以充分發揮。此外,隨著AI應用的普及,數據安全與隱私保護也變成一個日益突出的社會性難題。
龍蜥智算聯盟呼之已出,推進之中存挑戰
正是基于我們上述算力模式轉變,產業面臨的異構和生態之殤,在日前舉辦的2025開放計算技術大會(OCP)上,龍蜥智算聯盟呼之已出,并公開闡述了其核心目的。
![]()
對此,我們可以概括為三個層面,即打造“AI Native OS”,實現AI硬件與龍蜥操作系統的原生適配,從芯片層面構建原生友好的操作系統,消弭軟硬件間的兼容性鴻溝;降低適配復雜度,即通過降低AI硬件與龍蜥操作系統不同商業發行版的適配成本,讓更多的人力資源從繁瑣的兼容工作中解放出來,投入到更具價值的AI技術研究中;構建開放兼容生態,形成一個開放兼容的AI軟硬件技術和生態體系,推動國內外AI技術創新和生態發展。
為此,龍蜥智算聯盟組建了多個技術工作組,在兼容測試、驅動維護、AI框架優化、故障管理和人才培養等領域協同推進。
以兼容性測試為例,GPU廠商要適配不同版本的龍蜥商業版操作系統,每次都要耗費大量的人力和設備做驗證,周期長,重復工作多。為此龍蜥智算聯盟制定了統一的兼容性測試基準,明確測試流程和標準,減少適配工作量,以讓GPU廠商能節省寶貴時間和成本,更專注于硬件創新。
又如在驅動維護方面,要讓操作系統順利加載不同廠商的GPU驅動,就得保持內核接口的兼容性。針對此,聯盟推動龍蜥操作系統內核主線的KABI做了超過800項更新,保障了對新GPU的支持和穩定。此舉旨在從技術底層確保硬件生態的可持續性,但維持這種兼容性的長期成本和協調難度依然不容小覷。
而在AI框架優化上,芯片和系統團隊聯合模型開發者,共同發布開源版本的AI框架,持續優化算子庫,推動異構算力協同,做到軟硬深度融合,真正提升AI計算性能。
除上述之外,龍蜥智算聯盟最引人注目的莫過于其目標致力于打造AI原生操作系統。
對此,龍蜥社區技術委員會主席楊勇認為,所謂的AI原生操作系統,“學術界”和“工程界”有著兩種不同的理解,而龍蜥智算聯盟所倡導的AI原生操作系統屬于工程界的范疇,它不是用AI取代內核,而是將“AIfor System”和“System forAI”兩種思路相結合。
![]()
楊勇進一步解釋道,“AI for System”是指利用AI能力來優化操作系統本身。例如,通過智能體輔助進行系統運維、故障排查、安全漏洞發布等工作,讓操作系統變得更加智能化、自動化。而“System for AI”則是指為AI應用提供一個更好的運行環境,在操作系統層面深度優化異構算力調度、內存管理、存儲和網絡等,以充分發揮AI大模型的性能。
簡單來說,AI原生操作系統的內涵在于,它是一種“場景概念”和“運營方式”,旨在將AI能力深度融入操作系統的各個層面,使其成為一個能夠高效調度多元異構算力、保障安全、簡化應用部署、并不斷進化的智能平臺,為大模型應用提供最肥沃的生長土壤。
當然,除了上述的推進之外,龍蜥智算聯盟在發展過程中仍面臨某些挑戰。
首當其沖的就是如何平衡不同廠商之間的利益與技術差異。對此,龍蜥智算聯盟主席宋卓坦承,這是一個“頗有挑戰的事情”。他指出,社區的天然問題是其結構相對松散,不像一家公司內部的項目運作那樣緊密,而要讓不同企業貢獻核心技術,并達成共識,需要非常巧妙的治理機制。
![]()
事實上,在我們看來,這背后觸及的是各廠商的商業核心利益與知識產權壁壘等,而如何建立有效的激勵與信任機制是其能否最終成功的關鍵。
此外,當大規模集群故障頻發,GPU出現異常時,如何快速抓取關鍵信息進行診斷,也是當下提升系統可靠性的難點。對此,龍蜥智算聯盟正在推動統一的日志格式和故障管理規范,讓集群的故障分析更高效,以降低排錯成本。而這不僅是技術標準問題,更是推動眾多廠商改變現有運維習慣、流程等的系統工程。
最后,也是最根本的挑戰,是如何與業內已經成熟且處于壟斷地位的國際及國內某些生態競爭。原因很簡單,龍蜥智算聯盟的技術路線即便再完美,最終也要面對市場的檢驗,而要吸引芯片廠商、開發者、用戶等從一個擁有數十年積累、工具鏈完善、社區龐大的生態遷移過來,不僅需要提供性能相當,甚至超越的替代方案,更需要投入巨大的資源進行市場教育、開發者支持和生態激勵等。
風物長宜放眼量,夯實智算新基石
所謂風物長宜放眼量。盡管在現實的推進之中存有挑戰,但從其更長遠的未來看,通過產業鏈深度協同、統一標準與生態繁榮、成為智算普惠的加速器等,龍蜥智算聯盟最終的愿景是充當夯實智算新基石的戰略角色。
以產業鏈的深度協同為例,龍蜥智算聯盟的成員涵蓋了AI芯片、服務器、操作系統、大模型和應用開發等產業鏈上下游的20多家企業和機構,而這種全棧協同是其相較于其他聯盟和廠商的核心優勢所在。
正如宋卓所言,龍蜥智算聯盟的一個重要目的就是“通過上下游的結合,把整個的技術棧端到端地串聯起來”。而這種協同,能夠有效地解決不同環節之間的技術瓶頸和適配問題,共同提升整個產業鏈的競爭力。
又如在統一標準與生態繁榮上,蘇志遠在采訪中提到,龍蜥智算聯盟的工作將推動統一操作系統內核、軟件包、API和KABI(內核應用二進制接口)等標準規范的建立。這不僅能大大降低適配成本,還能讓開發者避免重復踩坑,從而為整個AI生態的繁榮奠定堅實的基礎。
想象一下,未來開發者無需為不同廠商的AI加速卡編寫不同的代碼,只需遵循統一的API接口,就能輕松地在不同硬件平臺上部署和運行AI應用,這將極大地激發創新活力,吸引更多的開發者和企業加入到龍蜥智算生態中來。
至于成為智算普惠的加速器,楊勇稱,龍蜥智算聯盟致力于通過打造一個更通用的、更易用的智算基礎設施,將間接地為普通企業打造一個“未來AI的智能體、應用,良好運行的環境”,即通過操作系統深度集成最優的推理部署框架,可以讓企業部署AI應用變得像使用微信小程序一樣方便。例如,一家中小企業想要部署一個AI客服機器人,無需了解復雜的硬件配置和軟件棧,只需在龍蜥操作系統平臺上進行簡單的配置,就能快速上線,這無疑將大大降低AI技術的應用門檻,加速AI普惠的實現,讓更多企業能夠享受到大模型帶來的技術紅利。
龍蜥智算聯盟的成立,是增強國內基礎軟件自主創新能力的重要舉措,即通過凝聚產業力量,推動關鍵技術攻關與協同創新,積極探索新型操作系統在AI計算領域的標準化工作,進而夯實數字經濟的算力基石。
寫在最后:龍蜥智算聯盟的成立,不只是一個組織的搭建,更是AI算力基礎設施建設的一次關鍵的破局嘗試,即通過聯結芯片、系統、應用多方力量,以務實和開放的姿態,推動AI原生操作系統生態的穩步發展。
然而,在挑戰猶存之時,我們認為,其最終的成功不僅取決于技術路線的正確執行和成員間的有效協同,更要看它能否在激烈的市場競爭中,真正建立起一個對開發者有足夠吸引力、開放且持續繁榮的生態系統,加之面對復雜多變的AI技術和產業環境,龍蜥智算聯盟用創新和合作能否為中國數字經濟和智能產業注入可持續發展的動力,還是讓我們拭目以待吧。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.