隨著人工智能技術(shù)的迅猛發(fā)展,算力需求迎來了爆炸式增長。與此同時,大模型、大數(shù)據(jù)、異構(gòu)算力的興起,為AI創(chuàng)新提供了堅實基礎之時,也帶來了軟件與硬件適配、系統(tǒng)穩(wěn)定性和生態(tài)協(xié)同等多重挑戰(zhàn)。
![]()
上述背景之下,在日前舉辦的2025開放計算技術(shù)大會上,國內(nèi)領先的開源操作系統(tǒng)根社區(qū)龍蜥社區(qū)攜手產(chǎn)業(yè)鏈上下游多方,成立了龍蜥智算基礎設施聯(lián)盟(以下簡稱龍蜥智算聯(lián)盟)。聯(lián)盟匯聚AI芯片、服務器、操作系統(tǒng)、應用開發(fā)及高校等產(chǎn)業(yè)鏈各方,以“打造AI原生操作系統(tǒng)、形成開放兼容的AI生態(tài)體系、增強AI產(chǎn)業(yè)鏈競爭力”為目標,聚焦開源大模型等AI技術(shù)落地過程中的兼容適配、系統(tǒng)穩(wěn)定性、人才培養(yǎng)以及AI安全等問題,推動操作系統(tǒng)和AI融合發(fā)展,促進AI技術(shù)在各行業(yè)的落地應用。此舉被業(yè)界視為一次旨在打造面向未來AI原生操作系統(tǒng)生態(tài)體系、推動國內(nèi)AI軟硬件協(xié)同發(fā)展的戰(zhàn)略性嘗試。
AI時代算力模式轉(zhuǎn)變,面臨異構(gòu)和生態(tài)之痛
眾所周知,最近幾年,AI產(chǎn)業(yè)的發(fā)展速度超乎想象。尤其是大模型的興起,帶來了算力需求爆炸式增長的同時,徹底顛覆了傳統(tǒng)的計算模式,即由傳統(tǒng)計算模式中單一的CPU、GPU演變成今天除了CPU、GPU,還有DPU、FPGA、ASIC等算力硬件的異構(gòu)和多樣化,而這種異構(gòu)和多樣化,雖然極大豐富了計算資源,但同時也帶來了相應的新挑戰(zhàn)。其中最明顯的,就是上述不同芯片類型構(gòu)成的“異構(gòu)算力”的管理和協(xié)調(diào)變得越來越復雜。
具體表現(xiàn)在:各芯片廠商往往自帶專屬的驅(qū)動和開發(fā)工具,每一家都獨立做適配,AI算法開發(fā)者則不得不面對多種不同的開發(fā)庫,軟件層面像豎起了“煙囪”,很難打通形成一體化的使用體驗。
對此,浪潮信息系統(tǒng)軟件產(chǎn)品部總經(jīng)理蘇志遠進一步解釋道,每家芯片廠商都有自己的驅(qū)動和配套的軟件開發(fā)工具包(SDK),它們各自為戰(zhàn),導致算法開發(fā)深度依賴特定硬件。更讓業(yè)界頭疼的是,操作系統(tǒng)版本一升級,好多東西都要跟著變化,甚至不同的加速器廠商對Python等軟件包的版本要求都各不相同。而這種適配的復雜性和巨大的工作量,讓各方都不得不將寶貴的人力、物力投入到繁瑣的兼容適配工作,而不是更具價值的AI技術(shù)創(chuàng)新。
![]()
事實上,除了異構(gòu)算力的適配,萬億參數(shù)的大模型還需要萬卡級別的集群來支撐,但如此龐大的集群極易出現(xiàn)故障,且穩(wěn)定性差,稍有不慎就可能出現(xiàn)性能瓶頸,甚至系統(tǒng)崩潰,進而影響AI模型的穩(wěn)定運行,而一旦大規(guī)模設備間出現(xiàn)故障,其定位和恢復又成了新的問題。同時,內(nèi)存、存儲和網(wǎng)絡帶寬也成為制約性能的瓶頸,導致AI大模型的效率難以充分發(fā)揮。此外,隨著AI應用的普及,數(shù)據(jù)安全與隱私保護也變成一個日益突出的社會性難題。
龍蜥智算聯(lián)盟呼之已出,推進之中存挑戰(zhàn)
正是基于我們上述算力模式轉(zhuǎn)變,產(chǎn)業(yè)面臨的異構(gòu)和生態(tài)之殤,在日前舉辦的2025開放計算技術(shù)大會(OCP)上,龍蜥智算聯(lián)盟呼之已出,并公開闡述了其核心目的。
![]()
對此,我們可以概括為三個層面,即打造“AI Native OS”,實現(xiàn)AI硬件與龍蜥操作系統(tǒng)的原生適配,從芯片層面構(gòu)建原生友好的操作系統(tǒng),消弭軟硬件間的兼容性鴻溝;降低適配復雜度,即通過降低AI硬件與龍蜥操作系統(tǒng)不同商業(yè)發(fā)行版的適配成本,讓更多的人力資源從繁瑣的兼容工作中解放出來,投入到更具價值的AI技術(shù)研究中;構(gòu)建開放兼容生態(tài),形成一個開放兼容的AI軟硬件技術(shù)和生態(tài)體系,推動國內(nèi)外AI技術(shù)創(chuàng)新和生態(tài)發(fā)展。
為此,龍蜥智算聯(lián)盟組建了多個技術(shù)工作組,在兼容測試、驅(qū)動維護、AI框架優(yōu)化、故障管理和人才培養(yǎng)等領域協(xié)同推進。
以兼容性測試為例,GPU廠商要適配不同版本的龍蜥商業(yè)版操作系統(tǒng),每次都要耗費大量的人力和設備做驗證,周期長,重復工作多。為此龍蜥智算聯(lián)盟制定了統(tǒng)一的兼容性測試基準,明確測試流程和標準,減少適配工作量,以讓GPU廠商能節(jié)省寶貴時間和成本,更專注于硬件創(chuàng)新。
又如在驅(qū)動維護方面,要讓操作系統(tǒng)順利加載不同廠商的GPU驅(qū)動,就得保持內(nèi)核接口的兼容性。針對此,聯(lián)盟推動龍蜥操作系統(tǒng)內(nèi)核主線的KABI做了超過800項更新,保障了對新GPU的支持和穩(wěn)定。此舉旨在從技術(shù)底層確保硬件生態(tài)的可持續(xù)性,但維持這種兼容性的長期成本和協(xié)調(diào)難度依然不容小覷。
而在AI框架優(yōu)化上,芯片和系統(tǒng)團隊聯(lián)合模型開發(fā)者,共同發(fā)布開源版本的AI框架,持續(xù)優(yōu)化算子庫,推動異構(gòu)算力協(xié)同,做到軟硬深度融合,真正提升AI計算性能。
除上述之外,龍蜥智算聯(lián)盟最引人注目的莫過于其目標致力于打造AI原生操作系統(tǒng)。
對此,龍蜥社區(qū)技術(shù)委員會主席楊勇認為,所謂的AI原生操作系統(tǒng),“學術(shù)界”和“工程界”有著兩種不同的理解,而龍蜥智算聯(lián)盟所倡導的AI原生操作系統(tǒng)屬于工程界的范疇,它不是用AI取代內(nèi)核,而是將“AIfor System”和“System forAI”兩種思路相結(jié)合。
![]()
楊勇進一步解釋道,“AI for System”是指利用AI能力來優(yōu)化操作系統(tǒng)本身。例如,通過智能體輔助進行系統(tǒng)運維、故障排查、安全漏洞發(fā)布等工作,讓操作系統(tǒng)變得更加智能化、自動化。而“System for AI”則是指為AI應用提供一個更好的運行環(huán)境,在操作系統(tǒng)層面深度優(yōu)化異構(gòu)算力調(diào)度、內(nèi)存管理、存儲和網(wǎng)絡等,以充分發(fā)揮AI大模型的性能。
簡單來說,AI原生操作系統(tǒng)的內(nèi)涵在于,它是一種“場景概念”和“運營方式”,旨在將AI能力深度融入操作系統(tǒng)的各個層面,使其成為一個能夠高效調(diào)度多元異構(gòu)算力、保障安全、簡化應用部署、并不斷進化的智能平臺,為大模型應用提供最肥沃的生長土壤。
當然,除了上述的推進之外,龍蜥智算聯(lián)盟在發(fā)展過程中仍面臨某些挑戰(zhàn)。
首當其沖的就是如何平衡不同廠商之間的利益與技術(shù)差異。對此,龍蜥智算聯(lián)盟主席宋卓坦承,這是一個“頗有挑戰(zhàn)的事情”。他指出,社區(qū)的天然問題是其結(jié)構(gòu)相對松散,不像一家公司內(nèi)部的項目運作那樣緊密,而要讓不同企業(yè)貢獻核心技術(shù),并達成共識,需要非常巧妙的治理機制。
![]()
事實上,在我們看來,這背后觸及的是各廠商的商業(yè)核心利益與知識產(chǎn)權(quán)壁壘等,而如何建立有效的激勵與信任機制是其能否最終成功的關(guān)鍵。
此外,當大規(guī)模集群故障頻發(fā),GPU出現(xiàn)異常時,如何快速抓取關(guān)鍵信息進行診斷,也是當下提升系統(tǒng)可靠性的難點。對此,龍蜥智算聯(lián)盟正在推動統(tǒng)一的日志格式和故障管理規(guī)范,讓集群的故障分析更高效,以降低排錯成本。而這不僅是技術(shù)標準問題,更是推動眾多廠商改變現(xiàn)有運維習慣、流程等的系統(tǒng)工程。
最后,也是最根本的挑戰(zhàn),是如何與業(yè)內(nèi)已經(jīng)成熟且處于壟斷地位的國際及國內(nèi)某些生態(tài)競爭。原因很簡單,龍蜥智算聯(lián)盟的技術(shù)路線即便再完美,最終也要面對市場的檢驗,而要吸引芯片廠商、開發(fā)者、用戶等從一個擁有數(shù)十年積累、工具鏈完善、社區(qū)龐大的生態(tài)遷移過來,不僅需要提供性能相當,甚至超越的替代方案,更需要投入巨大的資源進行市場教育、開發(fā)者支持和生態(tài)激勵等。
風物長宜放眼量,夯實智算新基石
所謂風物長宜放眼量。盡管在現(xiàn)實的推進之中存有挑戰(zhàn),但從其更長遠的未來看,通過產(chǎn)業(yè)鏈深度協(xié)同、統(tǒng)一標準與生態(tài)繁榮、成為智算普惠的加速器等,龍蜥智算聯(lián)盟最終的愿景是充當夯實智算新基石的戰(zhàn)略角色。
以產(chǎn)業(yè)鏈的深度協(xié)同為例,龍蜥智算聯(lián)盟的成員涵蓋了AI芯片、服務器、操作系統(tǒng)、大模型和應用開發(fā)等產(chǎn)業(yè)鏈上下游的20多家企業(yè)和機構(gòu),而這種全棧協(xié)同是其相較于其他聯(lián)盟和廠商的核心優(yōu)勢所在。
正如宋卓所言,龍蜥智算聯(lián)盟的一個重要目的就是“通過上下游的結(jié)合,把整個的技術(shù)棧端到端地串聯(lián)起來”。而這種協(xié)同,能夠有效地解決不同環(huán)節(jié)之間的技術(shù)瓶頸和適配問題,共同提升整個產(chǎn)業(yè)鏈的競爭力。
又如在統(tǒng)一標準與生態(tài)繁榮上,蘇志遠在采訪中提到,龍蜥智算聯(lián)盟的工作將推動統(tǒng)一操作系統(tǒng)內(nèi)核、軟件包、API和KABI(內(nèi)核應用二進制接口)等標準規(guī)范的建立。這不僅能大大降低適配成本,還能讓開發(fā)者避免重復踩坑,從而為整個AI生態(tài)的繁榮奠定堅實的基礎。
想象一下,未來開發(fā)者無需為不同廠商的AI加速卡編寫不同的代碼,只需遵循統(tǒng)一的API接口,就能輕松地在不同硬件平臺上部署和運行AI應用,這將極大地激發(fā)創(chuàng)新活力,吸引更多的開發(fā)者和企業(yè)加入到龍蜥智算生態(tài)中來。
至于成為智算普惠的加速器,楊勇稱,龍蜥智算聯(lián)盟致力于通過打造一個更通用的、更易用的智算基礎設施,將間接地為普通企業(yè)打造一個“未來AI的智能體、應用,良好運行的環(huán)境”,即通過操作系統(tǒng)深度集成最優(yōu)的推理部署框架,可以讓企業(yè)部署AI應用變得像使用微信小程序一樣方便。例如,一家中小企業(yè)想要部署一個AI客服機器人,無需了解復雜的硬件配置和軟件棧,只需在龍蜥操作系統(tǒng)平臺上進行簡單的配置,就能快速上線,這無疑將大大降低AI技術(shù)的應用門檻,加速AI普惠的實現(xiàn),讓更多企業(yè)能夠享受到大模型帶來的技術(shù)紅利。
龍蜥智算聯(lián)盟的成立,是增強國內(nèi)基礎軟件自主創(chuàng)新能力的重要舉措,即通過凝聚產(chǎn)業(yè)力量,推動關(guān)鍵技術(shù)攻關(guān)與協(xié)同創(chuàng)新,積極探索新型操作系統(tǒng)在AI計算領域的標準化工作,進而夯實數(shù)字經(jīng)濟的算力基石。
寫在最后:龍蜥智算聯(lián)盟的成立,不只是一個組織的搭建,更是AI算力基礎設施建設的一次關(guān)鍵的破局嘗試,即通過聯(lián)結(jié)芯片、系統(tǒng)、應用多方力量,以務實和開放的姿態(tài),推動AI原生操作系統(tǒng)生態(tài)的穩(wěn)步發(fā)展。
然而,在挑戰(zhàn)猶存之時,我們認為,其最終的成功不僅取決于技術(shù)路線的正確執(zhí)行和成員間的有效協(xié)同,更要看它能否在激烈的市場競爭中,真正建立起一個對開發(fā)者有足夠吸引力、開放且持續(xù)繁榮的生態(tài)系統(tǒng),加之面對復雜多變的AI技術(shù)和產(chǎn)業(yè)環(huán)境,龍蜥智算聯(lián)盟用創(chuàng)新和合作能否為中國數(shù)字經(jīng)濟和智能產(chǎn)業(yè)注入可持續(xù)發(fā)展的動力,還是讓我們拭目以待吧。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.