新年伊始,備受矚目的華為ICT大賽挑戰賽又有新進展。1月4日,來自全國多所知名高校的參賽隊伍正式提交了初賽技術方案。這些方案其實就是參賽答卷。不久后,賽事評委們將根據這些方案進行評分,并選出最終晉級決賽的隊伍名單。
小棗君之前曾經給大家介紹過華為ICT大賽挑戰賽。這個比賽是華為ICT大賽的五大賽項之一,專門針對“超智融合(超算+智算)”主題,僅面向國內高校開放報名。
比賽以國產算力平臺(昇騰和鯤鵬)為核心,重點考察參賽隊伍在系統優化、算法調優方面的綜合能力,極具創新性和挑戰性,吸引了業界的廣泛關注。
本次初賽方案提交,不禁讓人對初賽的賽題內容產生了興趣——初賽到底考了些什么呢?難度大不大呢?該如何進行準備?
接下來,我們就對賽題進行一個全方位的解讀。
▉ 挑戰賽初賽賽題分析
華為ICT大賽挑戰賽分為初賽和決賽兩個階段,初賽采用線上的方式進行。比賽主辦方會公布4道賽題,參賽隊伍需要針對這4道賽題,提出相應的優化方案,并線上提交。
這4道賽題,具體是:
![]()
可以看出,第1題是基于鯤鵬CPU進行優化,第2-4題是在昇騰NPU上進行優化。這些賽題既涵蓋了超算性能評估、算子優化等基礎領域,又涉及大語言模型推理加速、新型大模型架構開發等前沿技術方向,對參賽隊伍的知識儲備和技術實力提出了全方位的考驗。
我們先看第1題——HPCG優化。
HPCG,是指High Performance Conjugate Gradient(高性能共軛梯度基準測試)。
大家都聽說過手機的“跑分”測試,超算也有自己的“跑分”測試。HPCG就是屬于其中一種。
HPCG用于評估超級計算機在非結構化稀疏線性代數計算中的性能。相比另一種傳統的HPL(High Performance Linpack,聚焦稠密矩陣計算)基準測試,HPCG更貼近真實科學計算、工程模擬的負載特征(如流體力學、有限元分析、地球物理模擬等)。
在超算領域,HPCG優化賽題非常經典,幾乎每年都被各類競賽所采用。在鯤鵬HPC平臺上的各類性能優化競賽上,HPCG優化也是“常客”。
挑戰賽初賽階段,要求參賽隊在鯤鵬CPU上進行HPCG優化,并且限定了編譯器、進程和線程的并行編程模型。我們可以把這道題看成一道“開胃菜”,難度適中。
再來看第2題——Pdist算子優化。
在神經網絡的計算圖中,每個節點就是一個算子,它是模型中最基本的計算單元。整個深度學習模型,可以看作是一個由數據和算子構成的有向無環圖。算子接收一個或多個張量作為輸入,執行特定運算后,產生一個或多個張量作為輸出。
Pdist是機器學習、計算機視覺、自然語言處理等領域的基礎算子,廣泛用于聚類(如DBSCAN)、度量學習、目標跟蹤、特征匹配等任務。Pdist算子優化,是一個平臺性能優化的基礎。
昇騰原生支持Pdist算子,并且在芯片硬件架構(如達芬奇架構的 Cube/Vector 計算單元)上進行了充分適配,可以通過算子級優化(如數據分塊、并行計算)提升計算效率。
賽題要求參賽隊在昇騰處理器上實現并優化Pdist算子,達到賽題任務書所要求的精度,并根據性能進行排名。
整體來說,這道題的難度相對較小。作為昇騰NPU上的第一道賽題,也算是一道“熱身題”。完成這道賽題,會有利于拓展思路,更好地完成后面的賽題。
第3題,推理引擎加速。
近兩年,大語言模型(LLM)從十億參數發展到千億參數級別,已在對話問答、代碼生成、搜索增強、Agent編排、垂直領域知識問答等場景廣泛落地。
模型規模越大,帶來的問題也越多。例如:
計算量巨大:一次完整長上下文生成包含多輪解碼;
延遲敏感:在線對話、搜索推薦、交互式編程對響應時間非常敏感;
成本敏感:大規模部署需要在有限GPU/NPU資源下盡可能提升吞吐。
因此,業界一直在不斷優化LLM推理系統,包括引入vLLM、SGLang等高性能推理框架,通過KV Cache復用、張量并行、連續批處理等手段,提升生成吞吐。
第3道賽題,是前一道算子優化賽題的進一步擴展和延伸,要求參賽隊針對推理采樣后處理階段進行優化,達成端到端推理加速的目的。
賽題任務書推薦了采用Triton融合算子進行加速的方法,同時也歡迎參賽隊提出其他有效的優化方法。
基于第2和第3題,參賽隊會發現,CANN(Compute Architecture for Neural Networks,華為針對AI場景推出的異構計算架構)的算子優化能力對于在昇騰NPU上進行AI模型性能優化非常關鍵。
作為昇騰AI全棧解決方案的核心,CANN發揮著承上啟下的作用。
![]()
它提供了完善的工具鏈,支持將PyTorch、TensorFlow等框架的模型快速遷移到昇騰平臺進行高效訓練和推理。它還擁有超過1400個高性能原生算子,以及配套的Ascend C編程語言,可以很方便地進行融合算子的開發。
華為在2025年8月正式宣布CANN全面開源。通過代碼開放、技術賦能和社區運營,已經構建了一個能夠與主流生態競爭的、充滿活力的昇騰AI生態系統。這也是本次挑戰賽能夠舉辦的重要前提。
第4題,Diffusion LLM單卡推理優化(基于昇騰NPU進行優化)。
最后一道賽題,由xLLM團隊為本次挑戰賽精心設計。這不僅體現了xLLM與昇騰團隊的深入合作,也體現出xLLM團隊對于高校人才生態的重視。
xLLM是一款高效的開源大語言模型推理引擎,基于國產人工智能芯片進行了深度優化,可實現企業級部署,兼具更高效率與更低成本。
xLLM采用服務-引擎分離的推理架構,通過多項技術實現效率突破:服務層包含在離線請求彈性調度、動態PD分離、面向多模態的混合EPD機制及高可用容錯能力;引擎層則融合多流并行計算、圖融合優化、投機推理、動態負載均衡與全局KV緩存管理等技術。
Diffusion LLM(dLLM)是近年來興起的新型大模型架構,通過擴散過程生成文本,與傳統自回歸模型有顯著差異。
本賽題要求參賽隊基于xLLM,對LLaDA-MoE-7B-A1B-Instruct進行開發優化,實現在昇騰910B單卡上的高效推理。
這有一定的難度,要求參賽隊伍不僅要熟悉昇騰NPU的硬件特性,還需深入理解Diffusion LLM的獨特架構與運行機制。xLLM推理引擎的分離架構設計,為參賽隊伍提供了靈活的優化空間,尤其是在服務層與引擎層的協同優化上,如何平衡資源調度、提升并行計算效率、減少內存占用,將成為關鍵挑戰。
以上,就是關于4道初賽賽題的介紹。
總的來說,這些賽題不僅全面考察了參賽隊伍在AI計算領域的綜合技術能力,還通過不同難度層次的設置,引導隊伍逐步深入探索昇騰NPU的優化潛力。從HPCG優化到Pdist算子實現,再到推理引擎加速與Diffusion LLM單卡推理,四道賽題形成了一個由淺入深、從基礎到創新的完整技術鏈條,為參賽者提供了充分展示技術實力的舞臺。
賽題雖然有一定的專業性,但內容也是開放的。在開源社區以及其它互聯網平臺,都可以找到參考文檔、論文和源碼。借助AI工具,也可以獲得很多的幫助和支持。相對一些傳統的超算賽事,這個比賽顯然更具開放性,為更多學校參與進來創造了條件。
▉ 結語
華為ICT大賽挑戰賽并不僅僅是一場大學生專業技術競賽。它旨在踐行“以賽促訓、以賽促學、以賽促用”的理念,通過搭建高水平競技平臺,激發高校學子對國產算力平臺及相關技術的興趣與熱情,助力專業人才培養。同時,賽事的舉辦,也能推動國產算力在高校中的普及應用,進一步促進生態體系的成熟完善。
不久后,晉級決賽的名單即將公布。究竟哪些高校團隊能夠順利挺進下一輪,決賽賽題又會有怎樣的設計?讓我們拭目以待!
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.