![]()
近日,百度智能云成功點亮昆侖芯三代萬卡集群,這也是國內(nèi)首個正式點亮的自研萬卡集群。據(jù)悉,百度智能云將進一步點亮3萬卡集群。這一重大突破標(biāo)志著百度在人工智能算力領(lǐng)域邁出了堅實的一步,不僅為百度自身的技術(shù)發(fā)展提供了強大動力,也為整個中國科技界、互聯(lián)網(wǎng)行業(yè)和AI行業(yè)帶來了新的發(fā)展機遇。
萬卡集群優(yōu)勢凸顯,助力算力突破與成本優(yōu)化
萬卡集群的建成不僅為百度帶來了強大的算力支持,還推動了模型降本的趨勢。在過去一年中,整個行業(yè)都在努力降低大模型的使用成本,而算力緊張是導(dǎo)致成本居高不下的重要因素之一。百度通過自研芯片和大規(guī)模集群的建設(shè),不僅解決了自身算力供應(yīng)的問題,還為整個行業(yè)提供了新的思路和方向。
?從算力上看,超大規(guī)模并行計算能力可實現(xiàn)訓(xùn)練效率躍升,萬卡集群可將千億參數(shù)模型的訓(xùn)練周期大幅降低,滿足AI原生應(yīng)用快速迭代的需求。同時也能支持更大模型與復(fù)雜任務(wù)和多模態(tài)數(shù)據(jù),支撐Sora類應(yīng)用的開發(fā)。此外,萬卡集群能夠支持多任務(wù)并發(fā)能力,通過動態(tài)資源切分,單集群可同時訓(xùn)練多個輕量化模型,通過通信優(yōu)化與容錯機制減少算力浪費,實現(xiàn)訓(xùn)練成本指數(shù)級下降。
?隨著國產(chǎn)大模型的興起,萬卡集群逐漸從“單任務(wù)算力消耗”到“集群效能最大化”過渡,通過模型優(yōu)化、有效訓(xùn)練率提升、動態(tài)資源分配等手段,智能調(diào)度任務(wù),將訓(xùn)練、微調(diào)、推理任務(wù)混合部署,從而提升集群綜合利用率,降低單位算力成本。
百舸賦能,全方位提升集群性能與穩(wěn)定性
過去,多芯混訓(xùn)和激增的故障率等難題,成為萬卡集群部署過程中的巨大挑戰(zhàn)。而24年9月升級的百度百舸AI異構(gòu)計算平臺4.0(以下簡稱“百舸平臺”),在萬卡集群的建設(shè)中發(fā)揮了至關(guān)重要的作用。
?首先,突破硬件擴展性瓶頸,如卡間互聯(lián)的拓?fù)湎拗疲苊馔ㄐ艓挸蔀槠款i;同時,圍繞芯片及集群功耗,基于萬卡規(guī)模常規(guī)方案功耗可達十兆瓦或更高,采用創(chuàng)新性散熱方案,從而解決萬卡集群的能效與散熱問題;完善模型的分布式訓(xùn)練優(yōu)化,采用高效并行化任務(wù)切分策略,訓(xùn)練主流開源模型的集群MFU提升至58%;在提升穩(wěn)定性方面,提供容錯與穩(wěn)定性機制,避免由于單卡故障率隨規(guī)模指數(shù)上升而造成的萬卡集群有效性大幅下降,保障有效訓(xùn)練率達到98%;最后,針對機間通信帶寬需求,建設(shè)超大規(guī)模HPN高性能網(wǎng)絡(luò),優(yōu)化拓?fù)浣Y(jié)構(gòu),從而降低通信瓶頸,帶寬有效性達到90%以上。
?百舸4.0構(gòu)建了十萬卡級別的超大規(guī)模HPN高性能網(wǎng)絡(luò),針對跨地域通信中的高延遲問題,通過優(yōu)化的拓?fù)浣Y(jié)構(gòu)、多路徑負(fù)載均衡策略及通信策略,實現(xiàn)了幾十公里的跨地域通信。在通信效率上,百舸通過先進的擁塞控制算法和集合通信算法策略,實現(xiàn)了完全無阻塞,并通過10ms級別超高精度網(wǎng)絡(luò)監(jiān)控,保障了網(wǎng)絡(luò)的穩(wěn)定性。
在多芯混訓(xùn)方面,百舸展現(xiàn)了強大的資源整合能力。它能夠?qū)⒉煌攸c、不同規(guī)模的異構(gòu)算力進行統(tǒng)一管理,構(gòu)建起多芯資源池。當(dāng)業(yè)務(wù)提交工作負(fù)載時,百舸可自動進行芯片選型,依據(jù)集群剩余的芯片資源,選擇性價比最高的芯片來運行任務(wù),從而最大化地利用集群的剩余資源,實現(xiàn)高達95%的萬卡多芯混合訓(xùn)練效能。
此外,在集群穩(wěn)定性方面,百舸提供了全面的故障診斷手段,能夠快速自動偵測到導(dǎo)致訓(xùn)練任務(wù)異常的節(jié)點故障。百度自研的BCCL(百度集合通信庫)能夠快速定位故障并提供自動化的容錯能力,將故障恢復(fù)時間從小時級降低到分鐘級,極大地提高了集群的可靠性和可用性。
?日前,花旗銀行發(fā)布研報表示,DeepSeek、百度等中國模型展現(xiàn)出高效和低成本優(yōu)勢,將有助于加速全球AI應(yīng)用開發(fā),并在全球引發(fā)更多技術(shù)創(chuàng)新,推動2025年人工智能應(yīng)用的拐點。中國工程院院士、清華大學(xué)計算機系教授鄭緯民也表示,當(dāng)下構(gòu)建國產(chǎn)自主萬卡系統(tǒng)充滿挑戰(zhàn),但"至關(guān)重要"。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.