![]()
- Top 10 智能開源模型均使用混合專家模型架構(gòu)。
- Kimi K2 Thinking、DeepSeek-R1、Mistral Large 3 等模型在 NVIDIA Grace Blackwell 機架級擴展系統(tǒng)上運行速度提升 10 倍。
如今,幾乎任一前沿模型的內(nèi)部結(jié)構(gòu)都采用混合專家(MoE)模型架構(gòu),這種架構(gòu)旨在模擬人腦的高效運作機制。
正如大腦會根據(jù)任務(wù)激活特定區(qū)域,MoE 模型將工作分配給各個專門的專家,并在每個 AI token 的生成過程中只激活與之相關(guān)的專家。這樣一來,無需成比例增加計算量,就能夠?qū)崿F(xiàn)更快速、更高效的 token 生成。
業(yè)界已認識到這一優(yōu)勢。在獨立 AI 基準(zhǔn)測試機構(gòu) Artificial Analysis(AA)的榜單上,Top 10 智能開源模型均采用 MoE 架構(gòu),包括深度求索的 DeepSeek-R1、月之暗面的 Kimi K2 Thinking、OpenAI 的 gpt-oss-120B 以及 Mistral AI 的 Mistral Large 3。
然而,大規(guī)模部署 MoE 模型并同時保持高性能向來極具挑戰(zhàn)。NVIDIA Grace Blackwell 機架級擴展系統(tǒng)通過軟硬件的極致協(xié)同設(shè)計,將硬件與軟件優(yōu)化相結(jié)合,以實現(xiàn)性能和效率最大化,從而使規(guī)模化部署 MoE 模型變得切實可行且簡便直接。
Kimi K2 Thinking MoE 模型在 AA 榜單被評為當(dāng)前最智能的開源模型。它在 NVIDIA Grace Blackwell 機架級擴展系統(tǒng)上的性能較在 NVIDIA HGX Hopper 上實現(xiàn)了 10 倍的飛躍。基于 DeepSeek-R1 和 Mistral Large 3 MoE 模型展現(xiàn)的卓越性能,這一突破性進展表明 MoE 架構(gòu)正在成為前沿模型的首選架構(gòu),同時也印證了 NVIDIA 全棧推理平臺是釋放其全部潛力的關(guān)鍵所在。
什么是 MoE,為何它已成為前沿模型的標(biāo)準(zhǔn):通過有選擇性地僅調(diào)用最重要的專家模型,MoE 模型在不增加計算成本的前提下實現(xiàn)了更高的智能水平和適應(yīng)性。這使其成為高效 AI 系統(tǒng)的基石,這類系統(tǒng)專為“每美元性能”與“每瓦特性能”而優(yōu)化,能夠在單位資金和單位能耗下產(chǎn)出顯著更高的智能價值。鑒于這些優(yōu)勢,MoE 迅速成為前沿模型的首選架構(gòu)也就不足為奇。今年以來,已有超過 60% 的開源 AI 模型采用這一架構(gòu)。自 2023 年初至今,該架構(gòu)更推動模型智能水平實現(xiàn)近 70 倍的飛躍式增長,不斷推動 AI 突破能力疆界。
通過極致協(xié)同設(shè)計突破 MoE 擴展瓶頸:前沿的 MoE 模型體量龐大且結(jié)構(gòu)復(fù)雜,無法部署在單塊 GPU 上。要運行這些模型,必須將專家分布在多塊 GPU 上,這種技術(shù)稱為“專家并行”。即使在 NVIDIA Hopper 這樣的高性能平臺上,部署 MoE 模型仍會遇到一些挑戰(zhàn)。NVIDIA Grace Blackwell 是一款機架級擴展系統(tǒng),搭載的 72 塊 NVIDIA Blackwell GPU 協(xié)同工作,可以如同單一系統(tǒng)般運行。MoE 模型能夠利用這種設(shè)計將專家并行擴展到遠超以往的極限——將專家分布在多達 72 塊 GPU 的更大規(guī)模集群中,這種架構(gòu)方法直接解決了 MoE 的擴展瓶頸。
性能體現(xiàn)在每瓦特性能上:NVIDIA Grace Blackwell 機架級擴展系統(tǒng)能夠高效擴展復(fù)雜的元學(xué)習(xí)模型,實現(xiàn)每瓦性能 10 倍的提升。這一性能飛躍不僅是標(biāo)準(zhǔn)上的突破,它使 token 收入可以實現(xiàn) 10 倍增長,徹底改變了 AI 在能效受限、成本敏感型數(shù)據(jù)中心中的規(guī)模化經(jīng)濟模型。
大規(guī)模驅(qū)動智能:NVIDIA Grace Blackwell 機架級擴展系統(tǒng)意在為除 MoE 模型之外的工作負載也提供強大的性能。將這一原理擴展至大規(guī)模部署——即多個應(yīng)用程序和智能體為眾多用戶提供服務(wù)的情境——將釋放出全新的效率水平。這種方法無需為每個智能體或應(yīng)用程序重復(fù)構(gòu)建龐大的 AI 模型,而是建立一個共享的專家池供所有系統(tǒng)調(diào)用,確保每個請求都能精準(zhǔn)路由至對應(yīng)的專家。
以上為摘要內(nèi)容,點擊鏈接閱讀完整內(nèi)容:
混合專家模型驅(qū)動最智能的前沿 AI 模型,在 NVIDIA Blackwell 系統(tǒng)上運行速度提升 10 倍 | NVIDIA 英偉達博客
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.