YouTube 博主 Jeff Geerling 近日發(fā)布了一篇博文和一段視頻,詳細(xì)介紹了他使用 Mac Studio 打造 AI 集群的體驗(yàn),主要展示了 Thunderbolt 5 接口在集群計(jì)算中的應(yīng)用。
![]()
蘋果最新 macOS 26.2 加入了 RDMA(Remote Direct Memory Access) over Thunderbolt 5 支持,這讓多臺(tái) Mac Studio 能夠像共享同一塊大內(nèi)存一樣協(xié)同工作。
簡(jiǎn)單來說,利用 RDMA,數(shù)臺(tái) Mac Studio 之間可以直接在內(nèi)存層面高速交換數(shù)據(jù),延遲明顯降低(顯著優(yōu)于傳統(tǒng)網(wǎng)絡(luò)傳輸方式)。
這次測(cè)試中,Jeff Geerling 將 4 臺(tái)配備統(tǒng)一內(nèi)存的 Mac Studio 組合成一個(gè)“集群”,合計(jì)達(dá)到 約 1.5 TB 的內(nèi)存池容量(每臺(tái)機(jī)器共享內(nèi)存,看起來像是擁有一塊巨大的虛擬內(nèi)存)。
用途與性能亮點(diǎn)
該內(nèi)存融合技術(shù)對(duì) 運(yùn)行超大 AI 模型有明顯提升,特別是模型參數(shù)巨大的推理任務(wù)上表現(xiàn)出更流暢的數(shù)據(jù)交換。
RDMA 讓各臺(tái)機(jī)器間的數(shù)據(jù)訪問延遲從數(shù)百微秒降到幾十微秒級(jí)別,極大改善了協(xié)同計(jì)算效率。
使用開源項(xiàng)目 Exo 1.0 管理集群內(nèi)的任務(wù)分配與內(nèi)存共享,是實(shí)現(xiàn)協(xié)作運(yùn)行的重要工具。
實(shí)際配置與成本
這套四機(jī)集群的硬件成本接近 4 萬美元,主要由 Mac Studio 本體構(gòu)成。
單機(jī)運(yùn)行本身就具有非常強(qiáng)的性能表現(xiàn):M3 Ultra Mac Studio 在多核計(jì)算和 AI 推理任務(wù)中不弱于某些專業(yè)服務(wù)器。
下面是一些性能測(cè)試對(duì)比:
![]()
![]()
![]()
雖然 RDMA over Thunderbolt 5 是一項(xiàng)令人振奮的進(jìn)展,但當(dāng)前仍有一些限制,比如需要手動(dòng)啟用 RDMA,且設(shè)置過程比較繁瑣。此外受限于 Thunderbolt 連接拓?fù)洌壳白疃嘀荒芡ㄟ^點(diǎn)對(duì)點(diǎn)方式交叉連接最多 4 臺(tái)機(jī)器。對(duì)比傳統(tǒng)企業(yè)級(jí)互連(例如 QSFP 或 InfiniBand),Thunderbolt 的物理插拔與連接方式還不夠成熟。
Jeff Geerling 展示了 macOS 平臺(tái)上借助 Thunderbolt 5 RDMA 構(gòu)建協(xié)同大內(nèi)存 AI 計(jì)算集群的可能性。對(duì)于研究者和開發(fā)者來說,它代表一種在桌面級(jí)硬件上實(shí)現(xiàn)超大規(guī)模模型運(yùn)行的新思路,尤其是在不依賴大量 GPU 的情況下。盡管尚有一些工程與生態(tài)限制,但這一進(jìn)展對(duì)于本地 AI 開發(fā)、HPC 協(xié)同計(jì)算都有重要參考價(jià)值。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.