最近,APPSO 終于拿到了這臺來自黃仁勛傾情推薦的個人超算,英偉達(dá) DGX Spark;到手的第一感覺,就是「小而美」。
![]()
這電腦也太小了,沒有 Mac Studio 那般笨重,可能就和 Mac Mini 差不多大;然后是銀色的亮和用來散熱的金屬絲網(wǎng)又讓它有點不一樣,是專屬的硬核美感。
,提到過一些關(guān)于這臺電腦的參數(shù),像是重量 1.2kg,尺寸大小 5.05*15*15cm。
![]()
![]()
重量:Mac Studio M4 Max 2.74kg;Mac Mini M4 0.67kg
尺寸:Mac Studio:9.5*19.7*19.7;Mac Mini:5.0*12.7*12.7
以及它的算力情況,128GB 的 GPU+CPU 融合內(nèi)存,效果媲美 RTX 5070/5070 Ti 的GB10 Grace Blackwell 超算芯片,和273 GB/s 的 LPDDR 5X 內(nèi)存帶寬標(biāo)準(zhǔn)。
![]()
說實話,本地跑,這大概是我能想到這臺 128G 內(nèi)存,GB10 顯卡算力的機(jī)器,能做的唯一事情。
所有可能涉及到隱私的內(nèi)容,無論是一份 PDF 文檔,還是圖片,這些文字和圖片,甚至視頻,我都可以放心地丟給這臺電腦。把 Wi-Fi 關(guān)掉,打開部署好的項目,加載已下載的開源模型,一切它都可以在本地處理。
但本地處理意義大嗎,ChatGPT 有段時間都快成我的日記本了,我什么都會跟它說。聯(lián)不聯(lián)網(wǎng),對普通的個人消費(fèi)者來說,好像真算不上特別有意思的賣點。
真正上手之后,發(fā)現(xiàn)三萬塊的價格好像也還行,Linux 的 Ubuntu 操作系統(tǒng)也不算太難用,一直被詬病的帶寬速度,在看著它生成的回答,一個一個字吐出的時候,能感受到,是有影響。但超強(qiáng)的算力和充足的內(nèi)存,真的能蓋過這些等待的時間嗎?
目前,這臺電腦在京東等電商平臺上也能檢索到,我們可以花 32000 元左右的價格,把你的個人超算帶回家。
![]()
但是,值不值得帶回家,帶回家可以做點什么,跟著我們這幾天的使用體驗一起來看看,一臺未來的 AI 電腦,究竟該是什么樣。
太長不看版:
這是一臺差不多 Mac Mini 大小,但擁有 128GB 統(tǒng)一內(nèi)存、搭載英偉達(dá) GB10 芯片的 Linux 桌面主機(jī)。
它能本地運(yùn)行最高 2000 億參數(shù)的模型,對大模型進(jìn)行微調(diào)、推理測試,搭建各種 AI 工具,沒網(wǎng)也能生圖,AI 性能強(qiáng)勁。
雖然不是一臺通用電腦,但完整的全棧 AI 開發(fā)環(huán)境,讓它更適合 AI 相關(guān)的研究員、開發(fā)者、和極客玩家,快速復(fù)現(xiàn)各種前沿論文、驗證想法。而與深度學(xué)習(xí)無關(guān)的 AI 項目,像剪視頻、打游戲,是不太推薦。
![]()
生圖自由、生視頻自由,萬物皆可部署
最高支持 2000 億參數(shù),這意味著開源市場上的很多模型,現(xiàn)在都可以直接放到這臺電腦上運(yùn)行。
能夠部署本地大模型的平臺很多,有比較常見的有開源的 Open WebUI,還有閉源免費(fèi)的 LM Studio。我們采用了 Open WebUI,它支持 Ollama 等專為在本地計算機(jī)上,高效運(yùn)行大型語言模型的開源框架。
![]()
在 Ollama 官網(wǎng),提供了豐富的開源模型下載|https://ollama.com/models
我們首先部署了 OpenAI 的 gpt-oss 20b 來看看效果如何,這個速度我只能說中規(guī)中矩,算是能用的狀態(tài)。
![]()
設(shè)備同時在處理視頻生成任務(wù)
接著下載 65G 的 gpt-oss 120b 模型,很明顯能感受到 DGX 的壓力了,無論是思考的時間,首詞元的生成時間,以及詞元的處理速度都慢慢降下來了,比我們的閱讀速度要慢上不少。
老黃說支持 2000 億,于是我們嘗試用 142GB 的 Qwen 3:235b,2350 億參數(shù)的模型,結(jié)果就是,用不了幾秒,整個進(jìn)程就被強(qiáng)制結(jié)束了。
我們繼續(xù)測試生圖、生視頻、還有生 3D 模型,Comfy 是開源生圖平臺里面最好用的,直接使用里面的模板工作流,只需要下載好模型文件,并放在對應(yīng)的文件夾,例如有負(fù)責(zé) LoRA、文字編碼解碼、以及 Diffusion 擴(kuò)散模型等。
![]()
下載對應(yīng)的擴(kuò)散模型和音頻、LoRA 模型等到本地,就能離線生成 AI 視頻
鑒于現(xiàn)在在閉源的 Google Veo 3.1 做視頻生成都需要抽卡,開源模型的表現(xiàn)就更需要好的提示詞控制。在最終的效果之外,視頻生成的速度還是一個大問題。
![]()
而即便是 128GB 的內(nèi)存,當(dāng)被要求生成一個 10s,240 幀的視頻時,使用騰訊混元 1.5 視頻生成模型,硬是把這臺電腦的內(nèi)存全部榨干了,GPU 利用率到了 96%,內(nèi)存使用也到了接近 90 GB。
我算是能明白為什么奧特曼要暫時停掉 Sora 2 的工作,全力研發(fā)模型,這視頻生成太費(fèi)算力了。
生圖方面的選擇就更多一點,有 Qwen、FLUX、還有 Z-Image 這些,表現(xiàn)都算不錯,而且生成速度也不算太慢。
![]()
提示詞:動漫風(fēng)格,杰作,吉卜力工作室風(fēng)格。一臺巨大的銹跡斑斑的戰(zhàn)斗機(jī)甲半埋在郁郁蔥蔥的綠色草地中,機(jī)甲上覆蓋著鮮艷的野花和厚厚的苔蘚,大自然正在重新接管科技。電影般的廣角鏡頭,明亮藍(lán)天中的巨大積雨云,柔和陽光穿透其中,有鏡頭光暈效果,田園詩般寧靜祥和的氛圍,高細(xì)節(jié)。
英偉達(dá)官方專門為上手 DGX Spark 提供了一份詳細(xì)的 Playbook,里面有全面的各種部署方式,無論是連接到另一臺 Mac,還是使用兩臺 DGX Spark 一起來運(yùn)行項目。
之前在評測分享中,我們提到的知識圖譜、視頻總結(jié)等,都在這份玩法大全里。我們也部署了一個自己的知識圖譜,可以持續(xù)上傳新的知識進(jìn)去,采用的大語言模型,會自動根據(jù)新增加的內(nèi)容,對知識圖譜進(jìn)行更新。
![]()
知識圖譜看起來還是有點酷,還能 3D 顯示|更多玩法詳見 Playbook:
https://build.nvidia.com/spark
微調(diào)是什么,能調(diào)出一個 DeepSeek R2 嗎?
部署這些已有的大模型到本地,可能還是差點意思,有超算在手里,我是不是也能訓(xùn)練一個 DeepSeek R2 出來。
真不能,先不說我們用的大模型訓(xùn)練,需要超級龐大的訓(xùn)練集和算法設(shè)計;再者是這些預(yù)訓(xùn)練所花費(fèi)的算力資源,不是一臺桌面超算就能解決的。
那微調(diào)呢,大家都在說對這些已經(jīng)預(yù)訓(xùn)練的大模型進(jìn)行微調(diào),是不是能提升模型的性能表現(xiàn)。
![]()
微調(diào)|圖片來源:動手學(xué)深度學(xué)習(xí)
微調(diào)指的是通過調(diào)整通用大模型的參數(shù),使用監(jiān)督學(xué)習(xí)或者強(qiáng)化學(xué)習(xí)的方法,在特定的數(shù)據(jù)集上進(jìn)行訓(xùn)練,優(yōu)化大模型在這些特定任務(wù)上的表現(xiàn)。
我們使用開源框架 LLaMa Factory 微調(diào)了 Llama 3,這個開源到一半,然后就被腰斬的模型,看看能不能微調(diào)它會有什么效果。
同樣地,按照英偉達(dá)官方的指引和公開的微調(diào)配置,即 LoRA(Low-Rank Adaptation) 。如果有部署過 Stable Dif fusion 的經(jīng)驗,LoRA 應(yīng)該并不陌生,它是一種高效微調(diào)的技術(shù),不用微調(diào)整個大語言模型的參數(shù),只訓(xùn)練極小一部分新增的參數(shù)。
![]()
LLaMa Factory 開源工具提供了 DeepSeek、Qwen 等模型的監(jiān)督微調(diào) LoRA 配置文件
在這里 LLaMa Factory 提供的 Llama 3 微調(diào)配置文件中,這里采用的微調(diào)數(shù)據(jù)集是 dataset:identity,alpaca_en_demo,其中 identity 這個數(shù)據(jù)集,通常是用于修改模型的自我認(rèn)知。
![]()
例如,當(dāng)我們問他「你是誰」,原版 Llama-3 會說「我是 Meta 開發(fā)的 Llama」。通過這個數(shù)據(jù)集,你可以把它改成「我是 APPSO 開發(fā)的助手」,并且對語氣之類的進(jìn)行修改。alpaca_en_demo 則是一個通用的指令微調(diào)數(shù)據(jù)集。
![]()
模型微調(diào)的訓(xùn)練批次大小 batch-size 僅設(shè)置為 1,所以統(tǒng)一內(nèi)存還很富余
整個微調(diào)的過程還是很迅速的,80 億參數(shù)的大模型,但是 lora_rank,秩只設(shè)置為 8,在微調(diào)里面算是比較小的修改,常見通常是 16, 32, 64;所以花了一個小時左右的時間,就微調(diào)好了。
![]()
上下滑動查看更多內(nèi)容, 更多的模型微調(diào)指南|https://github.com/datawhalechina/self-llm
微調(diào)好的模型可以進(jìn)一步打包、導(dǎo)出,應(yīng)用到可視化的軟件中。
什么人適合用 DGX Spark
DGX Spark 特別好的一點是,它提供了豐富的全棧軟件工具,涵蓋了 NVIDIA 工具、框架、庫和預(yù)訓(xùn)練模型等,全套的 AI 工作負(fù)載解決方案。
舉個例子,如果我們只有一塊 5090,希望用它來部署一個生圖模型,我們要自己解決安裝 PyTorch、CUDA、cuDNN 這些光是聽起來就有夠頭大的內(nèi)容。
而且他們還有復(fù)雜的版本依賴關(guān)系,例如 xx 版本的 PyTorch 只能支持某個版本的 CUDA(英偉達(dá)開發(fā)的計算架構(gòu)),而 CUDA 又有對應(yīng)的 cuDNN 版本,更不用說里面還有各種工具包的相互依賴。
![]()
不過萬事開頭難,解決了復(fù)雜的環(huán)境配置,DGX Spark 能更快的實現(xiàn)各種項目;無論是部署大模型,還是對技術(shù)要求更高的模型訓(xùn)練、微調(diào)等。
但這些應(yīng)用,很明顯都需要一定的計算機(jī)學(xué)科專業(yè)知識。即便 AI 能幫我們解決大多數(shù)的問題,當(dāng)問題發(fā)生時,我們還是需要有能定位到問題的能力。
像是如果你要在這臺電腦上安裝 Chrome,從官網(wǎng)下載安裝包,在終端中使用默認(rèn)的安裝命令,它會提示架構(gòu)不對,無法安裝。
![]()
是的,至今 Google 都沒有推出 arm64 架構(gòu)的 Linux 版 Chrome 瀏覽器,只為 amd64 打包。
就從軟件安裝這一點上,不是 Windows 常見的雙擊 exe,macOS 的拖動到軟件文件夾,是 Linux 操作系統(tǒng)里面命令行,甚至不能用大部分電腦采用的 amd64 軟件(Intel/AMD 芯片常見的都是 amd64 架構(gòu),M 系列是 arm64 架構(gòu))。
我們的觀察,英偉達(dá) DGX Spark 的定位,仍然還是就讀計算機(jī)相關(guān)專業(yè)的學(xué)生、獨(dú)立開發(fā)者、以及喜歡搗鼓且有能力的極客玩家們。
如果你是計算機(jī)系在讀的學(xué)生或者研究員,這臺電腦確實能幫你很快地,運(yùn)行各種深度學(xué)習(xí)項目。
![]()
在計算機(jī)視覺方向上,一些檢測、定位和識別的任務(wù);還是自然語言處理中,有關(guān)語音、文字方面的工作,DGX Spark 都可以很好地,復(fù)現(xiàn)前人工作、和運(yùn)行自己項目代碼。
當(dāng)然,現(xiàn)在大部分的學(xué)校/企業(yè)也有自己的超算中心,盡管有時候可能需要排隊,在第三方的云平臺上運(yùn)行代碼也并不少見。
我們也從 GitHub 上找了一個項目,如果你復(fù)現(xiàn)過其他人的項目,會發(fā)現(xiàn)配置環(huán)境是最煩的,還有一個報錯「CUDA Out Of Memory」,相信大多數(shù)的學(xué)生都碰到過。
![]()
大多數(shù)的深度學(xué)習(xí)項目,DGX Spark 都不會遇到內(nèi)存不夠的問題。
今年基于 AI 的產(chǎn)品真的不少,蘋果今年的最佳應(yīng)用 CapWords 利用的就是 AI,隨手拍張照就能把身邊的東西轉(zhuǎn)成單詞卡,很有 Nano Banana Pro 生圖的感覺。
App Store 上還有日語學(xué)習(xí)、單詞背誦、待辦事項、全局翻譯等等各類軟件,其中很多人都是獨(dú)立開發(fā)者,對他們來說,這樣一臺電腦又能帶來什么。
把 DGX 作為 AI 的流量服務(wù)器顯然不太現(xiàn)實,128GB 的內(nèi)存能同時處理的請求相當(dāng)有限,大多數(shù)獨(dú)立開發(fā)者還是采用購買的 API 來提供 AI 服務(wù),或者設(shè)備端側(cè)服務(wù)接口。
![]()
而項目開發(fā),大廠程序員主流又是用 Macbook Pro,畢竟如果一個 App 要上架 App Store,沒有 Xcode 也做不到。
拿它來開發(fā)自己的模型,這可能會是一個比較熱門的方向。現(xiàn)在經(jīng)過 API 調(diào)用的 AI,最多只能在提示詞方面來進(jìn)行個性化,例如賦予它某個角色,要求他完成某種指令。
微調(diào)之后的模型,在某種程度上,能夠得到更可控的輸出,和更安全的保障。尤其是針對一些特定的行業(yè),例如在法律行業(yè),有像北大法寶這樣通過繼續(xù)預(yù)訓(xùn)練,法律場景微調(diào)得到的中文法律大模型;還有在醫(yī)療健康領(lǐng)域,比如最近熱門的螞蟻阿福……
![]()
上下滑動查看更多內(nèi)容, 不止微調(diào),使用 DGX Spark 來完成推理、做數(shù)據(jù)科學(xué)方面的工作也可以
在 AI 研究員和開發(fā)者之外,一些極客愛好者可能也會喜歡這臺設(shè)備。有段時間很流行這個梗,說中年男人的三大愛好,充電頭、路由器和 NAS。
很多人可能會覺得,這會不會也是一個 NAS 之類的產(chǎn)品。我家的 NAS 可以當(dāng)作我的服務(wù)器,我不用把數(shù)據(jù)保存在某某網(wǎng)盤,而是放在 NAS 上,我一樣隨時能訪問,安全不限速。
這臺個人超算我也可以放在家里,當(dāng)作我的服務(wù)器,它有 4T 的存儲空間,128GB 的 CPU+GPU 融合內(nèi)存,我不用訪問 ChatGPT 的網(wǎng)站,而是直接把數(shù)據(jù)傳到這臺 DGX 上處理。
![]()
和 DGX Spark 連接了同一個 Wi-Fi 網(wǎng)絡(luò)的設(shè)備,無論手機(jī)還是電腦,都可以直接使用 Comfy 端口號 8188,Open WebUI 端口號 8080 等,使用 DGX 的算力來完成文本/圖片/視頻生成
確實是可以這么做,但開源模型的性能表現(xiàn)是一方面,另一方面是 DGX 的生成速度,顯然是比不上我們直接用商業(yè)模型的體驗,綜合下來,放在家里作為算力中心,用來體驗 AI 模型看起來是比較雞肋。
個人超算這個 Title 聽起來很唬人,超算是怎么和個人能聯(lián)系起來的,老黃可能會說,它能放在你的桌子上。
聽?wèi)T了各種 AI 手機(jī)、AI 眼鏡、AI 手表,AI 電腦好像很難用電腦上 AI 功能來做賣點。
所以,從 AI 硬件的各項配置入手來打造 AI 電腦,不失為一種新的方式。但 DGX Spark 又顯然不是,能簡單到用「電腦」兩個字來概括。「超算」才是更適合它的定位,極致的性能,超強(qiáng)的顯卡,豐富的 AI 開發(fā)生態(tài)。
加上「個人」,我想英偉達(dá)至少是開始在探索,AI 時代,我們需要的一臺計算機(jī)會不會就是這樣子。
大家有什么點子,歡迎在評論區(qū)分享,我們來實現(xiàn),一起榨干這臺個人超算的能力。
歡迎加入 APPSO AI 社群,一起暢聊 AI 產(chǎn)品,獲取,解鎖更多 AI 新知
我們正在招募伙伴
簡歷投遞郵箱hr@ifanr.com
?? 郵件標(biāo)題「姓名+崗位名稱」(請隨簡歷附上項目/作品或相關(guān)鏈接)
![]()
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.