網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

不上云、不租卡，如何優(yōu)雅地在本地微調(diào)Qwen-VL-30B？

2026-01-13 12:57:27　來(lái)源: 機(jī)器之心Pro

北京舉報(bào)

分享至

編輯｜Panda

假如你是一個(gè)致力于將 AI 引入傳統(tǒng)行業(yè)的工程團(tuán)隊(duì)。現(xiàn)在，你有一個(gè)問(wèn)題：訓(xùn)練一個(gè)能看懂復(fù)雜機(jī)械圖紙、設(shè)備維護(hù)手冊(cè)或金融研報(bào)圖表的多模態(tài)助手。這個(gè)助手不僅要能專業(yè)陪聊，更要能精準(zhǔn)地識(shí)別圖紙上的零件標(biāo)注，或者從密密麻麻的財(cái)報(bào)截圖中提取關(guān)鍵數(shù)據(jù)。

首先，你需要選擇一個(gè)合適的模型。

7B 參數(shù)的小模型雖然跑得快，但「腦容量」太小，面對(duì)復(fù)雜的圖文邏輯經(jīng)常一本正經(jīng)地胡說(shuō)八道；而 70B 甚至更大的模型雖然聰明，但部署和推理成本直接勸退了客戶。最后，你可能發(fā)現(xiàn) 30B 參數(shù)級(jí)的開(kāi)源多模態(tài)模型（例如 Qwen-VL-30B）是個(gè)不錯(cuò)的選擇。

30B 被稱為大模型的黃金尺寸：它在理解能力上遠(yuǎn)超小模型，又比巨型模型輕量，是企業(yè)私有化部署的完美平衡點(diǎn)。

不過(guò)呢，你可能也會(huì)發(fā)現(xiàn)，「30B 參數(shù)」也是一個(gè)極具欺騙性的數(shù)字。

在純文本時(shí)代，一張前沿的消費(fèi)級(jí)顯卡或許還能勉強(qiáng)塞下 30B 的推理。但在多模態(tài)（Vision-Language）場(chǎng)景下，事情完全變了。當(dāng)模型需要處理高分辨率圖像時(shí)，視覺(jué)編碼器會(huì)產(chǎn)生大量的視覺(jué) Token；而為了讓模型真正懂行業(yè) Know-how，必須用數(shù)千張有標(biāo)注圖像進(jìn)行 LoRA 微調(diào)。

這就意味著，除了模型本身的權(quán)重，我們還需要在顯存里塞進(jìn)梯度、優(yōu)化器狀態(tài)以及訓(xùn)練過(guò)程中的激活值。

原本以為只是「稍微大一點(diǎn)」的任務(wù)，瞬間撞上了物理學(xué)的墻。

這些方案不太行

如果你的開(kāi)發(fā)環(huán)境是頂級(jí)消費(fèi)級(jí)旗艦，擁有 24 GB 的超大顯存，但在這次的任務(wù)面前，它顯得如此無(wú)力。

當(dāng)你嘗試啟動(dòng)微調(diào)腳本時(shí)，終端里那行熟悉的紅色報(bào)錯(cuò)如期而至：

RuntimeError: CUDA out of memory.

對(duì)于 30B 多模態(tài)模型的微調(diào)來(lái)說(shuō)，24 GB 的顯存就是不夠。為了讓程序跑起來(lái)，你可能會(huì)選擇犧牲性能，比如：

Batch Size 降到 1：哪怕訓(xùn)練速度慢到像蝸牛爬。
開(kāi)啟梯度檢查點(diǎn)：這是一個(gè)典型的「時(shí)間換空間」策略，通過(guò)不緩存中間激活值而是在反向傳播時(shí)重算，來(lái)節(jié)省顯存。但這讓訓(xùn)練時(shí)間直接翻倍。
極限量化：將模型量化到 4-bit 甚至更低。但這也會(huì)帶來(lái)新的問(wèn)題：對(duì)于精密圖紙的識(shí)別，量化后的模型精度下降明顯，連零件號(hào)都經(jīng)常認(rèn)錯(cuò)。

即使做了所有這些妥協(xié)，只要稍微喂進(jìn)去一張分辨率高一點(diǎn)的圖表，顯存還是瞬間溢出，程序直接崩潰。那種「只差一點(diǎn)點(diǎn)就能跑通」的挫敗感，最是折磨人。

「要不試試隔壁美術(shù)組那臺(tái) Mac Studio？」你可能會(huì)這樣想。那臺(tái)機(jī)器擁有 128 GB 統(tǒng)一內(nèi)存（Unified Memory）。從硬件上看，這簡(jiǎn)直是完美的救星 —— 別說(shuō) 30B，就是 70B 也能塞得下。

但當(dāng)你興沖沖地把代碼拷過(guò)去，才發(fā)現(xiàn)這是另一個(gè)深坑。

首先是環(huán)境配置的噩夢(mèng)。開(kāi)源社區(qū)的主流多模態(tài)模型（尤其是涉及底層 CUDA 優(yōu)化的視覺(jué)算子）在蘋果芯片上的適配往往慢半拍。你可能會(huì)花不少時(shí)間解決各種編譯報(bào)錯(cuò)，好不容易跑通了推理，卻發(fā)現(xiàn)訓(xùn)練速度受限于優(yōu)化，效率遠(yuǎn)不及預(yù)期。

更致命的是「生態(tài)隔離」。在 Mac 上微調(diào)出的模型檢查點(diǎn)，想要部署回公司的 Linux 服務(wù)器（基于 NVIDIA GPU）上，需要進(jìn)行繁瑣的格式轉(zhuǎn)換和精度對(duì)齊。這種開(kāi)發(fā)環(huán)境與生產(chǎn)環(huán)境的割裂，對(duì)于追求快速迭代的工程團(tuán)隊(duì)來(lái)說(shuō)，是不可接受的風(fēng)險(xiǎn)。

那么，你到底需要什么？

難道為了跑通這個(gè) 30B 模型，你真的要走漫長(zhǎng)的合規(guī)流程去申請(qǐng)昂貴的 A100 云實(shí)例，時(shí)刻防范私密數(shù)據(jù)出域的風(fēng)險(xiǎn)？又或者，僅僅為了這一個(gè)開(kāi)發(fā)項(xiàng)目，就專門配置一個(gè)高成本的工作站，甚至去采購(gòu)一臺(tái)必須安置在專業(yè)機(jī)房、且維護(hù)成本高昂的機(jī)架式服務(wù)器？

你需要這樣一臺(tái)機(jī)器：它要有 Mac Studio 那樣海量的統(tǒng)一內(nèi)存，讓你不再為顯存精打細(xì)算；它同時(shí)又必須流淌著純正的 NVIDIA 血液，擁有原生的 CUDA 生態(tài)，讓代碼無(wú)縫遷移。

這個(gè)「既要又要」的幻想，直到一臺(tái) 1 升體積的小盒子的出現(xiàn)，才變成了現(xiàn)實(shí)。

桌面上的一升解決方案

這個(gè)盒子就是聯(lián)想 ThinkStation PGX

如果你關(guān)注過(guò)英偉達(dá)之前的動(dòng)作，可能會(huì)覺(jué)得眼熟。沒(méi)錯(cuò)，聯(lián)想 ThinkStation PGX 在核心配置上與 NVIDIA DGX Spark 完全一致。

準(zhǔn)確地說(shuō)，ThinkStation PGX 正是英偉達(dá) DGX Spark 的 OEM 量產(chǎn)版本。英偉達(dá)已將這一參考設(shè)計(jì)授權(quán)給了聯(lián)想等廠商，由它們負(fù)責(zé)具體的工程化制造與差異化定制。

這臺(tái)機(jī)器最直觀的沖擊力來(lái)自于它的尺寸：僅有 1 升（1L）。它小到可以輕松塞進(jìn)通勤背包，放在辦公桌的一角幾乎沒(méi)有存在感。但就在這方寸之間，聯(lián)想塞進(jìn)了一顆基于 NVIDIA Grace Blackwell 架構(gòu)的 GB10 超級(jí)芯片。

而對(duì)于被顯存折磨得死去活來(lái)的開(kāi)發(fā)者來(lái)說(shuō)，它最性感參數(shù)是：128 GB 統(tǒng)一內(nèi)存（Unified Memory）

這不僅僅是數(shù)字的勝利，更是架構(gòu)的勝利。ThinkStation PGX 的統(tǒng)一內(nèi)存架構(gòu)允許 CPU 和 GPU 共享這 128 GB 的海量空間，且可通過(guò) NVLink-C2C 技術(shù)實(shí)現(xiàn)高速互聯(lián)。這意味著，開(kāi)發(fā)者終于可以在桌面上擁有接近甚至超越專業(yè)級(jí)計(jì)算卡（如 H100 80GB）的顯存容量。

除了核心算力，在數(shù)據(jù)存儲(chǔ)方面，聯(lián)想貼心地提供了 1TB 和 4TB 兩個(gè)存儲(chǔ)版本。對(duì)于大部分只是想快速驗(yàn)證模型原型的開(kāi)發(fā)者，1TB 版本足矣；而對(duì)于需要本地存放海量訓(xùn)練數(shù)據(jù)（如醫(yī)療影像、自動(dòng)駕駛點(diǎn)云或數(shù)萬(wàn)張高清圖紙）的團(tuán)隊(duì)來(lái)說(shuō)，4TB 版本顯然是更具安全感的選擇。

更關(guān)鍵的是，它是一臺(tái)「原生」的 AI 機(jī)器。預(yù)裝了NVIDIA AI軟件棧，底層運(yùn)行的是開(kāi)發(fā)者熟悉的 Linux 系統(tǒng)，跑的是最純正的 CUDA 環(huán)境。

接下來(lái)，就讓我們親手試一試這樣顯存巨大的性能小猛獸吧。

首先，掂一掂重量，著實(shí)非常小巧，甚至比 Mac mini M1 還小一些。同時(shí)，它的設(shè)計(jì)也非常精致，采用了標(biāo)志性的蜂窩狀散熱設(shè)計(jì)，不僅看起來(lái)科技感十足，更是為了保證進(jìn)風(fēng)效率。

接下來(lái)，把 ThinkStation PGX 連上顯示器，通電開(kāi)機(jī)，先來(lái)看看基本信息。

在終端輸入 nvidia-smi，可以看到顯卡型號(hào)是 NVIDIA GB10，CUDA 版本為 13.0。但這里有一個(gè)有趣的細(xì)節(jié)：在 Memory-Usage 一欄，它顯示的是 Not Supported。

為什么不支持？其實(shí)，這反而是最大的利好。

在傳統(tǒng)的獨(dú)立顯卡（如 RTX 4090）上，顯存是獨(dú)立的，所以會(huì)顯示具體 MiB 數(shù)值。這里的「Not Supported」以及下面進(jìn)程列表里能顯示顯存占用（如 Firefox 用了 230MiB），直接證明了它是統(tǒng)一內(nèi)存（Unified Memory）架構(gòu)。

是的，PGX 的 GPU 沒(méi)有自己封閉的小顯存墻，而是直接訪問(wèn)系統(tǒng)的大內(nèi)存池。

接下來(lái)我們將通過(guò)一個(gè)真實(shí)的微調(diào)場(chǎng)景來(lái)檢驗(yàn)這臺(tái)機(jī)器的能力。

首先，我們選擇的模型是完整版的 Qwen3-VL-30B-A3B-Instruct。

糟糕的網(wǎng)速下等待 1 個(gè)多小時(shí)，下載完成。而為了微調(diào)模型，我們還需要一個(gè)數(shù)據(jù)集，這里我們選擇是的 lyan62 發(fā)布的 FoodieQA 數(shù)據(jù)集。據(jù)介紹，F(xiàn)oodieQA 是一個(gè)用于細(xì)粒度理解中國(guó)飲食文化的多模態(tài)數(shù)據(jù)集，其中包含多圖像、單圖像視覺(jué)問(wèn)答（VQA）以及關(guān)于中國(guó)地方美食的文本問(wèn)答問(wèn)題。該數(shù)據(jù)集基于 350 種獨(dú)特美食條目對(duì)應(yīng)的 389 張獨(dú)特美食圖像構(gòu)建而成。它要求模型不僅能看圖，還要懂中國(guó)味。

接下來(lái)，我們先是自己嘗試了編寫(xiě)微調(diào)腳本，但效果并不佳。于是我們決定直接讓 AI 全程接管，來(lái)一次 vibe fine-tuning（氛圍微調(diào)）！

給 PGX 裝上 Claude Code，并配置好 MiniMax-M2.1。然后下達(dá)一小段指令：

你是一位出色的 AI 模型微調(diào)專家，你現(xiàn)在需要在一臺(tái)擁有 128GB 統(tǒng)一內(nèi)存的聯(lián)想 ThinkStation PGX 上微調(diào)一個(gè) 30B 大小的 MoE 模型。在這里，models/Qwen3-VL-30B 文件夾中是已下載的 Qwen3-VL-30B-A3B-Instruct 模型，F(xiàn)oodieQA 文件夾中是 lyan62/FoodieQA 數(shù)據(jù)集。請(qǐng)使用 FoodieQA 數(shù)據(jù)集完成對(duì) Qwen3-VL-30B-A3B-Instruct 模型的進(jìn)一步微調(diào)。

接下來(lái)就是等待。兩三個(gè)小時(shí)后，訓(xùn)練方案終于確定下來(lái)。以下是訓(xùn)練穩(wěn)定后 nvtop 監(jiān)視畫(huà)面。

可以看到，對(duì)于該任務(wù)，GPU 使用率大體在 23% 左右，顯存（統(tǒng)一內(nèi)存）的占用接近 60GB。

要知道，這 60GB 的顯存占用，如果是消費(fèi)級(jí)顯卡早就炸了三次了，但在 ThinkStation PGX 上，顯存條只吃了一半，它甚至游刃有余。更令人印象深刻的是溫控。得益于出色的散熱設(shè)計(jì)，在開(kāi)了暖氣的房間里，ThinkStation PGX 的 GPU 最高溫度也僅達(dá)到了 40℃。

一夜之后，微調(diào)完成。在驗(yàn)證集上的損失從 4.03 成功降到了 1.06，下降了 74%。

來(lái)一張我們自己拍攝的食物照片來(lái)簡(jiǎn)單試試。

結(jié)果大體正確，這個(gè)微調(diào)過(guò)的 Qwen3-VL-30B-A3B-Instruct 正確識(shí)別了中間的陽(yáng)春面，并正確地指出了其屬于淮揚(yáng)菜，不過(guò)它也忽略了旁邊的蟹黃（確實(shí)有點(diǎn)難以辨認(rèn)）。

整體體驗(yàn)下來(lái)，聯(lián)想 ThinkStation PGX 展現(xiàn)出了幾個(gè)讓開(kāi)發(fā)者無(wú)法拒絕的優(yōu)勢(shì)：

從容加載：128GB 內(nèi)存意味著我們可以不需要任何量化，甚至可以直接加載 FP16/BF16 精度的原始模型。
大膽訓(xùn)練：可以直接開(kāi)啟較大的 Batch Size，不用擔(dān)心 OOM，訓(xùn)練效率成倍提升。
英偉達(dá)原生體驗(yàn)：基于 Linux+CUDA，可以直接 clone 官方的微調(diào)代碼庫(kù)，配置好環(huán)境，一行命令 bash finetune.sh 直接開(kāi)跑，沒(méi)有適配的痛苦。

結(jié)論很明顯：聯(lián)想 ThinkStation PGX 是目前桌面上唯一能讓 30B 多模態(tài)模型「跑得舒服」的設(shè)備

事實(shí)上，微調(diào)模型絕非 PGX 的唯一用途。打開(kāi)想象力，我們能發(fā)現(xiàn)很多適合它的大顯存 AI 場(chǎng)景，比如：

算法工程師的本地沙盒：用于金融或醫(yī)療等數(shù)據(jù)敏感行業(yè)。工程師可以在本地完整加載 70B+ 模型驗(yàn)證想法，無(wú)需申請(qǐng)?jiān)贫速Y源，數(shù)據(jù)絕不出域。
野外科研的離線算力站：對(duì)于珍稀動(dòng)物監(jiān)測(cè)或地質(zhì)勘探，野外往往沒(méi)有高速網(wǎng)絡(luò)。PGX 可塞進(jìn)背包，離線處理海量紅外監(jiān)控影像。
長(zhǎng)視頻生成的無(wú)限畫(huà)布：視頻生成模型對(duì)顯存需求隨時(shí)間線性增長(zhǎng)。PGX 的大內(nèi)存能支持生成更長(zhǎng)時(shí)間的連貫視頻素材。
具身智能的數(shù)字孿生：在桌面運(yùn)行高保真的 Isaac Sim 仿真環(huán)境，訓(xùn)練完成后直接部署到架構(gòu)同源的 Jetson 模塊，零遷移成本。
數(shù)字藝術(shù)家的私有風(fēng)格庫(kù)：長(zhǎng)期累積創(chuàng)作者自己的 Style Checkpoint，本地運(yùn)行風(fēng)格遷移，不用擔(dān)心獨(dú)家畫(huà)風(fēng)泄露。

為什么選擇聯(lián)想 ThinkStation PGX？

既然核心芯片和架構(gòu)與英偉達(dá)的參考設(shè)計(jì)（DGX Spark）一致，為什么我們更推薦聯(lián)想的 PGX？

答案在于兩個(gè)詞：工程服務(wù)

馴服 240W 功耗的蜂窩美學(xué)

GB10 是一顆性能強(qiáng)悍的超級(jí)芯片，但其滿載功耗高達(dá) 170W，整機(jī)功耗更達(dá)到 240W。在一個(gè) 1 升的極小空間內(nèi)壓制這種熱量，如果設(shè)計(jì)不當(dāng)，很容易導(dǎo)致積熱降頻，甚至變成桌面燙手寶。

聯(lián)想沒(méi)有簡(jiǎn)單照搬公版設(shè)計(jì)，而是沿用了 ThinkStation 家族標(biāo)志性的「蜂窩狀」散熱設(shè)計(jì)。這種源自空氣動(dòng)力學(xué)的設(shè)計(jì)理念（靈感源于阿斯頓?馬丁的進(jìn)氣格柵），最大化了機(jī)箱前后的進(jìn)出風(fēng)效率。

實(shí)測(cè)表明，相比于初期公版參考設(shè)計(jì)可能存在的積熱問(wèn)題，PGX 表現(xiàn)得更加「冷靜」。對(duì)于需要連續(xù)跑幾天幾夜微調(diào)任務(wù)的開(kāi)發(fā)者來(lái)說(shuō)，這種基于 Top 1 工作站大廠的工程穩(wěn)定性，意味著你不用半夜起來(lái)?yè)?dān)心訓(xùn)練因過(guò)熱而中斷。

數(shù)據(jù)保險(xiǎn)

對(duì)于購(gòu)買 PGX 的企業(yè)和科研用戶來(lái)說(shuō)，最值錢的往往不是機(jī)器本身，而是硬盤里的數(shù)據(jù)：那些私有的行業(yè)數(shù)據(jù)集、微調(diào)后的模型權(quán)重、以及核心算法代碼。

作為中國(guó)市場(chǎng)份額第一的專業(yè)工作站品牌，聯(lián)想給 PGX 配備了中國(guó)區(qū)獨(dú)享的頂格服務(wù)：

3 年上門保修：相比于海淘水貨或部分競(jìng)品可能僅提供的 1 年質(zhì)保，這是面向生產(chǎn)力用戶更合理、也更負(fù)責(zé)任的保障方案。
硬盤數(shù)據(jù)恢復(fù)服務(wù)：這是最打動(dòng)企業(yè)用戶的痛點(diǎn)。萬(wàn)一硬盤發(fā)生物理?yè)p壞，聯(lián)想提供專業(yè)的數(shù)據(jù)恢復(fù)服務(wù)。對(duì)于科研實(shí)驗(yàn)室等數(shù)據(jù)至關(guān)重要的機(jī)構(gòu)來(lái)說(shuō)，這項(xiàng)服務(wù)的價(jià)值遠(yuǎn)超機(jī)器價(jià)格本身。
售后技術(shù)支持：聯(lián)想工作站在全國(guó)擁有超過(guò) 1 萬(wàn)名認(rèn)證工程師，2300 多個(gè)專業(yè)服務(wù)站，100% 覆蓋 1-6 線城市，能保證 7x24 小時(shí)在線支持。

升級(jí)空間：雙機(jī) NVLink

如果你覺(jué)得 128 GB 依然不夠用，PGX 還預(yù)留了升級(jí)空間。

借助內(nèi)置的 NVIDIA ConnectX-7 網(wǎng)絡(luò)技術(shù)，你可以將兩臺(tái) ThinkStation PGX 通過(guò)高速互聯(lián)。在 NVLink 的加持下，兩臺(tái)機(jī)器瞬間化身為一個(gè)擁有256 GB 統(tǒng)一內(nèi)存的超級(jí)怪獸。

這時(shí)，你的桌面算力上限將被進(jìn)一步打破：你甚至可以嘗試挑戰(zhàn)上千億參數(shù)量級(jí)別的超大模型推理。從 1 升小盒子到雙機(jī)并行，這給了開(kāi)發(fā)者極大的靈活性。

算力普及的「最后一公里」

回顧這幾天的體驗(yàn)，聯(lián)想 ThinkStation PGX 給我們留下的最深印象，并不是某個(gè)具體的跑分?jǐn)?shù)字，而是它帶來(lái)的「確定性」。

在過(guò)去，想要在本地搞定 30B 級(jí)別以上的多模態(tài)模型微調(diào)，總是充滿了不確定性：顯存會(huì)不會(huì)爆？量化會(huì)不會(huì)掉點(diǎn)？算子能不能跑通？

而 ThinkStation PGX 用 128 GB 的海量?jī)?nèi)存和原生的 CUDA 生態(tài)，把這些不確定性變成了一條平滑的直線。它填補(bǔ)了消費(fèi)級(jí)顯卡（顯存太小）和工業(yè)級(jí)服務(wù)器（動(dòng)靜太大）之間那個(gè)巨大的真空地帶。

至于大家都關(guān)心的價(jià)格，在擁有 128GB 統(tǒng)一內(nèi)存和原生 CUDA 生態(tài)的前提下，ThinkStation PGX 1TB 版本售價(jià)為 31999 元，4TB 版本售價(jià)為 36999 元。這僅僅相當(dāng)于一塊高端專業(yè)顯卡的價(jià)格，卻可以換來(lái)一臺(tái)完整的、開(kāi)箱即用的桌面 AI 超算。

如果要我以編輯的身份給一個(gè)購(gòu)買建議，我的答案是：對(duì)于深陷顯存焦慮的專業(yè)開(kāi)發(fā)者而言，聯(lián)想 ThinkStation PGX 不僅值得買，甚至可能是目前 4 萬(wàn)元以內(nèi)唯一的最優(yōu)解

不妨算一筆賬：在市面上，要獲得同等規(guī)模（128GB）的顯存容量，你通常需要購(gòu)買昂貴的專業(yè)級(jí)計(jì)算卡，或者租用按小時(shí)計(jì)費(fèi)且數(shù)據(jù)需上傳云端的 A100 實(shí)例。而 ThinkStation PGX 以不到 3.7 萬(wàn)元的頂配價(jià)格，提供了一個(gè)擁有海量統(tǒng)一內(nèi)存、原生 CUDA 生態(tài)且數(shù)據(jù)完全私有的桌面級(jí)方案。

如果你只是偶爾跑跑 7B 小模型，它或許略顯奢侈；但對(duì)于那些受夠了環(huán)境配置錯(cuò)誤的算法工程師、對(duì)數(shù)據(jù)安全有極高要求的科研團(tuán)隊(duì)，以及希望快速驗(yàn)證 idea 的初創(chuàng)公司來(lái)說(shuō)，PGX 買到的不僅僅是硬件，更是「不折騰」的權(quán)利：讓你不必再為顯存溢出修改代碼，也不必再為跨平臺(tái)移植浪費(fèi)時(shí)間。這種讓開(kāi)發(fā)者回歸創(chuàng)造力本身的價(jià)值，遠(yuǎn)超機(jī)器售價(jià)本身。

這或許才是 AI 基礎(chǔ)設(shè)施普及過(guò)程中，最動(dòng)人的「最后一公里」。

如果你也受夠了在 OOM 的邊緣試探，ThinkStation PGX 值得成為你桌面上的下一臺(tái)設(shè)備。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.