網易首頁 > 網易號 > 正文申請入駐

大模型本地部署，全能選手LM-Studio，你可能只用了一半

2026-03-04 19:35:28　來源: Ai學習的老章

北京舉報

分享至

關于本地部署大模型和 Ollama 的話題，我之前寫過不少：

為了寫，我又重新玩了一下 LM Studio —— 這個本地大模型的"全能選手"

LM Studio 主界面

說實話，我之前對 LM Studio 的印象還停留在"點一下就能跑模型的桌面APP"。但在 0.4 版本之后，它已經進化成了一個完整的本地 AI 開發平臺，很多隱藏用法很多同學可能都不知道。

簡介

LM Studio 是一款支持在本地運行 AI 大模型的工具，支持 Mac、Linux 和 Windows 全平臺。和 Ollama 不同，LM Studio 自帶一個漂亮的圖形界面，入門門檻極低——下載、搜索模型、點擊運行，三步搞定。

LM Studio 主界面

目前支持的主流模型相當多：gpt-oss、Qwen3、Gemma 3、DeepSeek 等等，基本上 Hugging Face 上熱門的 GGUF 和 MLX 模型都能跑。

但今天我不想聊桌面端怎么點點點，那些是給新手看的。我想重點聊聊 LM Studio 那些真正硬核、但被大多數人忽視的用法。

0.4 版本：全面進化

1 月，LM Studio 發布了 0.4.0 大版本更新，這不是一個小修小補的版本，而是一次架構級的重構。

核心變化有四個：

llmster 無頭部署模式

1. llmster：無 GUI 的守護進程

這是 0.4 最炸裂的更新。LM Studio 把 GUI 和核心推理引擎拆開了，推出了llmster—— 一個可以脫離桌面界面獨立運行的守護進程

什么意思？就是你現在可以把 LM Studio 的核心部署到任何沒有圖形界面的機器上：云服務器、GPU 算力機、CI/CD 流水線、甚至 Google Colab。

安裝一行命令搞定：

# Linux / Mac
curl -fsSL https://lmstudio.ai/install.sh | bash


 # Windows
irm https://lmstudio.ai/install.ps1 | iex

啟動也很簡單：

lms daemon up         # 啟動守護進程
lms get 

       # 下載模型 

lms server start      # 啟動本地 API 服務器
lms chat              # 打開交互式聊天

這意味著什么？意味著你家里那臺 4090 機器可以當 API 服務器用了，不需要開桌面、不需要一直盯著屏幕。llmster+lmsCLI，就是一套完整的無頭部署方案。

2. 并行請求 + 連續批處理

之前 LM Studio 同時只能處理一個請求，后面的排隊

0.4 之后，基于 llama.cpp 2.0 的連續批處理實現，支持同一模型的多個并發推理請求

加載模型時有兩個新選項：

Max Concurrent Predictions：設置最大并發請求數（默認 4）
Unified KV Cache：統一 KV 緩存，硬件資源不會按請求硬分區，幾乎不增加內存開銷

對于需要對外提供 API 服務的場景，這個能力直接讓 LM Studio 從"玩具"變成了"生產工具"

3. 全新的有狀態 REST API：/v1/chat

這個端點和傳統的 Chat Completions 不一樣。/v1/chat是有狀態的：你發一條消息，會拿到一個response_id，下次請求把previous_response_id帶上就能繼續對話。

這樣的好處是：

每次請求體很小，不用來回傳整個聊天記錄
方便構建多步驟工作流
響應自帶 token 統計和速度數據（tokens in/out、首 token 時間等）
還能通過 permission keys 訪問本地 MCP 工具

4. UI 大刷新

聊天導出（PDF/Markdown/純文本）、分屏視圖、Developer Mode、應用內文檔——這些都是錦上添花，但確實讓整個用戶體驗上了一個臺階。

聊天導出功能核心：LM Studio 不為人知的開發者用法

好，下面進入今天的重頭戲

大部分人只把 LM Studio 當個聊天工具，但它其實提供了一整套開發者生態

用法一：OpenAI 兼容 API —— 不改代碼，換個 URL 就行

這是我覺得最實用的功能之一

LM Studio 提供了完整的 OpenAI 兼容端點：

端點

功能

/v1/models

列出可用模型

/v1/responses

Responses API（Codex 也用這個）

/v1/chat/completions

傳統的 Chat Completions

/v1/embeddings

文本嵌入

/v1/completions

文本補全

啥意思呢？你現在用 OpenAI SDK 跑的代碼，只需要改一行 base_url，就能切到本地模型

Python 示例：

from openai import OpenAI

 client = OpenAI(
    base_url="http://localhost:1234/v1"
)

 response = client.chat.completions.create(
    model="use the model identifier from LM Studio here",
    messages=[{"role": "user", "content": "Say this is a test!"}],
    temperature=0.7
)

TypeScript 示例：

import OpenAI from 'openai';


 const client = new OpenAI({
    baseUrl: "http://localhost:1234/v1"
});

cURL 也一樣：

curl http://localhost:1234/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "openai/gpt-oss-20b",
    "messages": [{"role": "user", "content": "Hello!"}],
    "temperature": 0.7
  }'

這對開發者來說太友好了

你寫好的 Agent、RAG 應用、AI 工作流，測試階段完全可以用本地模型跑，零成本。上線時再切回 OpenAI 或 DeepSeek 的 API

甚至連 OpenAI 的 Codex 都支持直接對接 LM Studio

用法二：Anthropic 兼容 API —— Claude Code 也能白嫖

這個就更騷了。從 0.4.1 開始，LM Studio 還提供了Anthropic 兼容的/v1/messages端點。

什么意思？Claude Code 不需要用 Anthropic 的 API Key 了，直接指向 LM Studio 就行！

三步搞定：

第一步：啟動 LM Studio 的本地服務器

lms server start --port 1234

第二步：設置環境變量

export ANTHROPIC_BASE_URL=http://localhost:1234
export ANTHROPIC_AUTH_TOKEN=lmstudio

第三步：運行 Claude Code

claude --model openai/gpt-oss-20b

Claude Code 配合 LM Studio 使用

就這么簡單。你用本地的 GGUF 或 MLX 模型，就能驅動 Claude Code

建議上下文窗口設到 25K tokens 以上，因為 Claude Code 消耗上下文比較猛

如果你在 VS Code 里用 Claude Code，也可以直接在設置里配：

"claudeCode.environmentVariables": [
    {
        "name": "ANTHROPIC_BASE_URL",
        "value": "http://localhost:1234"
    },
    {
        "name": "ANTHROPIC_AUTH_TOKEN",
        "value": "lmstudio"
    }
]

支持的功能也很完整：Messages API、SSE 流式傳輸、Tool Use 都能用

用 Anthropic 的 Python SDK 也可以直接對接：

from anthropic import Anthropic

 client = Anthropic(
    base_url="http://localhost:1234",
    api_key="lmstudio",
)

 message = client.messages.create(
    max_tokens=1024,
    messages=[
        {"role": "user", "content": "Hello from LM Studio"}
    ],
    model="ibm/granite-4-micro",
)
print(message.content)

同時兼容 OpenAI 和 Anthropic 兩大 API，這在本地部署工具里幾乎是獨一份

用法三：CLI 工具lms—— 命令行控的福音

LM Studio 自帶命令行工具lms，從 0.2.22 版本就有了。但到了 0.4，CLI 的體驗完全煥然一新

安裝很簡單，會隨 LM Studio 桌面端或llmster一起安裝

npx lmstudio install-cli

常用命令速查：

lms status          # 檢查 LM Studio 狀態
lms server start    # 啟動 API 服務器
lms server stop     # 停止 API 服務器
lms ls              # 列出已下載模型
lms ls --json       # JSON 格式輸出（適合腳本處理）
lms ps              # 查看當前加載的模型
lms load 

    # 加載模型 

lms load 

 -y # 最大 GPU 加速加載，跳過確認 

lms unload --all    # 卸載所有模型
lms get 

     # 下載模型 

lms chat            # 交互式聊天（新！）
lms create          # 創建 SDK 項目
lms log stream      # 實時查看日志
lms runtime survey  # 打印 GPU 信息
lms runtime update llama.cpp  # 更新推理引擎

重點說下lms chat，0.4 新增的命令。

直接在終端里開聊，支持斜杠命令、思考過程高亮、粘貼大段內容。可用的斜杠命令：/model、/download、/system-prompt、/help、/exit

對于喜歡 Terminal 的同學來說，完全不需要打開圖形界面就能完成下載模型 → 加載模型 → 聊天 → 調試的全部流程。

用法四：原生 SDK —— TypeScript 和 Python 都安排了

除了兼容 OpenAI/Anthropic 的 API，LM Studio 還提供了自己的原生 SDK

TypeScript SDK：

npm install @lmstudio/sdk

import { LMStudioClient } from "@lmstudio/sdk";


 const client = new LMStudioClient();
const model = await client.llm.model("openai/gpt-oss-20b");
const result = await model.respond("Who are you, and what can you do?");
console.info(result.content);

Python SDK：

pip install lmstudio

import lmstudio as lms


 with lms.Client() as client:
    model = client.llm.model("openai/gpt-oss-20b")
    result = model.respond("Who are you, and what can you do?")
    print(result)

原生 SDK 的好處是能力更全面：除了聊天和文本生成，還支持 Tool Calling、MCP 支持、結構化輸出（JSON Schema）、Embedding 和 Tokenization、模型管理（加載、下載、列表）等高級功能

LM Studio 的 REST API：

lms server start --port 1234

curl http://localhost:1234/api/v1/chat \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer $LM_API_TOKEN" \
  -d '{
    "model": "openai/gpt-oss-20b",
    "input": "Who are you, and what can you do?"
  }'

用法五：LM Link —— 遠程加載你的模型

這是 LM Studio 最新推出的功能，目前還在 Preview 階段，但思路很超前

LM Link 設備連接示意

LM Link 的核心思想：你可能有好幾臺機器（家里的 GPU 機器、公司顯卡、云服務器），LM Link 讓你在任何一臺設備上，像使用本地模型一樣使用遠程設備上的模型。

基于Tailscale的 mesh VPN，端到端加密，不暴露公網端口
聊天數據保留在本地，重活累活交給遠端的 GPU
連你的localhost:1234接口都通用——也就是說 Codex、Claude Code、OpenCode 這些工具也能通過 LM Link 使用遠程模型

價格方面，免費版支持 2 個用戶、每人 5 臺設備（總共 10 臺），家用和工作都可以

這個功能對多機用戶太香了

比如你家里放一臺 4090 算力機，上班時用 MacBook 通過 LM Link 無縫調用家里的模型

說實話，如果你只是想快速跑個模型聊天，Ollama 的ollama run確實更簡單。但如果你有以下需求，LM Studio 更合適：

需要同時兼容 OpenAI 和 Anthropic 兩套 API
多臺機器之間共享模型資源
需要有狀態的 REST API + MCP 工具調用
想用原生 SDK 做開發

總結

LM Studio 在 0.4 之后，已經不是一個簡單的"本地聊天工具"了。它是一個完整的本地 AI 推理平臺：

桌面端給新手用，CLI + llmster 給開發者用
OpenAI + Anthropic 雙兼容，幾乎所有 AI 開發工具都能無縫對接
LM Link 打通多設備，遠程模型像本地一樣用
有狀態 API + MCP + SDK，想怎么玩就怎么玩

制作不易，如果這篇文章覺得對你有用，可否點個關注。給我個三連擊：點贊、轉發和在看。若可以再給我加個，謝謝你看我的文章，我們下篇再見！

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.