用 VPS 搭建 AI 编程助手工作台：自托管 Continue.dev + 代码解释器 + 私有 LLM

导语：Cursor 每月 20 刀，你的代码数据真的安全吗？

你用 Cursor、Copilot 或 Claude Code 写代码的时候有没有想过——你的私有代码仓库、API Key、客户数据，全都在别人的服务器上跑了一遍推理。对于个人开发者来说这可能是个小问题，但对于做 SaaS 产品的团队、处理客户数据的开发者，或者对代码安全有严格要求的独立创业者来说，这就不是一个能忽视的风险了。

2026 年，开源 AI 编程模型已经成熟到可以在普通 VPS 上流畅运行。你不需要花 $20/月订阅 Cursor Pro，也不需要把代码送到云端——一台 $10/月、4核8GB 的 VPS 就能搭建一套完整的 AI 编程工作台：VS Code 在线版 + Continue.dev 插件 + 自托管代码解释器 + 私有 LLM 推理。

本文手把手教你从零搭建这套方案，涵盖 VPS 选型、环境部署、模型选择和成本对比。

说明：本文包含 VPS 服务商 affiliate 链接。通过链接购买，我们可能获得佣金，但不会影响你的价格。我们只推荐适合实际部署场景的海外服务。

什么是 AI 编程工作台？

传统的 IDE（VS Code、JetBrains）本地运行，AI 能力来自云端 API。而 AI 编程工作台 是把整个开发环境搬到 VPS 上，包括：

在线 IDE — 通过浏览器访问 VS Code（code-server），随时随地开发
AI 编码助手 — Continue.dev 等开源插件，支持多种 LLM 后端
私有代码解释器 — 在 VPS 上运行沙箱化的 Python/Node 代码执行
自托管 LLM — 本地跑 Llama 3.1、Qwen 或 DeepSeek，不调用外部 API

这套方案的核心理念是：你的代码、你的数据、你的推理，全部在你自己的 VPS 上完成。

VPS 选型：多少钱能跑起 AI 编程？

AI 编程工作台对 VPS 的要求比传统网站高不少——你需要足够的 RAM 来加载 LLM 模型，足够的 CPU 来推理，以及稳定的网络来维持 SSH 和浏览器连接。

最低配置 vs 推荐配置

配置级别	vCPU	RAM	存储	月价区间	能做什么
入门级	2核	4GB	40GB NVMe	$4-6	code-server + 本地小模型（7B 量化）
推荐级	4核	8GB	80GB NVMe	$8-15	完整方案：code-server + Continue.dev + 代码解释器 + 7B/13B 模型
进阶级	4核	16GB	160GB NVMe	$20-30	跑 13B 未量化模型或多模型切换

Step 1：部署 code-server（在线 VS Code）

code-server 是 VS Code 的服务器版本，让你通过浏览器使用完整的 VS Code 体验。

一键安装

# SSH 到你的 VPS
ssh root@your-vps-ip

# 安装 code-server（官方推荐方式）
curl -fsSL https://code-server.dev/install.sh | sh

# 启动服务
code-server --bind-addr 0.0.0.0:8080 --auth password

安装完成后，code-server 会生成一个随机密码。你可以用 ~/.config/code-server/config.yaml 设置固定密码：

bind-addr: 0.0.0.0:8080
auth: password
password: your-strong-password-here
cert: true

配置反向代理（Nginx + SSL）

为了让 code-server 通过域名安全访问，配置 Nginx 反向代理：

# 安装 Nginx
apt update && apt install -y nginx certbot python3-certbot-nginx

# 创建 Nginx 配置 /etc/nginx/sites-available/code-server

server {
    listen 80;
    server_name code.yourdomain.com;

    location / {
        proxy_pass http://127.0.0.1:8080;
        proxy_set_header Upgrade $http_upgrade;
        proxy_set_header Connection upgrade;
        proxy_set_header Host $host;
        proxy_set_header X-Real-IP $remote_addr;
    }
}

# 申请 SSL 证书
certbot --nginx -d code.yourdomain.com

# 重启 Nginx
systemctl restart nginx

现在你可以通过 https://code.yourdomain.com 访问在线 VS Code 了。

Step 2：安装 Continue.dev 插件

Continue.dev 是目前最成熟的开源 AI 编码助手，支持 VS Code、JetBrains、Neovim 等编辑器，并且可以对接多种 LLM 后端（本地模型、OpenAI、Claude、Gemini 等）。

在 code-server 中安装

打开 https://code.yourdomain.com
进入 Extensions 市场，搜索 “Continue”
点击 Install
安装后，Continue 图标会出现在编辑器左侧栏

配置 Continue.dev

Continue 的核心配置文件是 .continue/config.json（在项目根目录或全局配置）。以下是适配自托管 LLM 的配置示例：

{
  "models": [
    {
      "title": "Qwen 2.5 7B (本地)",
      "provider": "ollama",
      "model": "qwen2.5:7b"
    },
    {
      "title": "Llama 3.1 8B (本地)",
      "provider": "ollama",
      "model": "llama3.1:8b"
    },
    {
      "title": "GPT-4o (云端备用)",
      "provider": "openai",
      "model": "gpt-4o",
      "apiKey": "sk-your-key-here"
    }
  ],
  "tabAutocompleteModel": {
    "title": "Codestral (快速补全)",
    "provider": "ollama",
    "model": "codestral:latest"
  },
  "embeddingsProvider": {
    "provider": "ollama",
    "model": "nomic-embed-text:latest"
  }
}

关键点：Continue.dev 的优势在于 模型可切换——你可以把本地小模型作为默认，遇到复杂问题时一键切换到 GPT-4o 或 Claude，既省钱又不牺牲能力。

Step 3：自托管 Ollama（本地 LLM 推理引擎）

Ollama 是 2026 年最流行的本地 LLM 推理框架，一条命令就能跑起来，支持 Llama 3.1、Qwen 2.5、Mistral、Codestral 等数十个模型。

安装 Ollama

# 一键安装 Ollama
curl -fsSL https://ollama.com/install.sh | sh

# 启动 Ollama 服务
systemctl start ollama
systemctl enable ollama

# 拉取模型（以 Qwen 2.5 7B 为例）
ollama pull qwen2.5:7b

# 拉取代码专用模型
ollama pull codestral:latest

# 拉取嵌入模型（用于 Continue 的 RAG）
ollama pull nomic-embed-text:latest

模型选择指南

模型	参数量	量化后 RAM 占用	适合场景	推理速度（4核VPS）
Qwen 2.5 7B	7B	~5GB	通用编码、对话	~15 tok/s
Llama 3.1 8B	8B	~6GB	通用编码、推理	~12 tok/s
Codestral Mamba	7.8B	~4GB	代码补全（极快）	~30 tok/s
DeepSeek Coder V2	16B	~10GB	复杂代码生成	~8 tok/s
Gemma 2 9B	9B	~6GB	文档理解、分析	~10 tok/s

推荐组合：日常编码用 Qwen 2.5 7B 或 Codestral，复杂任务切换到云端 API。如果你的 VPS 内存达到 16GB，可以尝试 DeepSeek Coder V2 或 Gemma 2 27B。

通过 API 访问 Ollama

Ollama 启动后会自动监听 http://localhost:11434，Continue.dev 和其他工具都通过 OpenAI-compatible API 与之通信：

# 测试 Ollama API
curl http://localhost:11434/api/chat -d '{
  "model": "qwen2.5:7b",
  "messages": [{"role": "user", "content": "Hello!"}],
  "stream": false
}'

Step 4：搭建代码解释器沙箱

代码解释器（Code Interpreter）是 AI 编程工作台的进阶功能——它能让 LLM 在你的 VPS 上安全地执行 Python/Node 代码，自动生成图表、处理数据、运行测试。

方案 A：Jupyter Notebook + Docker 隔离

# 创建 Docker Compose 文件
cat > ~/code-interpreter/docker-compose.yml << 'EOF'
version: '3.8'
services:
  jupyter:
    image: jupyter/scipy-notebook:latest
    ports:
      - "8888:8888"
    environment:
      - JUPYTER_ENABLE_LB=1
      - GRANT_SUDO=yes
    volumes:
      - ./notebooks:/home/jovyan/work
    deploy:
      resources:
        limits:
          memory: 4G
          cpus: '2'
EOF

# 启动
cd ~/code-interpreter && docker compose up -d

通过 http://your-vps-ip:8888 访问 Jupyter，LLM 可以通过 API 调用 Jupyter 执行代码单元。

方案 B：轻量级 Python 代码执行 API

如果你只需要简单的代码执行能力，可以搭建一个轻量 API：

# 创建代码执行服务
mkdir -p ~/code-executor && cd ~/code-executor

cat > server.py << 'PYEOF'
from fastapi import FastAPI
from pydantic import BaseModel
import subprocess
import json
import time

app = FastAPI()

class CodeRequest(BaseModel):
    code: str
    language: str = "python"
    timeout: int = 30

@app.post("/execute")
def execute_code(req: CodeRequest):
    start = time.time()
    try:
        result = subprocess.run(
            ["python3", "-c", req.code],
            capture_output=True, text=True,
            timeout=req.timeout
        )
        return {
            "stdout": result.stdout,
            "stderr": result.stderr,
            "returncode": result.returncode,
            "elapsed_seconds": round(time.time() - start, 3)
        }
    except subprocess.TimeoutExpired:
        return {"error": "timeout", "elapsed_seconds": req.timeout}
PYEOF

# 安装依赖
pip install fastapi uvicorn

# 启动服务
uvicorn server:app --host 0.0.0.0 --port 9000

# 测试
curl -X POST http://localhost:9000/execute \
  -H "Content-Type: application/json" \
  -d '{"code": "print(\\\"Hello from VPS!\\\"); import sys; print(sys.version)"}'

安全提示：代码执行沙箱务必限制内存和 CPU 使用（Docker cgroups 或 systemd resource limits），防止恶意代码耗尽服务器资源。

Step 5：配置反向代理和域名

为了让整套工作台通过域名安全访问，建议用 Nginx 做反向代理：

# 安装 Nginx
apt install -y nginx

# 创建站点配置
cat > /etc/nginx/sites-available/ai-workspace << 'NGINX'
server {
    listen 80;
    server_name ai.yourdomain.com;

    # code-server
    location / {
        proxy_pass http://127.0.0.1:8080;
        proxy_set_header Upgrade $http_upgrade;
        proxy_set_header Connection upgrade;
        proxy_set_header Host $host;
        proxy_set_header X-Real-IP $remote_addr;
    }

    # Ollama API（限制外部直接访问）
    location /api/ {
        proxy_pass http://127.0.0.1:11434;
        proxy_set_header Host $host;
    }

    # 代码执行 API
    location /exec/ {
        proxy_pass http://127.0.0.1:9000;
        proxy_set_header Host $host;
    }
}
NGINX

ln -s /etc/nginx/sites-available/ai-workspace /etc/nginx/sites-enabled/
nginx -t && systemctl reload nginx

# 申请 SSL
certbot --nginx -d ai.yourdomain.com

成本对比：自建 vs 订阅

方案	月成本	隐私	灵活性	适合人群
Cursor Pro	$20/月	❌ 代码上云	锁定 Cursor	个人开发者
GitHub Copilot	$10/月	❌ 代码上云	仅限 VS Code	VS Code 用户
Claude Code	$20/月	❌ 代码上云	命令行专用	终端用户
自建工作台	$8-15/月 (VPS)	✅ 完全私有	任意编辑器 + 任意模型	注重隐私的团队

自建的优势：

一次付费，无限使用——不像 API 按 token 计费，本地模型调用次数没有限制
模型可以随时更换——Qwen、Llama、Mistral、DeepSeek，哪个好用切换哪个
代码和数据完全不离开你的 VPS——适合处理客户代码、商业逻辑
可以叠加多个模型——简单任务用 7B 模型（快且省资源），复杂任务用 13B+ 模型

进阶：搭建 AI 编程知识库

有了自托管 LLM 之后，你可以进一步用 Continue.dev 的 RAG（检索增强生成） 功能，让 AI 助手理解你的整个代码库：

Continue.dev 内置了代码索引功能，会自动扫描你的项目文件
搭配 nomic-embed-text 嵌入模型，AI 能精准定位相关代码片段
在聊天中输入 “@workspace” 即可在整个项目上下文中提问

你: @workspace 帮我找到处理用户认证的所有文件
AI: 找到了以下相关文件：
  - src/auth/login.ts (第 45-120 行)
  - src/auth/middleware.ts (第 12-67 行)
  - src/auth/token-refresh.ts (第 30-89 行)
  需要我详细分析哪个文件？

这对于大型项目的代码理解和重构非常有用，而且所有索引和推理都在你的 VPS 上完成。

常见问题

Q：4核8GB 的 VPS 跑 LLM 会不会很慢？

7B 参数的模型在量化（Q4_K_M）后大约占用 5-6GB RAM，推理速度约 10-15 tokens/秒。对于代码补全和日常对话完全够用。如果遇到复杂推理任务，可以切换到云端 API 作为后备。

Q：需要 GPU 吗？

对于 7B-13B 模型，CPU 推理已经够用。GPU 主要加速 30B+ 的大模型。如果你的 VPS 支持 GPU 附加（Vultr GPU 实例约 $0.6/小时），可以考虑，但大多数编码场景 CPU 就够了。

Q：如何备份我的 AI 编程工作台？

code-server 配置：~/.config/code-server/
Ollama 模型：~/.ollama/models/（可以用 ollama push 推送到远程仓库）
项目代码：Git 远程仓库
建议每月做一次 tar czf backup-$(date +%Y%m%d).tar.gz ~/.config/code-server ~/.ollama

Q：这套方案能跑 DeepSeek R1 这种推理模型吗？

可以，但需要更多内存。DeepSeek R1 Distill Qwen 32B 量化后约需 20GB+ RAM，所以需要 16GB 以上的 VPS 或 Dedicated Server。RackNerd 的专用服务器方案（aff=19978）提供了高性价比的 16GB+ 选项。

总结：你的 AI 编程工作台，应该在你自己的 VPS 上

2026 年的开源 AI 生态已经成熟到足以支撑一套完整的自托管编程工作台。你不需要为 Cursor Pro 或 GitHub Copilot 支付昂贵的月费，也不需要把代码送到云端。

搭建这套方案的最低门槛：

VPS：4核8GB，$8-15/月（RackNerd / Hostinger / Vultr）
软件：code-server + Ollama + Continue.dev（全部免费开源）
时间：30 分钟部署完成

核心优势：

隐私安全——代码和数据完全私有
成本可控——一次 VPS 费用，无限模型调用
灵活扩展——随时添加新模型、新工具、新服务

👉 在 RackNerd 上搭建你的 AI 编程工作台 👉 试试 Hostinger VPS（易用面板） 👉 Vultr 按小时计费，灵活启停