导语:Cursor 每月 20 刀,你的代码数据真的安全吗?
你用 Cursor、Copilot 或 Claude Code 写代码的时候有没有想过——你的私有代码仓库、API Key、客户数据,全都在别人的服务器上跑了一遍推理。对于个人开发者来说这可能是个小问题,但对于做 SaaS 产品的团队、处理客户数据的开发者,或者对代码安全有严格要求的独立创业者来说,这就不是一个能忽视的风险了。
2026 年,开源 AI 编程模型已经成熟到可以在普通 VPS 上流畅运行。你不需要花 $20/月订阅 Cursor Pro,也不需要把代码送到云端——一台 $10/月、4核8GB 的 VPS 就能搭建一套完整的 AI 编程工作台:VS Code 在线版 + Continue.dev 插件 + 自托管代码解释器 + 私有 LLM 推理。
本文手把手教你从零搭建这套方案,涵盖 VPS 选型、环境部署、模型选择和成本对比。
说明:本文包含 VPS 服务商 affiliate 链接。通过链接购买,我们可能获得佣金,但不会影响你的价格。我们只推荐适合实际部署场景的海外服务。
什么是 AI 编程工作台?
传统的 IDE(VS Code、JetBrains)本地运行,AI 能力来自云端 API。而 AI 编程工作台 是把整个开发环境搬到 VPS 上,包括:
- 在线 IDE — 通过浏览器访问 VS Code(code-server),随时随地开发
- AI 编码助手 — Continue.dev 等开源插件,支持多种 LLM 后端
- 私有代码解释器 — 在 VPS 上运行沙箱化的 Python/Node 代码执行
- 自托管 LLM — 本地跑 Llama 3.1、Qwen 或 DeepSeek,不调用外部 API
这套方案的核心理念是:你的代码、你的数据、你的推理,全部在你自己的 VPS 上完成。
VPS 选型:多少钱能跑起 AI 编程?
AI 编程工作台对 VPS 的要求比传统网站高不少——你需要足够的 RAM 来加载 LLM 模型,足够的 CPU 来推理,以及稳定的网络来维持 SSH 和浏览器连接。
最低配置 vs 推荐配置
| 配置级别 | vCPU | RAM | 存储 | 月价区间 | 能做什么 |
|---|---|---|---|---|---|
| 入门级 | 2核 | 4GB | 40GB NVMe | $4-6 | code-server + 本地小模型(7B 量化) |
| 推荐级 | 4核 | 8GB | 80GB NVMe | $8-15 | 完整方案:code-server + Continue.dev + 代码解释器 + 7B/13B 模型 |
| 进阶级 | 4核 | 16GB | 160GB NVMe | $20-30 | 跑 13B 未量化模型或多模型切换 |
推荐服务商
RackNerd 在这个价位段性价比最高,4核8GB 配置月付约 $8-10:
Hostinger 的 KVM 2 计划(2核4GB)月付约 $6,KVM 4(4核8GB)约 $12,面板易用:
Vultr 提供灵活的按小时计费,4核8GB 纽约/新加坡节点约 $15/月,适合需要快速启停的场景:
Step 1:部署 code-server(在线 VS Code)
code-server 是 VS Code 的服务器版本,让你通过浏览器使用完整的 VS Code 体验。
一键安装
# SSH 到你的 VPS
ssh root@your-vps-ip
# 安装 code-server(官方推荐方式)
curl -fsSL https://code-server.dev/install.sh | sh
# 启动服务
code-server --bind-addr 0.0.0.0:8080 --auth password
安装完成后,code-server 会生成一个随机密码。你可以用 ~/.config/code-server/config.yaml 设置固定密码:
bind-addr: 0.0.0.0:8080
auth: password
password: your-strong-password-here
cert: true
配置反向代理(Nginx + SSL)
为了让 code-server 通过域名安全访问,配置 Nginx 反向代理:
# 安装 Nginx
apt update && apt install -y nginx certbot python3-certbot-nginx
# 创建 Nginx 配置 /etc/nginx/sites-available/code-server
server {
listen 80;
server_name code.yourdomain.com;
location / {
proxy_pass http://127.0.0.1:8080;
proxy_set_header Upgrade $http_upgrade;
proxy_set_header Connection upgrade;
proxy_set_header Host $host;
proxy_set_header X-Real-IP $remote_addr;
}
}
# 申请 SSL 证书
certbot --nginx -d code.yourdomain.com
# 重启 Nginx
systemctl restart nginx
现在你可以通过 https://code.yourdomain.com 访问在线 VS Code 了。
Step 2:安装 Continue.dev 插件
Continue.dev 是目前最成熟的开源 AI 编码助手,支持 VS Code、JetBrains、Neovim 等编辑器,并且可以对接多种 LLM 后端(本地模型、OpenAI、Claude、Gemini 等)。
在 code-server 中安装
- 打开
https://code.yourdomain.com - 进入 Extensions 市场,搜索 “Continue”
- 点击 Install
- 安装后,Continue 图标会出现在编辑器左侧栏
配置 Continue.dev
Continue 的核心配置文件是 .continue/config.json(在项目根目录或全局配置)。以下是适配自托管 LLM 的配置示例:
{
"models": [
{
"title": "Qwen 2.5 7B (本地)",
"provider": "ollama",
"model": "qwen2.5:7b"
},
{
"title": "Llama 3.1 8B (本地)",
"provider": "ollama",
"model": "llama3.1:8b"
},
{
"title": "GPT-4o (云端备用)",
"provider": "openai",
"model": "gpt-4o",
"apiKey": "sk-your-key-here"
}
],
"tabAutocompleteModel": {
"title": "Codestral (快速补全)",
"provider": "ollama",
"model": "codestral:latest"
},
"embeddingsProvider": {
"provider": "ollama",
"model": "nomic-embed-text:latest"
}
}
关键点:Continue.dev 的优势在于 模型可切换——你可以把本地小模型作为默认,遇到复杂问题时一键切换到 GPT-4o 或 Claude,既省钱又不牺牲能力。
Step 3:自托管 Ollama(本地 LLM 推理引擎)
Ollama 是 2026 年最流行的本地 LLM 推理框架,一条命令就能跑起来,支持 Llama 3.1、Qwen 2.5、Mistral、Codestral 等数十个模型。
安装 Ollama
# 一键安装 Ollama
curl -fsSL https://ollama.com/install.sh | sh
# 启动 Ollama 服务
systemctl start ollama
systemctl enable ollama
# 拉取模型(以 Qwen 2.5 7B 为例)
ollama pull qwen2.5:7b
# 拉取代码专用模型
ollama pull codestral:latest
# 拉取嵌入模型(用于 Continue 的 RAG)
ollama pull nomic-embed-text:latest
模型选择指南
| 模型 | 参数量 | 量化后 RAM 占用 | 适合场景 | 推理速度(4核VPS) |
|---|---|---|---|---|
| Qwen 2.5 7B | 7B | ~5GB | 通用编码、对话 | ~15 tok/s |
| Llama 3.1 8B | 8B | ~6GB | 通用编码、推理 | ~12 tok/s |
| Codestral Mamba | 7.8B | ~4GB | 代码补全(极快) | ~30 tok/s |
| DeepSeek Coder V2 | 16B | ~10GB | 复杂代码生成 | ~8 tok/s |
| Gemma 2 9B | 9B | ~6GB | 文档理解、分析 | ~10 tok/s |
推荐组合:日常编码用 Qwen 2.5 7B 或 Codestral,复杂任务切换到云端 API。如果你的 VPS 内存达到 16GB,可以尝试 DeepSeek Coder V2 或 Gemma 2 27B。
通过 API 访问 Ollama
Ollama 启动后会自动监听 http://localhost:11434,Continue.dev 和其他工具都通过 OpenAI-compatible API 与之通信:
# 测试 Ollama API
curl http://localhost:11434/api/chat -d '{
"model": "qwen2.5:7b",
"messages": [{"role": "user", "content": "Hello!"}],
"stream": false
}'
Step 4:搭建代码解释器沙箱
代码解释器(Code Interpreter)是 AI 编程工作台的进阶功能——它能让 LLM 在你的 VPS 上安全地执行 Python/Node 代码,自动生成图表、处理数据、运行测试。
方案 A:Jupyter Notebook + Docker 隔离
# 创建 Docker Compose 文件
cat > ~/code-interpreter/docker-compose.yml << 'EOF'
version: '3.8'
services:
jupyter:
image: jupyter/scipy-notebook:latest
ports:
- "8888:8888"
environment:
- JUPYTER_ENABLE_LB=1
- GRANT_SUDO=yes
volumes:
- ./notebooks:/home/jovyan/work
deploy:
resources:
limits:
memory: 4G
cpus: '2'
EOF
# 启动
cd ~/code-interpreter && docker compose up -d
通过 http://your-vps-ip:8888 访问 Jupyter,LLM 可以通过 API 调用 Jupyter 执行代码单元。
方案 B:轻量级 Python 代码执行 API
如果你只需要简单的代码执行能力,可以搭建一个轻量 API:
# 创建代码执行服务
mkdir -p ~/code-executor && cd ~/code-executor
cat > server.py << 'PYEOF'
from fastapi import FastAPI
from pydantic import BaseModel
import subprocess
import json
import time
app = FastAPI()
class CodeRequest(BaseModel):
code: str
language: str = "python"
timeout: int = 30
@app.post("/execute")
def execute_code(req: CodeRequest):
start = time.time()
try:
result = subprocess.run(
["python3", "-c", req.code],
capture_output=True, text=True,
timeout=req.timeout
)
return {
"stdout": result.stdout,
"stderr": result.stderr,
"returncode": result.returncode,
"elapsed_seconds": round(time.time() - start, 3)
}
except subprocess.TimeoutExpired:
return {"error": "timeout", "elapsed_seconds": req.timeout}
PYEOF
# 安装依赖
pip install fastapi uvicorn
# 启动服务
uvicorn server:app --host 0.0.0.0 --port 9000
# 测试
curl -X POST http://localhost:9000/execute \
-H "Content-Type: application/json" \
-d '{"code": "print(\\\"Hello from VPS!\\\"); import sys; print(sys.version)"}'
安全提示:代码执行沙箱务必限制内存和 CPU 使用(Docker cgroups 或 systemd resource limits),防止恶意代码耗尽服务器资源。
Step 5:配置反向代理和域名
为了让整套工作台通过域名安全访问,建议用 Nginx 做反向代理:
# 安装 Nginx
apt install -y nginx
# 创建站点配置
cat > /etc/nginx/sites-available/ai-workspace << 'NGINX'
server {
listen 80;
server_name ai.yourdomain.com;
# code-server
location / {
proxy_pass http://127.0.0.1:8080;
proxy_set_header Upgrade $http_upgrade;
proxy_set_header Connection upgrade;
proxy_set_header Host $host;
proxy_set_header X-Real-IP $remote_addr;
}
# Ollama API(限制外部直接访问)
location /api/ {
proxy_pass http://127.0.0.1:11434;
proxy_set_header Host $host;
}
# 代码执行 API
location /exec/ {
proxy_pass http://127.0.0.1:9000;
proxy_set_header Host $host;
}
}
NGINX
ln -s /etc/nginx/sites-available/ai-workspace /etc/nginx/sites-enabled/
nginx -t && systemctl reload nginx
# 申请 SSL
certbot --nginx -d ai.yourdomain.com
成本对比:自建 vs 订阅
| 方案 | 月成本 | 隐私 | 灵活性 | 适合人群 |
|---|---|---|---|---|
| Cursor Pro | $20/月 | ❌ 代码上云 | 锁定 Cursor | 个人开发者 |
| GitHub Copilot | $10/月 | ❌ 代码上云 | 仅限 VS Code | VS Code 用户 |
| Claude Code | $20/月 | ❌ 代码上云 | 命令行专用 | 终端用户 |
| 自建工作台 | $8-15/月 (VPS) | ✅ 完全私有 | 任意编辑器 + 任意模型 | 注重隐私的团队 |
自建的优势:
- 一次付费,无限使用——不像 API 按 token 计费,本地模型调用次数没有限制
- 模型可以随时更换——Qwen、Llama、Mistral、DeepSeek,哪个好用切换哪个
- 代码和数据完全不离开你的 VPS——适合处理客户代码、商业逻辑
- 可以叠加多个模型——简单任务用 7B 模型(快且省资源),复杂任务用 13B+ 模型
进阶:搭建 AI 编程知识库
有了自托管 LLM 之后,你可以进一步用 Continue.dev 的 RAG(检索增强生成) 功能,让 AI 助手理解你的整个代码库:
- Continue.dev 内置了代码索引功能,会自动扫描你的项目文件
- 搭配
nomic-embed-text嵌入模型,AI 能精准定位相关代码片段 - 在聊天中输入 “@workspace” 即可在整个项目上下文中提问
你: @workspace 帮我找到处理用户认证的所有文件
AI: 找到了以下相关文件:
- src/auth/login.ts (第 45-120 行)
- src/auth/middleware.ts (第 12-67 行)
- src/auth/token-refresh.ts (第 30-89 行)
需要我详细分析哪个文件?
这对于大型项目的代码理解和重构非常有用,而且所有索引和推理都在你的 VPS 上完成。
常见问题
Q:4核8GB 的 VPS 跑 LLM 会不会很慢?
7B 参数的模型在量化(Q4_K_M)后大约占用 5-6GB RAM,推理速度约 10-15 tokens/秒。对于代码补全和日常对话完全够用。如果遇到复杂推理任务,可以切换到云端 API 作为后备。
Q:需要 GPU 吗?
对于 7B-13B 模型,CPU 推理已经够用。GPU 主要加速 30B+ 的大模型。如果你的 VPS 支持 GPU 附加(Vultr GPU 实例约 $0.6/小时),可以考虑,但大多数编码场景 CPU 就够了。
Q:如何备份我的 AI 编程工作台?
- code-server 配置:
~/.config/code-server/ - Ollama 模型:
~/.ollama/models/(可以用ollama push推送到远程仓库) - 项目代码:Git 远程仓库
- 建议每月做一次
tar czf backup-$(date +%Y%m%d).tar.gz ~/.config/code-server ~/.ollama
Q:这套方案能跑 DeepSeek R1 这种推理模型吗?
可以,但需要更多内存。DeepSeek R1 Distill Qwen 32B 量化后约需 20GB+ RAM,所以需要 16GB 以上的 VPS 或 Dedicated Server。RackNerd 的专用服务器方案(aff=19978)提供了高性价比的 16GB+ 选项。
总结:你的 AI 编程工作台,应该在你自己的 VPS 上
2026 年的开源 AI 生态已经成熟到足以支撑一套完整的自托管编程工作台。你不需要为 Cursor Pro 或 GitHub Copilot 支付昂贵的月费,也不需要把代码送到云端。
搭建这套方案的最低门槛:
- VPS:4核8GB,$8-15/月(RackNerd / Hostinger / Vultr)
- 软件:code-server + Ollama + Continue.dev(全部免费开源)
- 时间:30 分钟部署完成
核心优势:
- 隐私安全——代码和数据完全私有
- 成本可控——一次 VPS 费用,无限模型调用
- 灵活扩展——随时添加新模型、新工具、新服务
👉 在 RackNerd 上搭建你的 AI 编程工作台 👉 试试 Hostinger VPS(易用面板) 👉 Vultr 按小时计费,灵活启停
