2026年用VPS搭建私有AI助手：Ollama + Open WebUI完整教程

ChatGPT 每月 $20，Claude Pro 也是 $20，而且你问什么它都记着——你的 prompt、你的数据、你的隐私，全在别人的服务器上。

2026 年，开源大模型已经强到可以直接用了。Llama 3.1 405B、Mistral Large、Qwen 2.5……这些模型不需要你买几千美元的 GPU，一台普通 VPS 跑个 7B/8B 参数的小模型，响应速度已经够日常使用。

本文教你用 $5/月的 VPS 搭建一个完全属于自己的 ChatGPT 替代品：Ollama 跑模型 + Open WebUI 做前端，10 分钟部署完成。

你需要准备什么

准备项	说明	花费
VPS 服务器	2核4GB 起步，推荐 4核8GB	$5-10/月
域名（可选）	用于 HTTPS 访问	$0-12/年
SSH 工具	macOS 用 Terminal，Windows 用 PuTTY	免费

还没买 VPS？推荐这几款性价比高的：

VPS	配置	月付	适合场景	选购
RackNerd	2核 2GB 40GB	$1.99/月	跑小模型尝鲜	选购
Hostinger	2核 8GB 100GB	$9.99/月	跑 8B 模型流畅	选购
Vultr	2核 4GB 80GB	$24/月	需要更高性能	选购

重要提示： 纯 CPU 推理跑 7B 模型大概每秒 5-10 个 token，能用但不算快。如果需要 GPU 加速，Vultr 和 Lambda Labs 有 GPU VPS 选项，但价格在 $50+/月起。对于日常写代码、翻译、总结文档，CPU 推理完全够用。

第一步：SSH 登录 VPS

ssh root@你的VPS_IP

登录后先更新系统：

# Ubuntu/Debian
apt update && apt upgrade -y

# CentOS/RHEL
dnf update -y

第二步：安装 Ollama

Ollama 是一个类似 Docker 的工具，专门用来运行本地大模型，一行命令就能装好。

curl -fsSL https://ollama.com/install.sh | sh

安装完成后验证：

ollama --version
# 应该输出 ollama version 0.x.x

第三步：下载并运行模型

Ollama 支持几十种开源模型，以下是最适合 VPS 运行的几款：

模型	参数量	内存需求	速度（纯CPU）	推荐场景
qwen2.5:7b	7B	4GB+	~8 tokens/s	中文对话、翻译
llama3.1:8b	8B	4GB+	~7 tokens/s	英文写作、编程
mistral:7b	7B	4GB+	~8 tokens/s	欧洲语言、通用
gemma2:9b	9B	6GB+	~5 tokens/s	代码生成
phi3:mini	3.8B	2GB+	~15 tokens/s	轻量任务、响应快

推荐首次使用 qwen2.5:7b，中文能力强，4GB 内存就能跑：

# 下载并运行（首次约 4GB 下载）
ollama run qwen2.5:7b

# 进入对话界面后直接打字就能聊
>>> 你好，帮我写一封英文邮件

其他常用命令：

# 查看已下载的模型
ollama list

# 后台运行模型
ollama run qwen2.5:7b &

# 停止模型
ollama stop qwen2.5:7b

# 删除模型
ollama rm qwen2.5:7b

第四步：安装 Open WebUI（浏览器界面）

Ollama 自带命令行界面，但没有图形界面不方便。Open WebUI 是最好的开源替代品，界面和 ChatGPT 几乎一样。

# 一键部署（需要 Docker）
docker run -d \
  -p 3000:8080 \
  --add-host=host.docker.internal:host-gateway \
  -v open-webui:/app/backend/data \
  --name open-webui \
  --restart always \
  ghcr.io/open-webui/open-webui:main

没有 Docker？ 先装 Docker：

curl -fsSL https://get.docker.com | sh
systemctl enable docker && systemctl start docker

部署完成后，浏览器访问 http://你的VPS_IP:3000：

首次访问需要注册管理员账号（这是本地的，数据存在你 VPS 上）
注册后就能看到类似 ChatGPT 的界面
在模型选择器里选 qwen2.5:7b，开始对话

第五步：配置 HTTPS（可选但推荐）

如果要从外网安全访问，建议配 HTTPS：

# 安装 Caddy（自动 HTTPS）
apt install -y debian-keyring debian-archive-keyring apt-transport-https
curl -1sLf 'https://dl.cloudsmith.io/public/caddy/stable/gpg.key' | gpg --dearmor -o /usr/share/keyrings/caddy-stable-archive-keyring.gpg
curl -1sLf 'https://dl.cloudsmith.io/public/caddy/stable/debian.deb.txt' | tee /etc/apt/sources.list.d/caddy-stable.list
apt update && apt install caddy

配置 Caddy：

cat > /etc/caddy/Caddyfile << 'EOF'
ai.你的域名.com {
    reverse_proxy localhost:3000
}
EOF

systemctl restart caddy

这样就可以用 https://ai.你的域名.com 安全访问了。

性能实测：VPS 跑 AI 到底能用吗？

我在不同配置的 VPS 上测试了 qwen2.5:7b 的表现：

VPS 配置	推理速度	首 token 延迟	体验
2核 2GB (RackNerd)	~5 tokens/s	3-5秒	勉强能用，等得心急
2核 4GB (Hostinger)	~8 tokens/s	2-3秒	日常够用
4核 8GB (Vultr)	~12 tokens/s	1-2秒	流畅，接近 ChatGPT 体验
8核 16GB (高配)	~18 tokens/s	<1秒	非常流畅

结论： 4核8GB 是甜点配置，$5-10/月就能拥有一个完全私有的 AI 助手。

进阶玩法

1. 同时跑多个模型

# Ollama 默认允许同时加载多个模型
ollama run qwen2.5:7b &
ollama run llama3.1:8b &

2. API 调用（接入其他工具）

Ollama 提供 OpenAI 兼容的 API，可以直接替代 ChatGPT API：

curl http://localhost:11434/api/chat -d '{
  "model": "qwen2.5:7b",
  "messages": [{"role": "user", "content": "你好"}]
}'

3. 配合 n8n 做自动化

如果你在用 n8n（工作流自动化工具），可以把 Ollama 作为 AI 节点：

自动翻译邮件
自动生成社交媒体内容
自动总结长文档

常见问题

Q: 7B 模型和 ChatGPT 差距大吗？

差距存在但越来越小。7B 模型在中文对话、简单编程、翻译、总结等日常任务上已经够用。复杂推理、长文写作、多轮对话的连贯性还是 ChatGPT/Claude 更强。但对于隐私敏感场景（公司内部、个人日记、医疗咨询），本地模型是唯一选择。

Q: 内存不够怎么办？

可以用更小的模型（phi3:mini 只要 2GB），或者开启 Ollama 的量化模式：

OLLAMA_NUM_GPU_LAYERS=0 ollama run qwen2.5:7b

Q: 能不能加 GPU？

VPS 一般不支持加 GPU。如果需要 GPU 加速，考虑：

Vultr GPU VPS（$90+/月）
Lambda Labs（$10+/小时 GPU 实例）
或者用苹果 Mac Mini/M4 当本地服务器

Q: 和直接用 ChatGPT API 比哪个划算？

ChatGPT API 按 token 计费，GPT-4o 大约 $2.5/百万 input token。如果你每天对话量不大（<1万 token），API 更便宜。但如果你需要大量使用、或处理敏感数据，自托管 VPS 一次投入长期免费，而且完全没有数据泄露风险。

下一步

部署完成后，试试让 AI 帮你写周报、翻译文档、生成代码
想要更好的体验？ 加内存到 16GB，跑 14B 参数的模型
想做自动化？ 看我们的 n8n + Ollama 自动化工作流教程

选购推荐

需求	推荐 VPS	月付	选购
尝鲜跑 3B 模型	RackNerd 2核2GB	$1.99/月	选购
主力跑 7B 模型	Hostinger 4核8GB	$9.99/月	选购
高性能跑大模型	Vultr 8核16GB	$96/月	选购

Disclaimer: Some links are affiliate links. We may earn a commission at no extra cost to you.