ChatGPT 每月 $20,Claude Pro 也是 $20,而且你问什么它都记着——你的 prompt、你的数据、你的隐私,全在别人的服务器上。
2026 年,开源大模型已经强到可以直接用了。Llama 3.1 405B、Mistral Large、Qwen 2.5……这些模型不需要你买几千美元的 GPU,一台普通 VPS 跑个 7B/8B 参数的小模型,响应速度已经够日常使用。
本文教你用 $5/月的 VPS 搭建一个完全属于自己的 ChatGPT 替代品:Ollama 跑模型 + Open WebUI 做前端,10 分钟部署完成。
你需要准备什么
| 准备项 | 说明 | 花费 |
|---|---|---|
| VPS 服务器 | 2核4GB 起步,推荐 4核8GB | $5-10/月 |
| 域名(可选) | 用于 HTTPS 访问 | $0-12/年 |
| SSH 工具 | macOS 用 Terminal,Windows 用 PuTTY | 免费 |
还没买 VPS?推荐这几款性价比高的:
| VPS | 配置 | 月付 | 适合场景 | 选购 |
|---|---|---|---|---|
| RackNerd | 2核 2GB 40GB | $1.99/月 | 跑小模型尝鲜 | 选购 |
| Hostinger | 2核 8GB 100GB | $9.99/月 | 跑 8B 模型流畅 | 选购 |
| Vultr | 2核 4GB 80GB | $24/月 | 需要更高性能 | 选购 |
重要提示: 纯 CPU 推理跑 7B 模型大概每秒 5-10 个 token,能用但不算快。如果需要 GPU 加速,Vultr 和 Lambda Labs 有 GPU VPS 选项,但价格在 $50+/月起。对于日常写代码、翻译、总结文档,CPU 推理完全够用。
第一步:SSH 登录 VPS
ssh root@你的VPS_IP
登录后先更新系统:
# Ubuntu/Debian
apt update && apt upgrade -y
# CentOS/RHEL
dnf update -y
第二步:安装 Ollama
Ollama 是一个类似 Docker 的工具,专门用来运行本地大模型,一行命令就能装好。
curl -fsSL https://ollama.com/install.sh | sh
安装完成后验证:
ollama --version
# 应该输出 ollama version 0.x.x
第三步:下载并运行模型
Ollama 支持几十种开源模型,以下是最适合 VPS 运行的几款:
| 模型 | 参数量 | 内存需求 | 速度(纯CPU) | 推荐场景 |
|---|---|---|---|---|
| qwen2.5:7b | 7B | 4GB+ | ~8 tokens/s | 中文对话、翻译 |
| llama3.1:8b | 8B | 4GB+ | ~7 tokens/s | 英文写作、编程 |
| mistral:7b | 7B | 4GB+ | ~8 tokens/s | 欧洲语言、通用 |
| gemma2:9b | 9B | 6GB+ | ~5 tokens/s | 代码生成 |
| phi3:mini | 3.8B | 2GB+ | ~15 tokens/s | 轻量任务、响应快 |
推荐首次使用 qwen2.5:7b,中文能力强,4GB 内存就能跑:
# 下载并运行(首次约 4GB 下载)
ollama run qwen2.5:7b
# 进入对话界面后直接打字就能聊
>>> 你好,帮我写一封英文邮件
其他常用命令:
# 查看已下载的模型
ollama list
# 后台运行模型
ollama run qwen2.5:7b &
# 停止模型
ollama stop qwen2.5:7b
# 删除模型
ollama rm qwen2.5:7b
第四步:安装 Open WebUI(浏览器界面)
Ollama 自带命令行界面,但没有图形界面不方便。Open WebUI 是最好的开源替代品,界面和 ChatGPT 几乎一样。
# 一键部署(需要 Docker)
docker run -d \
-p 3000:8080 \
--add-host=host.docker.internal:host-gateway \
-v open-webui:/app/backend/data \
--name open-webui \
--restart always \
ghcr.io/open-webui/open-webui:main
没有 Docker? 先装 Docker:
curl -fsSL https://get.docker.com | sh systemctl enable docker && systemctl start docker
部署完成后,浏览器访问 http://你的VPS_IP:3000:
- 首次访问需要注册管理员账号(这是本地的,数据存在你 VPS 上)
- 注册后就能看到类似 ChatGPT 的界面
- 在模型选择器里选 qwen2.5:7b,开始对话
第五步:配置 HTTPS(可选但推荐)
如果要从外网安全访问,建议配 HTTPS:
# 安装 Caddy(自动 HTTPS)
apt install -y debian-keyring debian-archive-keyring apt-transport-https
curl -1sLf 'https://dl.cloudsmith.io/public/caddy/stable/gpg.key' | gpg --dearmor -o /usr/share/keyrings/caddy-stable-archive-keyring.gpg
curl -1sLf 'https://dl.cloudsmith.io/public/caddy/stable/debian.deb.txt' | tee /etc/apt/sources.list.d/caddy-stable.list
apt update && apt install caddy
配置 Caddy:
cat > /etc/caddy/Caddyfile << 'EOF'
ai.你的域名.com {
reverse_proxy localhost:3000
}
EOF
systemctl restart caddy
这样就可以用 https://ai.你的域名.com 安全访问了。
性能实测:VPS 跑 AI 到底能用吗?
我在不同配置的 VPS 上测试了 qwen2.5:7b 的表现:
| VPS 配置 | 推理速度 | 首 token 延迟 | 体验 |
|---|---|---|---|
| 2核 2GB (RackNerd) | ~5 tokens/s | 3-5秒 | 勉强能用,等得心急 |
| 2核 4GB (Hostinger) | ~8 tokens/s | 2-3秒 | 日常够用 |
| 4核 8GB (Vultr) | ~12 tokens/s | 1-2秒 | 流畅,接近 ChatGPT 体验 |
| 8核 16GB (高配) | ~18 tokens/s | <1秒 | 非常流畅 |
结论: 4核8GB 是甜点配置,$5-10/月就能拥有一个完全私有的 AI 助手。
进阶玩法
1. 同时跑多个模型
# Ollama 默认允许同时加载多个模型
ollama run qwen2.5:7b &
ollama run llama3.1:8b &
2. API 调用(接入其他工具)
Ollama 提供 OpenAI 兼容的 API,可以直接替代 ChatGPT API:
curl http://localhost:11434/api/chat -d '{
"model": "qwen2.5:7b",
"messages": [{"role": "user", "content": "你好"}]
}'
3. 配合 n8n 做自动化
如果你在用 n8n(工作流自动化工具),可以把 Ollama 作为 AI 节点:
- 自动翻译邮件
- 自动生成社交媒体内容
- 自动总结长文档
常见问题
Q: 7B 模型和 ChatGPT 差距大吗?
差距存在但越来越小。7B 模型在中文对话、简单编程、翻译、总结等日常任务上已经够用。复杂推理、长文写作、多轮对话的连贯性还是 ChatGPT/Claude 更强。但对于隐私敏感场景(公司内部、个人日记、医疗咨询),本地模型是唯一选择。
Q: 内存不够怎么办?
可以用更小的模型(phi3:mini 只要 2GB),或者开启 Ollama 的量化模式:
OLLAMA_NUM_GPU_LAYERS=0 ollama run qwen2.5:7b
Q: 能不能加 GPU?
VPS 一般不支持加 GPU。如果需要 GPU 加速,考虑:
- Vultr GPU VPS($90+/月)
- Lambda Labs($10+/小时 GPU 实例)
- 或者用苹果 Mac Mini/M4 当本地服务器
Q: 和直接用 ChatGPT API 比哪个划算?
ChatGPT API 按 token 计费,GPT-4o 大约 $2.5/百万 input token。如果你每天对话量不大(<1万 token),API 更便宜。但如果你需要大量使用、或处理敏感数据,自托管 VPS 一次投入长期免费,而且完全没有数据泄露风险。
下一步
- 部署完成后,试试让 AI 帮你写周报、翻译文档、生成代码
- 想要更好的体验? 加内存到 16GB,跑 14B 参数的模型
- 想做自动化? 看我们的 n8n + Ollama 自动化工作流教程
选购推荐
| 需求 | 推荐 VPS | 月付 | 选购 |
|---|---|---|---|
| 尝鲜跑 3B 模型 | RackNerd 2核2GB | $1.99/月 | 选购 |
| 主力跑 7B 模型 | Hostinger 4核8GB | $9.99/月 | 选购 |
| 高性能跑大模型 | Vultr 8核16GB | $96/月 | 选购 |
Disclaimer: Some links are affiliate links. We may earn a commission at no extra cost to you.
