Ollama on 诚实雷达

2026年用VPS部署AI应用：低成本搭建你的私人AI助手和模型服务

Fri, 29 May 2026 00:00:00 +0000

2026年，AI已经不是大公司的专利了。

一台普通VPS，月花几美元，就能跑起Ollama大模型、部署AI写作助手、搭建私有知识库。不需要显卡，不需要高配，甚至不需要你会写代码——因为AI已经能帮你写部署脚本了。

今天教你在VPS上部署三种最实用的AI应用，全程手把手。

本文适合谁： 想玩AI但不想花大钱买显卡的用户。如果你还没买VPS，推荐 RackNerd 2核4G $43.88/年，性价比最高的AI练手机。

为什么用VPS部署AI？

方案	月成本	上手难度	灵活性
云GPU（AWS/Google）	$50-500	⭐⭐⭐	⭐⭐⭐
本地显卡	$300-2000一次性	⭐⭐	⭐
普通VPS	$3-10	⭐	⭐⭐⭐

没错，普通VPS（无GPU）也能跑AI。关键在于：

选择合适的模型——不是所有AI都需要GPU
用量化版本——4-bit/8-bit量化让CPU也能跑
用API中转——本地跑小模型，复杂任务调用云端API

准备工作

准备事项	说明	推荐配置
VPS	至少2核4G内存	RackNerd 2核3.5G $32.49/年
SSH客户端	macOS Terminal / Windows Terminal	—
Docker	部署AI应用	后面安装

💡 内存很重要： 跑AI应用至少需要4G内存，推荐8G。 Hostinger 4核8G VPS月付$9.99是不错的选择。

方案一：Ollama——本地跑大语言模型

Ollama是最简单的本地AI部署方案，一键安装，一键运行模型。

安装Ollama

curl -fsSL https://ollama.com/install.sh | sh

验证安装：

ollama --version

下载并运行模型

# 运行Llama 3.2（3B参数，适合2-4G内存VPS）
ollama run llama3.2

# 运行Mistral（7B参数，需要4-8G内存）
ollama run mistral

# 运行Phi-3（3.8B参数，微软出品，轻量高效）
ollama run phi3

# 运行Qwen2.5（中文能力最强）
ollama run qwen2.5:7b

模型内存需求参考

模型	参数量	内存需求	适合VPS配置
gemma2:2b	2B	~2GB	1核2G起步
llama3.2	3B	~3GB	2核4G
phi3	3.8B	~4GB	2核4G
qwen2.5:7b	7B	~8GB	4核8G
mistral	7B	~8GB	4核8G

搭建Ollama Web界面

默认Ollama只有命令行界面。用Open WebUI给你一个ChatGPT风格的Web界面：

# 一键部署Open WebUI
docker run -d \
 -p 3000:8080 \
 --add-host=host.docker.internal:host-gateway \
 -v open-webui:/app/backend/data \
 --name open-webui \
 --restart always \
 ghcr.io/open-webui/open-webui:main

访问 http://你的VPS_IP:3000，注册账号就能用。

用Ollama API开发

Ollama提供REST API，可以集成到任何应用：

import requests

# 调用Ollama API
response = requests.post('http://localhost:11434/api/generate', json={
 'model': 'llama3.2',
 'prompt': '用中文解释什么是VPS',
 'stream': False
})

print(response.json()['response'])

实用AI应用案例

应用	说明	部署方式
私人ChatGPT	本地跑大模型的聊天界面	Ollama + Open WebUI
AI写作助手	帮你写文章、改文案	Ollama + 自定义prompt
代码助手	本地代码补全/生成	Ollama + Continue.dev
知识库问答	基于你的文档回答问题	Ollama + RAG方案

方案二：Stable Diffusion——VPS上跑AI绘画

虽然VPS没有GPU，但可以用CPU模式跑Stable Diffusion，速度慢点但能用。

使用ComfyUI部署

# 克隆ComfyUI
git clone https://github.com/comfyanonymous/ComfyUI
cd ComfyUI

# 安装依赖
pip install -r requirements.txt

# 下载模型（选择小模型）
mkdir -p models/checkpoints
cd models/checkpoints

# 下载SDXL Turbo（小巧快速）
wget https://huggingface.co/stabilityai/sdxl-turbo/resolve/main/sd_xl_turbo_1.0_fp16.safetensors

启动ComfyUI

# CPU模式启动
python main.py --cpu --listen 0.0.0.0 --port 8188

访问 http://你的VPS_IP:8188，就能在浏览器里生成图片。

CPU模式性能预期

分辨率	生成时间（CPU）	适合场景
512×512	3-5分钟	测试/学习
768×768	10-15分钟	低频使用
1024×1024	30+分钟	不推荐

💡 提示： CPU模式生成图片很慢，建议用小分辨率测试，满意后再用更高分辨率。如果需要频繁生成，考虑升级到GPU VPS（如 Vultr 的GPU实例）。

方案三：搭建AI Agent——自动化工作流

2026年最火的AI应用是Agent——让AI自动执行任务。用VPS搭一个私有AI Agent，帮你处理重复工作。

使用Dify搭建AI Agent

Dify是一个开源的AI应用开发平台，支持可视化构建AI工作流。

# 一键部署Dify
git clone https://github.com/langgenius/dify.git
cd dify/docker
cp .env.example .env

# 启动所有服务
docker compose up -d

访问 http://你的VPS_IP，注册后就能使用。

Dify能做什么

功能	说明	示例
AI聊天助手	自定义知识库的聊天机器人	客服机器人、技术答疑
文档分析	上传文档让AI分析总结	合同审查、报告生成
工作流编排	可视化搭建AI处理流程	自动回复邮件、数据处理
API集成	调用外部API完成复杂任务	查天气、查股价、发通知

搭建私有知识库

# 在Dify中创建知识库
# 1. 上传你的文档（PDF、Word、Markdown）
# 2. AI自动索引内容
# 3. 创建基于知识库的聊天应用

这样你就能问AI关于你自己文档的问题，比如：

“帮我总结这份合同的关键条款”
“根据我们的产品文档，回答客户问题”
“从这份报告中提取所有数据指标”

用AI辅助部署AI（2026正确姿势）

记住：不要手动写部署脚本，让AI帮你写。

示例：让AI写Docker Compose

在你的VPS上用Claude或ChatGPT：

# 用AI写部署脚本的prompt：
"帮我写一个docker-compose.yml，部署Ollama + Open WebUI，
 要求：
 1. Ollama暴露11434端口
 2. Open WebUI暴露3000端口
 3. 设置自动重启
 4. 挂载数据卷持久化"

AI会给你完整的docker-compose.yml，复制粘贴就能用。

示例：让AI写监控脚本

"帮我写一个bash脚本，每小时检查Ollama服务是否正常运行，
 如果挂了就自动重启，并发邮件通知我"

AI写出来的脚本可能比你自己写的更好。

性能优化建议

CPU模式下的优化

# 1. 调整Ollama并行数（减少内存占用）
export OLLAMA_NUM_PARALLEL=1

# 2. 使用较小的量化版本
ollama run qwen2.5:7b-q4_0 # 4-bit量化，内存减半

# 3. 设置内存限制（防止OOM）
docker run -d --memory=4g --name ollama ollama/ollama

VPS配置推荐

用途	最低配置	推荐配置	月成本
Ollama小模型（3B）	2核2G	2核4G	$3-5
Ollama大模型（7B）	2核4G	4核8G	$5-10
AI Agent平台	2核4G	4核8G	$5-10
SD图片生成（CPU）	2核8G	4核16G	$10-20

常见问题

Q: 普通VPS跑AI真的很慢吗？

看模型大小。3B参数的小模型（如Llama 3.2）在2核4G VPS上，生成一段话大概5-10秒，完全可以接受。7B模型会慢一些，但也不是不能用。

Q: 我用 RackNerd 年付$11.29的1核1G VPS能跑AI吗？

1G内存太小了，连最小的模型都跑不起来。至少需要4G内存。建议升级到 RackNerd 2核3.5G $32.49/年。

Q: AI生成的内容会占用很多磁盘空间吗？

一个7B模型大约4-5GB。如果你要下载多个模型测试，建议VPS至少有40G硬盘空间。

Q: Hostinger VPS适合跑AI吗？

Hostinger VPS性能不错，但价格相对高一些。如果是练手， RackNerd 更划算。如果是生产环境，Hostinger的稳定性更好。

Q: 需要什么编程基础？

零基础也能跟着本文部署。所有命令都是复制粘贴，不需要理解原理。如果你想进一步开发AI应用，学点Python会有帮助。

总结

2026年，用VPS玩AI已经不是极客专属。三套方案，丰俭由人：

方案	适合谁	核心价值
Ollama + WebUI	想要私人ChatGPT的用户	本地隐私AI助手
Stable Diffusion	想玩AI绘画的用户	无限生成创意图片
Dify AI Agent	想自动化工作的用户	AI驱动的工作流

💡 下一步： AI应用跑起来后，记得做安全加固，别让你的AI服务器裸奔。

Disclaimer: Some links are affiliate links. We may earn a commission at no extra cost to you.

2026年用VPS搭建私有AI助手：Ollama + Open WebUI完整教程

Thu, 28 May 2026 00:00:00 +0000

ChatGPT 每月 $20，Claude Pro 也是 $20，而且你问什么它都记着——你的 prompt、你的数据、你的隐私，全在别人的服务器上。

2026 年，开源大模型已经强到可以直接用了。Llama 3.1 405B、Mistral Large、Qwen 2.5……这些模型不需要你买几千美元的 GPU，一台普通 VPS 跑个 7B/8B 参数的小模型，响应速度已经够日常使用。

本文教你用 $5/月的 VPS 搭建一个完全属于自己的 ChatGPT 替代品：Ollama 跑模型 + Open WebUI 做前端，10 分钟部署完成。

你需要准备什么

准备项	说明	花费
VPS 服务器	2核4GB 起步，推荐 4核8GB	$5-10/月
域名（可选）	用于 HTTPS 访问	$0-12/年
SSH 工具	macOS 用 Terminal，Windows 用 PuTTY	免费

还没买 VPS？推荐这几款性价比高的：

VPS	配置	月付	适合场景	选购
RackNerd	2核 2GB 40GB	$1.99/月	跑小模型尝鲜	选购
Hostinger	2核 8GB 100GB	$9.99/月	跑 8B 模型流畅	选购
Vultr	2核 4GB 80GB	$24/月	需要更高性能	选购

重要提示： 纯 CPU 推理跑 7B 模型大概每秒 5-10 个 token，能用但不算快。如果需要 GPU 加速，Vultr 和 Lambda Labs 有 GPU VPS 选项，但价格在 $50+/月起。对于日常写代码、翻译、总结文档，CPU 推理完全够用。

第一步：SSH 登录 VPS

ssh root@你的VPS_IP

登录后先更新系统：

# Ubuntu/Debian
apt update && apt upgrade -y

# CentOS/RHEL
dnf update -y

第二步：安装 Ollama

Ollama 是一个类似 Docker 的工具，专门用来运行本地大模型，一行命令就能装好。

curl -fsSL https://ollama.com/install.sh | sh

安装完成后验证：

ollama --version
# 应该输出 ollama version 0.x.x

第三步：下载并运行模型

Ollama 支持几十种开源模型，以下是最适合 VPS 运行的几款：

模型	参数量	内存需求	速度（纯CPU）	推荐场景
qwen2.5:7b	7B	4GB+	~8 tokens/s	中文对话、翻译
llama3.1:8b	8B	4GB+	~7 tokens/s	英文写作、编程
mistral:7b	7B	4GB+	~8 tokens/s	欧洲语言、通用
gemma2:9b	9B	6GB+	~5 tokens/s	代码生成
phi3:mini	3.8B	2GB+	~15 tokens/s	轻量任务、响应快

推荐首次使用 qwen2.5:7b，中文能力强，4GB 内存就能跑：

# 下载并运行（首次约 4GB 下载）
ollama run qwen2.5:7b

# 进入对话界面后直接打字就能聊
>>> 你好，帮我写一封英文邮件

其他常用命令：

# 查看已下载的模型
ollama list

# 后台运行模型
ollama run qwen2.5:7b &

# 停止模型
ollama stop qwen2.5:7b

# 删除模型
ollama rm qwen2.5:7b

第四步：安装 Open WebUI（浏览器界面）

Ollama 自带命令行界面，但没有图形界面不方便。Open WebUI 是最好的开源替代品，界面和 ChatGPT 几乎一样。

# 一键部署（需要 Docker）
docker run -d \
 -p 3000:8080 \
 --add-host=host.docker.internal:host-gateway \
 -v open-webui:/app/backend/data \
 --name open-webui \
 --restart always \
 ghcr.io/open-webui/open-webui:main

没有 Docker？ 先装 Docker：

curl -fsSL https://get.docker.com | sh
systemctl enable docker && systemctl start docker

部署完成后，浏览器访问 http://你的VPS_IP:3000：

首次访问需要注册管理员账号（这是本地的，数据存在你 VPS 上）
注册后就能看到类似 ChatGPT 的界面
在模型选择器里选 qwen2.5:7b，开始对话

第五步：配置 HTTPS（可选但推荐）

如果要从外网安全访问，建议配 HTTPS：

# 安装 Caddy（自动 HTTPS）
apt install -y debian-keyring debian-archive-keyring apt-transport-https
curl -1sLf 'https://dl.cloudsmith.io/public/caddy/stable/gpg.key' | gpg --dearmor -o /usr/share/keyrings/caddy-stable-archive-keyring.gpg
curl -1sLf 'https://dl.cloudsmith.io/public/caddy/stable/debian.deb.txt' | tee /etc/apt/sources.list.d/caddy-stable.list
apt update && apt install caddy

配置 Caddy：

cat > /etc/caddy/Caddyfile << 'EOF'
ai.你的域名.com {
 reverse_proxy localhost:3000
}
EOF

systemctl restart caddy

这样就可以用 https://ai.你的域名.com 安全访问了。

性能实测：VPS 跑 AI 到底能用吗？

我在不同配置的 VPS 上测试了 qwen2.5:7b 的表现：

VPS 配置	推理速度	首 token 延迟	体验
2核 2GB (RackNerd)	~5 tokens/s	3-5秒	勉强能用，等得心急
2核 4GB (Hostinger)	~8 tokens/s	2-3秒	日常够用
4核 8GB (Vultr)	~12 tokens/s	1-2秒	流畅，接近 ChatGPT 体验
8核 16GB (高配)	~18 tokens/s	<1秒	非常流畅

结论： 4核8GB 是甜点配置，$5-10/月就能拥有一个完全私有的 AI 助手。

进阶玩法

1. 同时跑多个模型

# Ollama 默认允许同时加载多个模型
ollama run qwen2.5:7b &
ollama run llama3.1:8b &

2. API 调用（接入其他工具）

Ollama 提供 OpenAI 兼容的 API，可以直接替代 ChatGPT API：

curl http://localhost:11434/api/chat -d '{
 "model": "qwen2.5:7b",
 "messages": [{"role": "user", "content": "你好"}]
}'

3. 配合 n8n 做自动化

如果你在用 n8n（工作流自动化工具），可以把 Ollama 作为 AI 节点：

自动翻译邮件
自动生成社交媒体内容
自动总结长文档

常见问题

Q: 7B 模型和 ChatGPT 差距大吗？

差距存在但越来越小。7B 模型在中文对话、简单编程、翻译、总结等日常任务上已经够用。复杂推理、长文写作、多轮对话的连贯性还是 ChatGPT/Claude 更强。但对于隐私敏感场景（公司内部、个人日记、医疗咨询），本地模型是唯一选择。

Q: 内存不够怎么办？

可以用更小的模型（phi3:mini 只要 2GB），或者开启 Ollama 的量化模式：

OLLAMA_NUM_GPU_LAYERS=0 ollama run qwen2.5:7b

Q: 能不能加 GPU？

VPS 一般不支持加 GPU。如果需要 GPU 加速，考虑：

Vultr GPU VPS（$90+/月）
Lambda Labs（$10+/小时 GPU 实例）
或者用苹果 Mac Mini/M4 当本地服务器

Q: 和直接用 ChatGPT API 比哪个划算？

ChatGPT API 按 token 计费，GPT-4o 大约 $2.5/百万 input token。如果你每天对话量不大（<1万 token），API 更便宜。但如果你需要大量使用、或处理敏感数据，自托管 VPS 一次投入长期免费，而且完全没有数据泄露风险。

下一步

部署完成后，试试让 AI 帮你写周报、翻译文档、生成代码
想要更好的体验？ 加内存到 16GB，跑 14B 参数的模型
想做自动化？ 看我们的 n8n + Ollama 自动化工作流教程

选购推荐

需求	推荐 VPS	月付	选购
尝鲜跑 3B 模型	RackNerd 2核2GB	$1.99/月	选购
主力跑 7B 模型	Hostinger 4核8GB	$9.99/月	选购
高性能跑大模型	Vultr 8核16GB	$96/月	选购

Disclaimer: Some links are affiliate links. We may earn a commission at no extra cost to you.