2026年,AI已经不是大公司的专利了。
一台普通VPS,月花几美元,就能跑起Ollama大模型、部署AI写作助手、搭建私有知识库。不需要显卡,不需要高配,甚至不需要你会写代码——因为AI已经能帮你写部署脚本了。
今天教你在VPS上部署三种最实用的AI应用,全程手把手。
本文适合谁: 想玩AI但不想花大钱买显卡的用户。如果你还没买VPS,推荐 RackNerd 2核4G $43.88/年,性价比最高的AI练手机。
为什么用VPS部署AI?
| 方案 | 月成本 | 上手难度 | 灵活性 |
|---|---|---|---|
| 云GPU(AWS/Google) | $50-500 | ⭐⭐⭐ | ⭐⭐⭐ |
| 本地显卡 | $300-2000一次性 | ⭐⭐ | ⭐ |
| 普通VPS | $3-10 | ⭐ | ⭐⭐⭐ |
没错,普通VPS(无GPU)也能跑AI。关键在于:
- 选择合适的模型——不是所有AI都需要GPU
- 用量化版本——4-bit/8-bit量化让CPU也能跑
- 用API中转——本地跑小模型,复杂任务调用云端API
准备工作
| 准备事项 | 说明 | 推荐配置 |
|---|---|---|
| VPS | 至少2核4G内存 | RackNerd 2核3.5G $32.49/年 |
| SSH客户端 | macOS Terminal / Windows Terminal | — |
| Docker | 部署AI应用 | 后面安装 |
💡 内存很重要: 跑AI应用至少需要4G内存,推荐8G。 Hostinger 4核8G VPS月付$9.99是不错的选择。
方案一:Ollama——本地跑大语言模型
Ollama是最简单的本地AI部署方案,一键安装,一键运行模型。
安装Ollama
curl -fsSL https://ollama.com/install.sh | sh
验证安装:
ollama --version
下载并运行模型
# 运行Llama 3.2(3B参数,适合2-4G内存VPS)
ollama run llama3.2
# 运行Mistral(7B参数,需要4-8G内存)
ollama run mistral
# 运行Phi-3(3.8B参数,微软出品,轻量高效)
ollama run phi3
# 运行Qwen2.5(中文能力最强)
ollama run qwen2.5:7b
模型内存需求参考
| 模型 | 参数量 | 内存需求 | 适合VPS配置 |
|---|---|---|---|
| gemma2:2b | 2B | ~2GB | 1核2G起步 |
| llama3.2 | 3B | ~3GB | 2核4G |
| phi3 | 3.8B | ~4GB | 2核4G |
| qwen2.5:7b | 7B | ~8GB | 4核8G |
| mistral | 7B | ~8GB | 4核8G |
搭建Ollama Web界面
默认Ollama只有命令行界面。用Open WebUI给你一个ChatGPT风格的Web界面:
# 一键部署Open WebUI
docker run -d \
-p 3000:8080 \
--add-host=host.docker.internal:host-gateway \
-v open-webui:/app/backend/data \
--name open-webui \
--restart always \
ghcr.io/open-webui/open-webui:main
访问 http://你的VPS_IP:3000,注册账号就能用。
用Ollama API开发
Ollama提供REST API,可以集成到任何应用:
import requests
# 调用Ollama API
response = requests.post('http://localhost:11434/api/generate', json={
'model': 'llama3.2',
'prompt': '用中文解释什么是VPS',
'stream': False
})
print(response.json()['response'])
实用AI应用案例
| 应用 | 说明 | 部署方式 |
|---|---|---|
| 私人ChatGPT | 本地跑大模型的聊天界面 | Ollama + Open WebUI |
| AI写作助手 | 帮你写文章、改文案 | Ollama + 自定义prompt |
| 代码助手 | 本地代码补全/生成 | Ollama + Continue.dev |
| 知识库问答 | 基于你的文档回答问题 | Ollama + RAG方案 |
方案二:Stable Diffusion——VPS上跑AI绘画
虽然VPS没有GPU,但可以用CPU模式跑Stable Diffusion,速度慢点但能用。
使用ComfyUI部署
# 克隆ComfyUI
git clone https://github.com/comfyanonymous/ComfyUI
cd ComfyUI
# 安装依赖
pip install -r requirements.txt
# 下载模型(选择小模型)
mkdir -p models/checkpoints
cd models/checkpoints
# 下载SDXL Turbo(小巧快速)
wget https://huggingface.co/stabilityai/sdxl-turbo/resolve/main/sd_xl_turbo_1.0_fp16.safetensors
启动ComfyUI
# CPU模式启动
python main.py --cpu --listen 0.0.0.0 --port 8188
访问 http://你的VPS_IP:8188,就能在浏览器里生成图片。
CPU模式性能预期
| 分辨率 | 生成时间(CPU) | 适合场景 |
|---|---|---|
| 512×512 | 3-5分钟 | 测试/学习 |
| 768×768 | 10-15分钟 | 低频使用 |
| 1024×1024 | 30+分钟 | 不推荐 |
💡 提示: CPU模式生成图片很慢,建议用小分辨率测试,满意后再用更高分辨率。如果需要频繁生成,考虑升级到GPU VPS(如 Vultr 的GPU实例)。
方案三:搭建AI Agent——自动化工作流
2026年最火的AI应用是Agent——让AI自动执行任务。用VPS搭一个私有AI Agent,帮你处理重复工作。
使用Dify搭建AI Agent
Dify是一个开源的AI应用开发平台,支持可视化构建AI工作流。
# 一键部署Dify
git clone https://github.com/langgenius/dify.git
cd dify/docker
cp .env.example .env
# 启动所有服务
docker compose up -d
访问 http://你的VPS_IP,注册后就能使用。
Dify能做什么
| 功能 | 说明 | 示例 |
|---|---|---|
| AI聊天助手 | 自定义知识库的聊天机器人 | 客服机器人、技术答疑 |
| 文档分析 | 上传文档让AI分析总结 | 合同审查、报告生成 |
| 工作流编排 | 可视化搭建AI处理流程 | 自动回复邮件、数据处理 |
| API集成 | 调用外部API完成复杂任务 | 查天气、查股价、发通知 |
搭建私有知识库
# 在Dify中创建知识库
# 1. 上传你的文档(PDF、Word、Markdown)
# 2. AI自动索引内容
# 3. 创建基于知识库的聊天应用
这样你就能问AI关于你自己文档的问题,比如:
- “帮我总结这份合同的关键条款”
- “根据我们的产品文档,回答客户问题”
- “从这份报告中提取所有数据指标”
用AI辅助部署AI(2026正确姿势)
记住:不要手动写部署脚本,让AI帮你写。
示例:让AI写Docker Compose
在你的VPS上用Claude或ChatGPT:
# 用AI写部署脚本的prompt:
"帮我写一个docker-compose.yml,部署Ollama + Open WebUI,
要求:
1. Ollama暴露11434端口
2. Open WebUI暴露3000端口
3. 设置自动重启
4. 挂载数据卷持久化"
AI会给你完整的docker-compose.yml,复制粘贴就能用。
示例:让AI写监控脚本
"帮我写一个bash脚本,每小时检查Ollama服务是否正常运行,
如果挂了就自动重启,并发邮件通知我"
AI写出来的脚本可能比你自己写的更好。
性能优化建议
CPU模式下的优化
# 1. 调整Ollama并行数(减少内存占用)
export OLLAMA_NUM_PARALLEL=1
# 2. 使用较小的量化版本
ollama run qwen2.5:7b-q4_0 # 4-bit量化,内存减半
# 3. 设置内存限制(防止OOM)
docker run -d --memory=4g --name ollama ollama/ollama
VPS配置推荐
| 用途 | 最低配置 | 推荐配置 | 月成本 |
|---|---|---|---|
| Ollama小模型(3B) | 2核2G | 2核4G | $3-5 |
| Ollama大模型(7B) | 2核4G | 4核8G | $5-10 |
| AI Agent平台 | 2核4G | 4核8G | $5-10 |
| SD图片生成(CPU) | 2核8G | 4核16G | $10-20 |
常见问题
Q: 普通VPS跑AI真的很慢吗?
看模型大小。3B参数的小模型(如Llama 3.2)在2核4G VPS上,生成一段话大概5-10秒,完全可以接受。7B模型会慢一些,但也不是不能用。
Q: 我用 RackNerd 年付$11.29的1核1G VPS能跑AI吗?
1G内存太小了,连最小的模型都跑不起来。至少需要4G内存。建议升级到 RackNerd 2核3.5G $32.49/年。
Q: AI生成的内容会占用很多磁盘空间吗?
一个7B模型大约4-5GB。如果你要下载多个模型测试,建议VPS至少有40G硬盘空间。
Q: Hostinger VPS适合跑AI吗?
Hostinger VPS性能不错,但价格相对高一些。如果是练手, RackNerd 更划算。如果是生产环境,Hostinger的稳定性更好。
Q: 需要什么编程基础?
零基础也能跟着本文部署。所有命令都是复制粘贴,不需要理解原理。如果你想进一步开发AI应用,学点Python会有帮助。
总结
2026年,用VPS玩AI已经不是极客专属。三套方案,丰俭由人:
| 方案 | 适合谁 | 核心价值 |
|---|---|---|
| Ollama + WebUI | 想要私人ChatGPT的用户 | 本地隐私AI助手 |
| Stable Diffusion | 想玩AI绘画的用户 | 无限生成创意图片 |
| Dify AI Agent | 想自动化工作的用户 | AI驱动的工作流 |
💡 下一步: AI应用跑起来后,记得做安全加固,别让你的AI服务器裸奔。
Disclaimer: Some links are affiliate links. We may earn a commission at no extra cost to you.
