2026年用VPS自建RAG知识库：Ollama + ChromaDB 低成本AI问答方案

先说结论：RAG 不需要 GPU VPS，但需要靠谱的内存和磁盘

如果你正在考虑用自己的服务器跑一个能读文档、答问题的 AI 助手，RAG（检索增强生成）是目前性价比最高的方案。它不需要昂贵的 GPU 服务器，也不需要订阅任何付费 API——关键组件全部开源免费，一台 $5/月的 VPS 就能稳定运行。

我的推荐是：

轻量级 RAG（千级文档内）：RackNerd 年付促销 VPS（1GB RAM + 20GB NVMe），适合个人知识库
生产级 RAG（万级文档 + n8n 自动化）：Hostinger VPS（2-4GB RAM + 60GB NVMe），面板友好、部署省心
需要多模型切换或 GPU 加速：Vultr Cloud Compute（按需扩容，支持 GPU 实例）

RAG 到底是什么？为什么你需要它

传统的 AI 模型有个致命缺陷：它们不知道你家公司的数据、你的私人文档、你那几千篇 PDF 报告里写了什么。

RAG 解决的就是这个问题。它的工作流程很简单：

你把文档（PDF、网页、Markdown）喂给向量数据库（如 ChromaDB、Qdrant、Weaviate）
当用户提问时，系统先在向量库中检索相关片段
把这些片段加上问题一起发给 LLM，让模型基于"事实"回答

这样做的好处：

回答基于你的真实数据，不会编造幻觉
随时更新文档，AI 的知识库实时同步
不需要微调模型，训练成本为零
数据不出你的服务器，隐私可控

方案对比：三档 VPS 怎么选

方案	RackNerd 促销 VPS	Hostinger VPS	Vultr Cloud Compute
月费预算	$1-$3/月（年付）	$5-$10/月	$5-$15/月
典型配置	1 vCPU / 1GB RAM / 20GB NVMe	2 vCPU / 2-4GB RAM / 60GB NVMe	2 vCPU / 4GB RAM / 80GB NVMe
文档量级	500-2000 篇以内	2000-10000 篇	10000+ 篇
适合谁	学生、个人用户、验证想法	中小企业、团队知识库	生产环境、高并发场景
优点	极其便宜，年付不到$30	面板好用，AI 定位清晰，售后好	机房全球覆盖，按小时计费灵活
缺点	库存变化快，无 SLA	续费价格翻倍，长周期更划算	同配置年付未必最便宜
选购	查看 RackNerd	查看 Hostinger	查看 Vultr

完整架构：你会搭建什么

整个系统由四个核心组件组成：

组件	角色	推荐方案
LLM（大语言模型）	理解问题、生成回答	Ollama + Llama 3.1 8B 或 Qwen 2.5 7B（本地跑）
Embedding 模型	把文本转成向量	Ollama 内嵌的 `nomic-embed-text` 或 `mxbai-embed-large`
向量数据库	存储和检索向量	ChromaDB（轻量、内存级、适合中小规模）
自动化编排	文档 ingestion + API 服务	n8n 或 Python FastAPI

运行资源需求：

组件	CPU	内存	磁盘
Ollama（Llama 3.1 8B）	2 vCPU	4GB（推理时峰值）	8GB 模型权重
ChromaDB	0.5 vCPU	500MB-2GB（取决于文档量）	每个 10 万向量约 1-2GB
n8n	0.5 vCPU	500MB	1-3GB
总计	2-3 vCPU	6-10GB	12-20GB

⚠️ 如果你的 VPS 只有 1GB RAM，可以改用 2GB swap + 小模型（如 Phi-3 mini），但推理速度会变慢。强烈建议至少 2GB RAM。

部署步骤（Docker Compose 一键搭建）

以下是在一台干净 Ubuntu 22.04/24.04 VPS 上完成整个系统的步骤。

第 1 步：安装 Docker 和 Docker Compose

# 更新系统
sudo apt update && sudo apt upgrade -y

# 安装 Docker
curl -fsSL https://get.docker.com | sh
sudo usermod -aG docker $USER

# 验证
docker --version && docker compose version

第 2 步：创建项目目录和 compose 文件

mkdir -p ~/rag-stack && cd ~/rag-stack

创建 docker-compose.yml：

services:
  ollama:
    image: ollama/ollama:latest
    container_name: ollama
    ports:
      - "11434:11434"
    volumes:
      - ollama_data:/root/.ollama
    restart: unless-stopped

  chroma:
    image: chromadb/chroma:latest
    container_name: chroma
    ports:
      - "8000:8000"
    volumes:
      - chroma_data:/data/chroma
    restart: unless-stopped

  n8n:
    image: docker.n8n.io/n8nio/n8n:latest
    container_name: n8n
    ports:
      - "5678:5678"
    environment:
      - N8N_SECURE_COOKIE=false
    volumes:
      - n8n_data:/home/node/.n8n
    restart: unless-stopped

volumes:
  ollama_data:
  chroma_data:
  n8n_data:

启动：

docker compose up -d

第 3 步：下载并加载模型

# 拉取 LLM 模型（Llama 3.1 8B，适合 2-4GB RAM）
docker exec -it ollama ollama pull llama3.1

# 拉取 Embedding 模型
docker exec -it ollama ollama pull nomic-embed-text

如果你的 VPS 只有 2GB RAM，可以改用更小的模型：

docker exec -it ollama ollama pull phi3
docker exec -it ollama ollama pull nomic-embed-text

第 4 步：验证服务

# Ollama API
curl http://localhost:11434/api/tags

# ChromaDB
curl http://localhost:8000/api/v1/heartbeat

# n8n
curl http://localhost:5678/

三个都返回 200 就说明部署成功。

把文档喂给 RAG 系统

方案 A：用 n8n 可视化编排（推荐新手）

浏览器访问 http://你的VPS_IP:5678，登录 n8n
创建新 Workflow，使用以下节点链：
- File Trigger 或 HTTP Request → 获取文档
- PDF Parse / Web Page → 提取文字
- LLM Chain（Embedding 节点）→ 使用 Ollama API 生成向量
- ChromaDB → 存入向量库
测试 Workflow，上传一篇 PDF 验证能否存入 ChromaDB

方案 B：用 Python 脚本批量入库

如果你更喜欢代码方式，可以用这段最小可用脚本：

import chromadb
from llama_index.core import VectorStoreIndex, SimpleDirectoryReader
from llama_index.embeddings.ollama import OllamaEmbedding
from llama_index.llms.ollama import Ollama

# 连接本地 Ollama
embed_model = OllamaEmbedding(model_name="nomic-embed-text")
llm = Ollama(model="llama3.1", request_timeout=120)

# 加载文档
documents = SimpleDirectoryReader("./docs").load_data()

# 创建索引并存储到 ChromaDB
chroma_client = chromadb.PersistentClient(path="./chroma_db")
vector_store = ChromaVectorStore(chroma_collection=chroma_client.get_or_create_collection("kb"))
index = VectorStoreIndex.from_vector_store(vector_store)
index.insert_documents(documents)

print("文档已入库，共", len(documents), "份")

通过 API 实现问答

RAG 系统的核心接口是一个简单的 REST API，接收用户问题，返回基于知识库的回答：

from fastapi import FastAPI
from llama_index.core import VectorStoreIndex
from llama_index.embeddings.ollama import OllamaEmbedding
from llama_index.llms.ollama import Ollama

app = FastAPI()
embed_model = OllamaEmbedding(model_name="nomic-embed-text")
llm = Ollama(model="llama3.1", request_timeout=120)
index = VectorStoreIndex.from_vector_store(
    ChromaVectorStore(chroma_collection=chroma_client.get_or_create_collection("kb"))
)

@app.post("/ask")
def ask_question(question: str):
    retriever = index.as_retriever(similarity_top_k=3)
    nodes = retriever.retrieve(question)
    context = "\n\n".join([node.text for node in nodes])
    response = llm.complete(f"根据以下信息回答问题：\n{context}\n问题：{question}")
    return {"answer": response.text}

这个 API 你可以集成到 Telegram Bot、Discord Bot、网页前端或任何你想用的入口。

成本估算

项目	月费	说明
RackNerd KVM VPS	$1-$3/月	年付促销常见 $12.88-$29.99/年，1GB RAM
Hostinger VPS	$5-$10/月	2GB 起步，面板+面板+面板，省心
Vultr Cloud Compute	$5-$15/月	按需扩容，小时计费，灵活
域名	$10/年	选配，给 API 加个域名更好
模型 API	$0	Ollama 本地跑，零费用
ChromaDB	$0	开源免费
n8n	$0	自托管免费

结论：一台最便宜的 RackNerd VPS，每月只需 $1 就能跑完整的 RAG 系统。 如果追求稳定体验，Hostinger $5-10/月的方案是性价比最优解。

常见问题

Q: 1GB RAM 的 VPS 能跑吗？

可以，但体验打折扣。ChromaDB + Ollama 在 1GB 下会频繁使用 swap，推理速度可能降到 2-3 tokens/秒。建议至少 2GB RAM，Phi-3 模型能在 2GB 下稳定运行。

Q: 文档量大了 ChromaDB 会撑不住吗？

ChromaDB 是内存级向量库，单实例适合 50 万向量以内。超过这个量，可以迁移到 Qdrant 或 Milvus，它们对大规模向量有更好的持久化支持。

Q: 可以用 API 模型代替 Ollama 吗？

可以，但那样每月 API 费用会快速上升。如果已经有 OpenAI API Key，可以把 Ollama 换成 openai embedding + gpt-4o-mini 生成，但成本大约 $5-20/月，取决于文档量和调用频率。

Q: 数据安全吗？

RAG 方案最大的优势就是数据不出服务器。Ollama、ChromaDB、n8n 全部跑在你自己的 VPS 上，没有第三方能访问你的文档内容。如果你担心 VPS 服务商本身，可以用 Cloudflare Tunnel 对外暴露 API 而不出真实 IP。

Q: 多久更新一次知识库？

n8n 可以设置定时 Workflow，比如每天早上 6 点自动扫描 /docs/ 目录下新增的 PDF，自动解析并入库。新文档立即生效，无需重启服务。

总结：你的第一台 RAG 服务器该怎么买

你的场景	推荐方案	预算
学生/个人，验证想法	RackNerd 年付促销	$12-$30/年
中小企业团队知识库	Hostinger VPS	$5-$10/月
需要按小时灵活扩容	Vultr	$5-$15/月

RAG 不是一项新技术，但在 2026 年，用 Docker Compose 一行命令搭起一个完整的知识库 AI 系统，仍然是性价比最高的 AI 落地路径。不花一分钱 API 费，你的 AI 就拥有了专属大脑。