<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom"><channel><title>AI 聊天 on 诚实雷达</title><link>https://honestradar.com/tags/ai-%E8%81%8A%E5%A4%A9/</link><description>Recent content in AI 聊天 on 诚实雷达</description><generator>Hugo -- gohugo.io</generator><language>zh-cn</language><lastBuildDate>Thu, 02 Jul 2026 00:00:00 +0000</lastBuildDate><atom:link href="https://honestradar.com/tags/ai-%E8%81%8A%E5%A4%A9/index.xml" rel="self" type="application/rss+xml"/><item><title>2026 年最佳自托管 AI 聊天界面：Open WebUI + Ollama 在 VPS 上的完整部署指南</title><link>https://honestradar.com/vps-hosting/open-webui-ollama-vps-2026/</link><pubDate>Thu, 02 Jul 2026 00:00:00 +0000</pubDate><guid>https://honestradar.com/vps-hosting/open-webui-ollama-vps-2026/</guid><description>&lt;img src="https://honestradar.com/images/open-webui-ollama-vps-2026.jpg" alt="Featured image of post 2026 年最佳自托管 AI 聊天界面：Open WebUI + Ollama 在 VPS 上的完整部署指南" /&gt;&lt;p&gt;如果你用过 ChatGPT Plus（每月 $20），你可能已经习惯了流畅的对话体验、丰富的插件生态和可靠的响应速度。但你有没有想过，同样的体验可以花不到 $5/月在自己的 VPS 上跑出来，而且所有数据完全私有？&lt;/p&gt;
&lt;p&gt;2026 年，&lt;strong&gt;Open WebUI + Ollama&lt;/strong&gt; 的组合已经成熟到可以替代大多数日常 AI 交互场景。Open WebUI 提供类 ChatGPT 的用户界面，Ollama 负责本地模型推理，两者通过 Docker Compose 一键部署在任意 VPS 上。&lt;/p&gt;
&lt;p&gt;本文将手把手教你从零搭建这套系统，并对比不同 VPS 提供商的成本和性能表现。&lt;/p&gt;
&lt;hr&gt;
&lt;h2 id="open-webui--ollama-是什么组合"&gt;Open WebUI + Ollama 是什么组合？
&lt;/h2&gt;&lt;table&gt;
 &lt;thead&gt;
 &lt;tr&gt;
 &lt;th&gt;组件&lt;/th&gt;
 &lt;th&gt;作用&lt;/th&gt;
 &lt;th&gt;特点&lt;/th&gt;
 &lt;/tr&gt;
 &lt;/thead&gt;
 &lt;tbody&gt;
 &lt;tr&gt;
 &lt;td&gt;&lt;strong&gt;Open WebUI&lt;/strong&gt;&lt;/td&gt;
 &lt;td&gt;前端聊天界面&lt;/td&gt;
 &lt;td&gt;开源、类 ChatGPT UI、支持多模型、插件系统、RAG 知识库&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;&lt;strong&gt;Ollama&lt;/strong&gt;&lt;/td&gt;
 &lt;td&gt;后端 LLM 推理引擎&lt;/td&gt;
 &lt;td&gt;本地运行、支持 50+ 模型、GPU 加速、API 兼容 OpenAI&lt;/td&gt;
 &lt;/tr&gt;
 &lt;/tbody&gt;
&lt;/table&gt;
&lt;p&gt;这个组合的核心优势在于：&lt;strong&gt;你拥有完整的控制权&lt;/strong&gt;。模型选择、数据留存、插件安装、知识库挂载——一切都在你的 VPS 上完成，无需经过任何第三方服务。&lt;/p&gt;
&lt;hr&gt;
&lt;h2 id="硬件需求5月的-vps-够用吗"&gt;硬件需求：$5/月的 VPS 够用吗？
&lt;/h2&gt;&lt;p&gt;对于纯 CPU 推理（Qwen2.5-7B、Llama 3.2-3B 等量化模型），一台基础 VPS 完全可以胜任：&lt;/p&gt;
&lt;table&gt;
 &lt;thead&gt;
 &lt;tr&gt;
 &lt;th&gt;配置&lt;/th&gt;
 &lt;th&gt;推荐场景&lt;/th&gt;
 &lt;th&gt;月费参考&lt;/th&gt;
 &lt;/tr&gt;
 &lt;/thead&gt;
 &lt;tbody&gt;
 &lt;tr&gt;
 &lt;td&gt;2 vCPU / 4GB RAM&lt;/td&gt;
 &lt;td&gt;轻量模型（3B-7B Q4 量化）&lt;/td&gt;
 &lt;td&gt;RackNerd $2.67/mo, Hostinger VPS Pro $4.99/mo&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;4 vCPU / 8GB RAM&lt;/td&gt;
 &lt;td&gt;中等模型（13B Q4 量化）&lt;/td&gt;
 &lt;td&gt;Vultr $6/mo, Hostinger VPS Business $9.99/mo&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;8 vCPU / 16GB RAM + GPU&lt;/td&gt;
 &lt;td&gt;大模型推理（70B 量化）&lt;/td&gt;
 &lt;td&gt;RackNerd GPU VPS $29/mo 起&lt;/td&gt;
 &lt;/tr&gt;
 &lt;/tbody&gt;
&lt;/table&gt;
&lt;p&gt;&lt;strong&gt;我们的推荐起点&lt;/strong&gt;：RackNerd 的 $2.67/月入门 VPS（2 vCPU / 1GB RAM / 25GB NVMe），搭配 Hostinger VPS Pro（4 vCPU / 8GB RAM）作为进阶选择。两者都支持按月付费，没有隐藏费用。&lt;/p&gt;
&lt;p&gt;&lt;a class="link" href="https://racknerd.com/?ref=19978" target="_blank" rel="noopener"
 &gt;RackNerd 入门 VPS&lt;/a&gt; 提供全球多个数据中心（包括洛杉矶、达拉斯、阿姆斯特丹），NVMe SSD 保证磁盘 IO 性能，适合首次部署。&lt;/p&gt;
&lt;p&gt;&lt;a class="link" href="https://www.hostinger.com/vps-hosting?REFERRALCODE=JZ1ZL8465QCG" target="_blank" rel="noopener"
 &gt;Hostinger VPS Pro&lt;/a&gt; 则提供更充裕的内存配置，8GB RAM 足以流畅运行 13B 参数模型的 4-bit 量化版本。&lt;/p&gt;
&lt;hr&gt;
&lt;h2 id="完整部署步骤"&gt;完整部署步骤
&lt;/h2&gt;&lt;h3 id="第一步准备-vps-环境"&gt;第一步：准备 VPS 环境
&lt;/h3&gt;&lt;p&gt;选择 Debian 12 或 Ubuntu 24.04 作为操作系统。SSH 登录到你的 VPS：&lt;/p&gt;
&lt;div class="highlight"&gt;&lt;pre tabindex="0" style="color:#f8f8f2;background-color:#272822;-moz-tab-size:4;-o-tab-size:4;tab-size:4;-webkit-text-size-adjust:none;"&gt;&lt;code class="language-bash" data-lang="bash"&gt;&lt;span style="display:flex;"&gt;&lt;span&gt;ssh root@your-vps-ip
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/div&gt;&lt;p&gt;安装 Docker 和 Docker Compose：&lt;/p&gt;
&lt;div class="highlight"&gt;&lt;pre tabindex="0" style="color:#f8f8f2;background-color:#272822;-moz-tab-size:4;-o-tab-size:4;tab-size:4;-webkit-text-size-adjust:none;"&gt;&lt;code class="language-bash" data-lang="bash"&gt;&lt;span style="display:flex;"&gt;&lt;span&gt;curl -fsSL https://get.docker.com | sh
&lt;/span&gt;&lt;/span&gt;&lt;span style="display:flex;"&gt;&lt;span&gt;systemctl enable --now docker
&lt;/span&gt;&lt;/span&gt;&lt;span style="display:flex;"&gt;&lt;span&gt;docker compose version
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/div&gt;&lt;h3 id="第二步创建项目目录"&gt;第二步：创建项目目录
&lt;/h3&gt;&lt;div class="highlight"&gt;&lt;pre tabindex="0" style="color:#f8f8f2;background-color:#272822;-moz-tab-size:4;-o-tab-size:4;tab-size:4;-webkit-text-size-adjust:none;"&gt;&lt;code class="language-bash" data-lang="bash"&gt;&lt;span style="display:flex;"&gt;&lt;span&gt;mkdir -p ~/open-webui &lt;span style="color:#f92672"&gt;&amp;amp;&amp;amp;&lt;/span&gt; cd ~/open-webui
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/div&gt;&lt;h3 id="第三步编写-docker-composeyml"&gt;第三步：编写 docker-compose.yml
&lt;/h3&gt;&lt;div class="highlight"&gt;&lt;pre tabindex="0" style="color:#f8f8f2;background-color:#272822;-moz-tab-size:4;-o-tab-size:4;tab-size:4;-webkit-text-size-adjust:none;"&gt;&lt;code class="language-yaml" data-lang="yaml"&gt;&lt;span style="display:flex;"&gt;&lt;span&gt;&lt;span style="color:#f92672"&gt;version&lt;/span&gt;: &lt;span style="color:#e6db74"&gt;&amp;#34;3.8&amp;#34;&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span style="display:flex;"&gt;&lt;span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span style="display:flex;"&gt;&lt;span&gt;&lt;span style="color:#f92672"&gt;services&lt;/span&gt;:
&lt;/span&gt;&lt;/span&gt;&lt;span style="display:flex;"&gt;&lt;span&gt; &lt;span style="color:#f92672"&gt;ollama&lt;/span&gt;:
&lt;/span&gt;&lt;/span&gt;&lt;span style="display:flex;"&gt;&lt;span&gt; &lt;span style="color:#f92672"&gt;image&lt;/span&gt;: &lt;span style="color:#ae81ff"&gt;ollama/ollama:latest&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span style="display:flex;"&gt;&lt;span&gt; &lt;span style="color:#f92672"&gt;container_name&lt;/span&gt;: &lt;span style="color:#ae81ff"&gt;ollama&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span style="display:flex;"&gt;&lt;span&gt; &lt;span style="color:#f92672"&gt;restart&lt;/span&gt;: &lt;span style="color:#ae81ff"&gt;unless-stopped&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span style="display:flex;"&gt;&lt;span&gt; &lt;span style="color:#f92672"&gt;ports&lt;/span&gt;:
&lt;/span&gt;&lt;/span&gt;&lt;span style="display:flex;"&gt;&lt;span&gt; - &lt;span style="color:#e6db74"&gt;&amp;#34;11434:11434&amp;#34;&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span style="display:flex;"&gt;&lt;span&gt; &lt;span style="color:#f92672"&gt;volumes&lt;/span&gt;:
&lt;/span&gt;&lt;/span&gt;&lt;span style="display:flex;"&gt;&lt;span&gt; - &lt;span style="color:#ae81ff"&gt;ollama-data:/root/.ollama&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span style="display:flex;"&gt;&lt;span&gt; &lt;span style="color:#75715e"&gt;# 如果有 GPU，取消下面这行的注释&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span style="display:flex;"&gt;&lt;span&gt; &lt;span style="color:#75715e"&gt;# deploy:&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span style="display:flex;"&gt;&lt;span&gt; &lt;span style="color:#75715e"&gt;# resources:&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span style="display:flex;"&gt;&lt;span&gt; &lt;span style="color:#75715e"&gt;# reservations:&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span style="display:flex;"&gt;&lt;span&gt; &lt;span style="color:#75715e"&gt;# devices:&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span style="display:flex;"&gt;&lt;span&gt; &lt;span style="color:#75715e"&gt;# - driver: nvidia&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span style="display:flex;"&gt;&lt;span&gt; &lt;span style="color:#75715e"&gt;# count: 1&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span style="display:flex;"&gt;&lt;span&gt; &lt;span style="color:#75715e"&gt;# capabilities: [gpu]&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span style="display:flex;"&gt;&lt;span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span style="display:flex;"&gt;&lt;span&gt; &lt;span style="color:#f92672"&gt;open-webui&lt;/span&gt;:
&lt;/span&gt;&lt;/span&gt;&lt;span style="display:flex;"&gt;&lt;span&gt; &lt;span style="color:#f92672"&gt;image&lt;/span&gt;: &lt;span style="color:#ae81ff"&gt;ghcr.io/open-webui/open-webui:main&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span style="display:flex;"&gt;&lt;span&gt; &lt;span style="color:#f92672"&gt;container_name&lt;/span&gt;: &lt;span style="color:#ae81ff"&gt;open-webui&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span style="display:flex;"&gt;&lt;span&gt; &lt;span style="color:#f92672"&gt;restart&lt;/span&gt;: &lt;span style="color:#ae81ff"&gt;unless-stopped&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span style="display:flex;"&gt;&lt;span&gt; &lt;span style="color:#f92672"&gt;ports&lt;/span&gt;:
&lt;/span&gt;&lt;/span&gt;&lt;span style="display:flex;"&gt;&lt;span&gt; - &lt;span style="color:#e6db74"&gt;&amp;#34;8080:8080&amp;#34;&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span style="display:flex;"&gt;&lt;span&gt; &lt;span style="color:#f92672"&gt;environment&lt;/span&gt;:
&lt;/span&gt;&lt;/span&gt;&lt;span style="display:flex;"&gt;&lt;span&gt; - &lt;span style="color:#ae81ff"&gt;OLLAMA_BASE_URL=http://ollama:11434&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span style="display:flex;"&gt;&lt;span&gt; - &lt;span style="color:#ae81ff"&gt;WEBUI_SECRET_KEY=$(openssl rand -hex 32)&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span style="display:flex;"&gt;&lt;span&gt; &lt;span style="color:#f92672"&gt;volumes&lt;/span&gt;:
&lt;/span&gt;&lt;/span&gt;&lt;span style="display:flex;"&gt;&lt;span&gt; - &lt;span style="color:#ae81ff"&gt;open-webui-data:/app/backend/data&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span style="display:flex;"&gt;&lt;span&gt; &lt;span style="color:#f92672"&gt;depends_on&lt;/span&gt;:
&lt;/span&gt;&lt;/span&gt;&lt;span style="display:flex;"&gt;&lt;span&gt; - &lt;span style="color:#ae81ff"&gt;ollama&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span style="display:flex;"&gt;&lt;span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span style="display:flex;"&gt;&lt;span&gt;&lt;span style="color:#f92672"&gt;volumes&lt;/span&gt;:
&lt;/span&gt;&lt;/span&gt;&lt;span style="display:flex;"&gt;&lt;span&gt; &lt;span style="color:#f92672"&gt;ollama-data&lt;/span&gt;:
&lt;/span&gt;&lt;/span&gt;&lt;span style="display:flex;"&gt;&lt;span&gt; &lt;span style="color:#f92672"&gt;open-webui-data&lt;/span&gt;:
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/div&gt;&lt;h3 id="第四步拉取模型并启动"&gt;第四步：拉取模型并启动
&lt;/h3&gt;&lt;div class="highlight"&gt;&lt;pre tabindex="0" style="color:#f8f8f2;background-color:#272822;-moz-tab-size:4;-o-tab-size:4;tab-size:4;-webkit-text-size-adjust:none;"&gt;&lt;code class="language-bash" data-lang="bash"&gt;&lt;span style="display:flex;"&gt;&lt;span&gt;&lt;span style="color:#75715e"&gt;# 先启动 Ollama 容器&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span style="display:flex;"&gt;&lt;span&gt;docker compose up -d ollama
&lt;/span&gt;&lt;/span&gt;&lt;span style="display:flex;"&gt;&lt;span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span style="display:flex;"&gt;&lt;span&gt;&lt;span style="color:#75715e"&gt;# 等待 Ollama 就绪后拉取模型（以 qwen2.5:7b 为例）&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span style="display:flex;"&gt;&lt;span&gt;docker exec -it ollama ollama pull qwen2.5:7b
&lt;/span&gt;&lt;/span&gt;&lt;span style="display:flex;"&gt;&lt;span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span style="display:flex;"&gt;&lt;span&gt;&lt;span style="color:#75715e"&gt;# 启动 Open WebUI&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span style="display:flex;"&gt;&lt;span&gt;docker compose up -d open-webui
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/div&gt;&lt;h3 id="第五步访问并配置"&gt;第五步：访问并配置
&lt;/h3&gt;&lt;p&gt;打开浏览器访问 &lt;code&gt;http://your-vps-ip:8080&lt;/code&gt;，注册管理员账户。在设置中将 Ollama API 地址指向 &lt;code&gt;http://your-vps-ip:11434&lt;/code&gt;。&lt;/p&gt;
&lt;hr&gt;
&lt;h2 id="进阶配置让系统真正可用"&gt;进阶配置：让系统真正可用
&lt;/h2&gt;&lt;h3 id="多模型切换"&gt;多模型切换
&lt;/h3&gt;&lt;p&gt;Open WebUI 支持同时连接多个模型。除了本地 Ollama，还可以通过 LiteLLM 作为统一 API 网关接入远程商业模型：&lt;/p&gt;
&lt;div class="highlight"&gt;&lt;pre tabindex="0" style="color:#f8f8f2;background-color:#272822;-moz-tab-size:4;-o-tab-size:4;tab-size:4;-webkit-text-size-adjust:none;"&gt;&lt;code class="language-yaml" data-lang="yaml"&gt;&lt;span style="display:flex;"&gt;&lt;span&gt;&lt;span style="color:#75715e"&gt;# docker-compose.yml 中添加 LiteLLM 作为统一 API 网关&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span style="display:flex;"&gt;&lt;span&gt;&lt;span style="color:#f92672"&gt;litellm&lt;/span&gt;:
&lt;/span&gt;&lt;/span&gt;&lt;span style="display:flex;"&gt;&lt;span&gt; &lt;span style="color:#f92672"&gt;image&lt;/span&gt;: &lt;span style="color:#ae81ff"&gt;ghcr.io/berriai/litellm:main&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span style="display:flex;"&gt;&lt;span&gt; &lt;span style="color:#f92672"&gt;container_name&lt;/span&gt;: &lt;span style="color:#ae81ff"&gt;litellm&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span style="display:flex;"&gt;&lt;span&gt; &lt;span style="color:#f92672"&gt;restart&lt;/span&gt;: &lt;span style="color:#ae81ff"&gt;unless-stopped&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span style="display:flex;"&gt;&lt;span&gt; &lt;span style="color:#f92672"&gt;ports&lt;/span&gt;:
&lt;/span&gt;&lt;/span&gt;&lt;span style="display:flex;"&gt;&lt;span&gt; - &lt;span style="color:#e6db74"&gt;&amp;#34;4000:4000&amp;#34;&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span style="display:flex;"&gt;&lt;span&gt; &lt;span style="color:#f92672"&gt;volumes&lt;/span&gt;:
&lt;/span&gt;&lt;/span&gt;&lt;span style="display:flex;"&gt;&lt;span&gt; - &lt;span style="color:#ae81ff"&gt;./config.yaml:/app/config.yaml&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span style="display:flex;"&gt;&lt;span&gt; &lt;span style="color:#f92672"&gt;environment&lt;/span&gt;:
&lt;/span&gt;&lt;/span&gt;&lt;span style="display:flex;"&gt;&lt;span&gt; - &lt;span style="color:#ae81ff"&gt;OPENAI_API_KEY=${OPENAI_API_KEY}&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/div&gt;&lt;p&gt;配置完成后，你可以在 Open WebUI 中同时使用本地 Qwen2.5 和远程 GPT-4o，根据任务复杂度自动切换。&lt;/p&gt;
&lt;h3 id="rag-知识库挂载"&gt;RAG 知识库挂载
&lt;/h3&gt;&lt;p&gt;Open WebUI 内置文档上传和向量检索功能。将 PDF、Markdown、TXT 文件上传后，系统会自动建立向量索引，实现基于你私有文档的问答：&lt;/p&gt;
&lt;ol&gt;
&lt;li&gt;进入 Open WebUI → Settings → Documents&lt;/li&gt;
&lt;li&gt;上传文件（支持 PDF、DOCX、MD、TXT 等格式）&lt;/li&gt;
&lt;li&gt;在对话中选择对应的知识库&lt;/li&gt;
&lt;li&gt;系统会自动检索相关片段并生成回答&lt;/li&gt;
&lt;/ol&gt;
&lt;p&gt;这对于企业内部知识库、个人笔记整理、学术论文检索等场景非常实用。&lt;/p&gt;
&lt;h3 id="cloudflare-tunnel-安全暴露"&gt;Cloudflare Tunnel 安全暴露
&lt;/h3&gt;&lt;p&gt;如果你的 VPS 没有公网 IP（很多廉价 VPS 只给内网 IP），可以用 Cloudflare Tunnel 安全暴露服务：&lt;/p&gt;
&lt;div class="highlight"&gt;&lt;pre tabindex="0" style="color:#f8f8f2;background-color:#272822;-moz-tab-size:4;-o-tab-size:4;tab-size:4;-webkit-text-size-adjust:none;"&gt;&lt;code class="language-bash" data-lang="bash"&gt;&lt;span style="display:flex;"&gt;&lt;span&gt;&lt;span style="color:#75715e"&gt;# 安装 cloudflared&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span style="display:flex;"&gt;&lt;span&gt;wget https://github.com/cloudflare/cloudflared/releases/latest/download/cloudflared-linux-amd64.deb
&lt;/span&gt;&lt;/span&gt;&lt;span style="display:flex;"&gt;&lt;span&gt;dpkg -i cloudflared-linux-amd64.deb
&lt;/span&gt;&lt;/span&gt;&lt;span style="display:flex;"&gt;&lt;span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span style="display:flex;"&gt;&lt;span&gt;&lt;span style="color:#75715e"&gt;# 认证并创建隧道&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span style="display:flex;"&gt;&lt;span&gt;cloudflared tunnel login
&lt;/span&gt;&lt;/span&gt;&lt;span style="display:flex;"&gt;&lt;span&gt;cloudflared tunnel create open-webui
&lt;/span&gt;&lt;/span&gt;&lt;span style="display:flex;"&gt;&lt;span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span style="display:flex;"&gt;&lt;span&gt;&lt;span style="color:#75715e"&gt;# 配置路由&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span style="display:flex;"&gt;&lt;span&gt;cloudflared tunnel route dns open-webui ai.yourdomain.com
&lt;/span&gt;&lt;/span&gt;&lt;span style="display:flex;"&gt;&lt;span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span style="display:flex;"&gt;&lt;span&gt;&lt;span style="color:#75715e"&gt;# 启动隧道&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span style="display:flex;"&gt;&lt;span&gt;cloudflared tunnel run open-webui
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/div&gt;&lt;p&gt;配合 Cloudflare 的免费 SSL 证书和 DDoS 防护，你的自托管 AI 服务就有了企业级的安全保障。&lt;/p&gt;
&lt;hr&gt;
&lt;h2 id="性能调优让慢速-vps-也能流畅对话"&gt;性能调优：让慢速 VPS 也能流畅对话
&lt;/h2&gt;&lt;h3 id="cpu-推理优化"&gt;CPU 推理优化
&lt;/h3&gt;&lt;div class="highlight"&gt;&lt;pre tabindex="0" style="color:#f8f8f2;background-color:#272822;-moz-tab-size:4;-o-tab-size:4;tab-size:4;-webkit-text-size-adjust:none;"&gt;&lt;code class="language-bash" data-lang="bash"&gt;&lt;span style="display:flex;"&gt;&lt;span&gt;&lt;span style="color:#75715e"&gt;# Ollama 启动参数优化&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span style="display:flex;"&gt;&lt;span&gt;OLLAMA_NUM_PARALLEL&lt;span style="color:#f92672"&gt;=&lt;/span&gt;&lt;span style="color:#ae81ff"&gt;2&lt;/span&gt; OLLAMA_MAX_LOADED_MODELS&lt;span style="color:#f92672"&gt;=&lt;/span&gt;&lt;span style="color:#ae81ff"&gt;1&lt;/span&gt; &lt;span style="color:#ae81ff"&gt;\
&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span style="display:flex;"&gt;&lt;span&gt; ollama serve &amp;amp;
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/div&gt;&lt;ul&gt;
&lt;li&gt;&lt;code&gt;OLLAMA_NUM_PARALLEL&lt;/code&gt;：并发请求数，2-4 为宜&lt;/li&gt;
&lt;li&gt;&lt;code&gt;OLLAMA_MAX_LOADED_MODELS&lt;/code&gt;：同时加载的模型数，设为 1 避免内存溢出&lt;/li&gt;
&lt;/ul&gt;
&lt;h3 id="模型选择建议"&gt;模型选择建议
&lt;/h3&gt;&lt;table&gt;
 &lt;thead&gt;
 &lt;tr&gt;
 &lt;th&gt;模型&lt;/th&gt;
 &lt;th&gt;参数量&lt;/th&gt;
 &lt;th&gt;量化大小&lt;/th&gt;
 &lt;th&gt;推荐最低 RAM&lt;/th&gt;
 &lt;th&gt;适用场景&lt;/th&gt;
 &lt;/tr&gt;
 &lt;/thead&gt;
 &lt;tbody&gt;
 &lt;tr&gt;
 &lt;td&gt;Qwen2.5-7B&lt;/td&gt;
 &lt;td&gt;7B&lt;/td&gt;
 &lt;td&gt;Q4_K_M (~4.4GB)&lt;/td&gt;
 &lt;td&gt;8GB&lt;/td&gt;
 &lt;td&gt;通用对话、代码生成&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;Llama 3.2-3B&lt;/td&gt;
 &lt;td&gt;3B&lt;/td&gt;
 &lt;td&gt;Q4_K_M (~2GB)&lt;/td&gt;
 &lt;td&gt;4GB&lt;/td&gt;
 &lt;td&gt;轻量对话、文本处理&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;Mistral-7B&lt;/td&gt;
 &lt;td&gt;7B&lt;/td&gt;
 &lt;td&gt;Q4_K_M (~4.4GB)&lt;/td&gt;
 &lt;td&gt;8GB&lt;/td&gt;
 &lt;td&gt;多语言、逻辑推理&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;Gemma-2-9B&lt;/td&gt;
 &lt;td&gt;9B&lt;/td&gt;
 &lt;td&gt;Q4_K_M (~5.7GB)&lt;/td&gt;
 &lt;td&gt;12GB&lt;/td&gt;
 &lt;td&gt;创意写作、长文本&lt;/td&gt;
 &lt;/tr&gt;
 &lt;/tbody&gt;
&lt;/table&gt;
&lt;p&gt;对于 2GB RAM 的入门 VPS，推荐使用 Llama 3.2-3B 或 Phi-3-mini-3.8B。对于 8GB+ RAM 的 VPS，Qwen2.5-7B 是目前中文效果最好的选择。&lt;/p&gt;
&lt;h3 id="内存不足时的解决方案"&gt;内存不足时的解决方案
&lt;/h3&gt;&lt;div class="highlight"&gt;&lt;pre tabindex="0" style="color:#f8f8f2;background-color:#272822;-moz-tab-size:4;-o-tab-size:4;tab-size:4;-webkit-text-size-adjust:none;"&gt;&lt;code class="language-bash" data-lang="bash"&gt;&lt;span style="display:flex;"&gt;&lt;span&gt;&lt;span style="color:#75715e"&gt;# 使用 swap 扩展虚拟内存&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span style="display:flex;"&gt;&lt;span&gt;fallocate -l 4G /swapfile
&lt;/span&gt;&lt;/span&gt;&lt;span style="display:flex;"&gt;&lt;span&gt;chmod &lt;span style="color:#ae81ff"&gt;600&lt;/span&gt; /swapfile
&lt;/span&gt;&lt;/span&gt;&lt;span style="display:flex;"&gt;&lt;span&gt;mkswap /swapfile
&lt;/span&gt;&lt;/span&gt;&lt;span style="display:flex;"&gt;&lt;span&gt;swapon /swapfile
&lt;/span&gt;&lt;/span&gt;&lt;span style="display:flex;"&gt;&lt;span&gt;echo &lt;span style="color:#e6db74"&gt;&amp;#39;/swapfile none swap sw 0 0&amp;#39;&lt;/span&gt; &amp;gt;&amp;gt; /etc/fstab
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/div&gt;&lt;p&gt;Swap 虽然比物理内存慢，但在推理时可以作为缓冲，避免 OOM kill。&lt;/p&gt;
&lt;hr&gt;
&lt;h2 id="成本对比自托管-vs-订阅服务"&gt;成本对比：自托管 vs 订阅服务
&lt;/h2&gt;&lt;table&gt;
 &lt;thead&gt;
 &lt;tr&gt;
 &lt;th&gt;方案&lt;/th&gt;
 &lt;th&gt;月费&lt;/th&gt;
 &lt;th&gt;数据隐私&lt;/th&gt;
 &lt;th&gt;模型选择&lt;/th&gt;
 &lt;th&gt;自定义程度&lt;/th&gt;
 &lt;/tr&gt;
 &lt;/thead&gt;
 &lt;tbody&gt;
 &lt;tr&gt;
 &lt;td&gt;ChatGPT Plus&lt;/td&gt;
 &lt;td&gt;$20&lt;/td&gt;
 &lt;td&gt;无&lt;/td&gt;
 &lt;td&gt;仅 GPT 系列&lt;/td&gt;
 &lt;td&gt;无&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;Claude Pro&lt;/td&gt;
 &lt;td&gt;$20&lt;/td&gt;
 &lt;td&gt;无&lt;/td&gt;
 &lt;td&gt;仅 Claude 系列&lt;/td&gt;
 &lt;td&gt;无&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;&lt;strong&gt;Open WebUI + Ollama (VPS)&lt;/strong&gt;&lt;/td&gt;
 &lt;td&gt;&lt;strong&gt;$2.67-$10&lt;/strong&gt;&lt;/td&gt;
 &lt;td&gt;&lt;strong&gt;完全私有&lt;/strong&gt;&lt;/td&gt;
 &lt;td&gt;&lt;strong&gt;50+ 开源模型&lt;/strong&gt;&lt;/td&gt;
 &lt;td&gt;&lt;strong&gt;完全控制&lt;/strong&gt;&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;Open WebUI + 混合 API&lt;/td&gt;
 &lt;td&gt;$10-$30&lt;/td&gt;
 &lt;td&gt;部分私有&lt;/td&gt;
 &lt;td&gt;开源 + 商业模型&lt;/td&gt;
 &lt;td&gt;高度可定制&lt;/td&gt;
 &lt;/tr&gt;
 &lt;/tbody&gt;
&lt;/table&gt;
&lt;p&gt;以 RackNerd 的 $2.67/月 VPS 为例，一年仅需 $32 即可拥有不限次数的 AI 对话能力。即使升级到 Hostinger VPS Pro 的 $4.99/月，也仅为 ChatGPT Plus 的四分之一。&lt;/p&gt;
&lt;hr&gt;
&lt;h2 id="常见故障排查"&gt;常见故障排查
&lt;/h2&gt;&lt;h3 id="问题-1模型加载缓慢"&gt;问题 1：模型加载缓慢
&lt;/h3&gt;&lt;p&gt;&lt;strong&gt;原因&lt;/strong&gt;：磁盘 IO 瓶颈或模型文件过大。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;解决&lt;/strong&gt;：&lt;/p&gt;
&lt;div class="highlight"&gt;&lt;pre tabindex="0" style="color:#f8f8f2;background-color:#272822;-moz-tab-size:4;-o-tab-size:4;tab-size:4;-webkit-text-size-adjust:none;"&gt;&lt;code class="language-bash" data-lang="bash"&gt;&lt;span style="display:flex;"&gt;&lt;span&gt;&lt;span style="color:#75715e"&gt;# 检查磁盘类型&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span style="display:flex;"&gt;&lt;span&gt;lsblk -d -o name,rota,tran | head -5
&lt;/span&gt;&lt;/span&gt;&lt;span style="display:flex;"&gt;&lt;span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span style="display:flex;"&gt;&lt;span&gt;&lt;span style="color:#75715e"&gt;# 确保使用 NVMe SSD&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span style="display:flex;"&gt;&lt;span&gt;&lt;span style="color:#75715e"&gt;# 如果是 HDD，将模型文件复制到 tmpfs&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span style="display:flex;"&gt;&lt;span&gt;mount -t tmpfs -o size&lt;span style="color:#f92672"&gt;=&lt;/span&gt;4G tmpfs /tmp/ollama-models
&lt;/span&gt;&lt;/span&gt;&lt;span style="display:flex;"&gt;&lt;span&gt;export OLLAMA_MODELS&lt;span style="color:#f92672"&gt;=&lt;/span&gt;/tmp/ollama-models
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/div&gt;&lt;h3 id="问题-2open-webui-无法连接-ollama"&gt;问题 2：Open WebUI 无法连接 Ollama
&lt;/h3&gt;&lt;p&gt;&lt;strong&gt;原因&lt;/strong&gt;：容器间网络不通或 API 地址配置错误。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;解决&lt;/strong&gt;：&lt;/p&gt;
&lt;div class="highlight"&gt;&lt;pre tabindex="0" style="color:#f8f8f2;background-color:#272822;-moz-tab-size:4;-o-tab-size:4;tab-size:4;-webkit-text-size-adjust:none;"&gt;&lt;code class="language-bash" data-lang="bash"&gt;&lt;span style="display:flex;"&gt;&lt;span&gt;&lt;span style="color:#75715e"&gt;# 验证 Ollama API 可达&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span style="display:flex;"&gt;&lt;span&gt;docker exec open-webui curl -s http://ollama:11434/api/tags
&lt;/span&gt;&lt;/span&gt;&lt;span style="display:flex;"&gt;&lt;span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span style="display:flex;"&gt;&lt;span&gt;&lt;span style="color:#75715e"&gt;# 如果返回空，检查容器日志&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span style="display:flex;"&gt;&lt;span&gt;docker logs ollama
&lt;/span&gt;&lt;/span&gt;&lt;span style="display:flex;"&gt;&lt;span&gt;docker logs open-webui
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/div&gt;&lt;h3 id="问题-3显存不足gpu-场景"&gt;问题 3：显存不足（GPU 场景）
&lt;/h3&gt;&lt;p&gt;&lt;strong&gt;原因&lt;/strong&gt;：模型量化级别过高或并发请求过多。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;解决&lt;/strong&gt;：&lt;/p&gt;
&lt;div class="highlight"&gt;&lt;pre tabindex="0" style="color:#f8f8f2;background-color:#272822;-moz-tab-size:4;-o-tab-size:4;tab-size:4;-webkit-text-size-adjust:none;"&gt;&lt;code class="language-bash" data-lang="bash"&gt;&lt;span style="display:flex;"&gt;&lt;span&gt;&lt;span style="color:#75715e"&gt;# 降低并发数&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span style="display:flex;"&gt;&lt;span&gt;OLLAMA_NUM_GPU&lt;span style="color:#f92672"&gt;=&lt;/span&gt;&lt;span style="color:#ae81ff"&gt;0&lt;/span&gt; OLLAMA_MAX_LOADED_MODELS&lt;span style="color:#f92672"&gt;=&lt;/span&gt;&lt;span style="color:#ae81ff"&gt;1&lt;/span&gt; ollama serve
&lt;/span&gt;&lt;/span&gt;&lt;span style="display:flex;"&gt;&lt;span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span style="display:flex;"&gt;&lt;span&gt;&lt;span style="color:#75715e"&gt;# 或者切换到更低量化级别的模型&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span style="display:flex;"&gt;&lt;span&gt;ollama pull qwen2.5:7b-q3_K_S
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/div&gt;&lt;hr&gt;
&lt;h2 id="何时需要考虑升级"&gt;何时需要考虑升级？
&lt;/h2&gt;&lt;table&gt;
 &lt;thead&gt;
 &lt;tr&gt;
 &lt;th&gt;信号&lt;/th&gt;
 &lt;th&gt;建议升级配置&lt;/th&gt;
 &lt;th&gt;推荐方案&lt;/th&gt;
 &lt;/tr&gt;
 &lt;/thead&gt;
 &lt;tbody&gt;
 &lt;tr&gt;
 &lt;td&gt;7B 模型推理延迟 &amp;gt; 5s/token&lt;/td&gt;
 &lt;td&gt;升级到 4 vCPU / 8GB&lt;/td&gt;
 &lt;td&gt;Hostinger VPS Business&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;需要运行 13B+ 模型&lt;/td&gt;
 &lt;td&gt;8GB+ RAM&lt;/td&gt;
 &lt;td&gt;Vultr High Frequency&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;需要 GPU 加速&lt;/td&gt;
 &lt;td&gt;NVIDIA T4 GPU&lt;/td&gt;
 &lt;td&gt;RackNerd GPU VPS&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;多用户同时使用&lt;/td&gt;
 &lt;td&gt;负载均衡 + CDN&lt;/td&gt;
 &lt;td&gt;Vultr + Cloudflare&lt;/td&gt;
 &lt;/tr&gt;
 &lt;/tbody&gt;
&lt;/table&gt;
&lt;p&gt;对于绝大多数个人用户和小型团队，$5-$10/月的 VPS 配置已经足够应对日常 AI 交互需求。&lt;/p&gt;
&lt;hr&gt;
&lt;h2 id="总结"&gt;总结
&lt;/h2&gt;&lt;p&gt;Open WebUI + Ollama 是目前自托管 AI 聊天的最佳组合之一。它在 2026 年已经成熟到可以替代大多数 ChatGPT 的日常使用场景，同时提供了订阅服务无法比拟的数据隐私和自定义自由度。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;核心要点回顾&lt;/strong&gt;：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;一台 $2.67/月的 RackNerd VPS 即可启动完整系统&lt;/li&gt;
&lt;li&gt;Qwen2.5-7B + 8GB RAM 是当前性价比最高的配置组合&lt;/li&gt;
&lt;li&gt;Cloudflare Tunnel 解决了无公网 IP 的暴露问题&lt;/li&gt;
&lt;li&gt;RAG 知识库功能让私有文档问答成为可能&lt;/li&gt;
&lt;li&gt;通过 LiteLLM 可以无缝接入商业模型作为补充&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;如果你正在寻找 ChatGPT 的平价替代方案，或者希望在自己的基础设施上构建 AI 应用，这套组合值得认真考虑。&lt;/p&gt;
&lt;hr&gt;
&lt;h2 id="faq"&gt;FAQ
&lt;/h2&gt;&lt;p&gt;&lt;strong&gt;Q: 需要 GPU 才能运行吗？&lt;/strong&gt;
A: 不需要。Ollama 的 CPU 推理已经高度优化，Qwen2.5-7B 在 4 vCPU 上可以达到每秒 5-10 token 的生成速度，对话体验完全可用。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;Q: 支持中文吗？&lt;/strong&gt;
A: 完全支持。Qwen2.5 系列和 Llama 3.2 都对中文有出色的理解和生成能力。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;Q: 可以多人使用吗？&lt;/strong&gt;
A: 可以。Open WebUI 支持多用户注册和权限管理。但对于高并发场景，建议升级到更高配置的 VPS。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;Q: 数据会泄露吗？&lt;/strong&gt;
A: 不会。所有数据和模型都在你自己的 VPS 上运行，不经过任何第三方服务器。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;Q: 如何备份？&lt;/strong&gt;
A: 只需备份两个目录：&lt;code&gt;ollama-data&lt;/code&gt;（模型文件）和 &lt;code&gt;open-webui-data&lt;/code&gt;（用户数据、知识库、设置）。使用 &lt;code&gt;rsync&lt;/code&gt; 或 &lt;code&gt;borg&lt;/code&gt; 定期同步到远程存储即可。&lt;/p&gt;</description></item></channel></rss>