知识库查询系统

⌘

向知识库提问

先上传文档，再提问。可在「AI 设置」中开启 AI 增强回答。

AI 增强回答

已关闭 · 仅检索知识库

⏎ 发送 · ⇧⏎ 换行

上传文档

支持 .txt 和 .md 格式，单文件不超过 5MB，最多同时上传 10 个。

点击选择文件，或拖放到此处

.txt · .md · 最多 10 个 · 单文件 ≤ 5MB

文档检索

从向量数据库中检索最相关的文档片段，不经过 LLM 生成。

检索关键词

返回数量

AI 设置

配置 AI 增强回答功能。开启后，知识库有数据时 AI 总结优化；知识库无数据时 AI 直接回答。

回答模式

AI 增强回答

开启后使用 AI 生成回答；关闭则仅返回知识库原始片段

AI 服务配置

未填写 API Key 时，系统使用 Cloudflare Workers AI（免费，无需配置）。
填写 OpenAI API Key 后，将优先调用 OpenAI 进行嵌入和生成，效果更佳。

OpenAI API Key（可选）

模型（可选，默认 gpt-3.5-turbo）

当前状态

统计信息

查看知识库向量数量、已上传文件及当前配置。

—

加载中

点击刷新获取最新数据...

清理缓存

清除 KV 中的查询缓存，下次相同问题将重新向量化并检索。

缓存会在 1 小时后自动过期。手动清理后，所有查询结果将重新从 Vectorize 中检索生成。

关于系统

基于 Cloudflare 全栈构建的 RAG 知识库查询系统，所有服务均部署在 Cloudflare 边缘网络。

Cloudflare 服务说明

Cloudflare Pages
前端静态托管，全球 CDN 加速，与 Workers 原生集成

Cloudflare Workers
无服务器计算，处理 API 路由、鉴权、限流

Cloudflare Vectorize
全托管向量数据库，支持 ANN 近似最近邻检索

Workers AI + R2 + D1
AI 推理模型 / 对象存储 / SQL 元数据库，零出口费

Workers KV
边缘键值存储，用于查询缓存（TTL 1小时）

OpenAI API（可选）
可替换 Workers AI，使用 text-embedding-ada-002 + GPT-4 等模型

使用流程

上传文档

将 .txt / .md 文件上传，系统自动分块（默认 800 字符）→ 调用 Workers AI 生成嵌入向量 → 写入 Vectorize 向量索引，同时原文存储在 R2。

提问（仅知识库模式）

问题经过向量化后，在 Vectorize 中进行余弦相似度检索，直接返回最相关的原始文档片段（带相似度分数）。

提问（AI 增强模式 · 知识库有数据）

检索到相关文档片段后，拼装 RAG Prompt 送入 LLM，AI 结合上下文生成条理清晰的回答，并标注来源文件。

提问（AI 增强模式 · 知识库无数据）

当知识库中未找到相关内容时，系统自动回退到直接 AI 回答模式，将问题直接发送给 LLM（Workers AI 或 OpenAI）获取回答。

缓存加速

每次检索结果缓存 1 小时于 Workers KV，相同问题直接命中缓存，响应更快。可在「清理缓存」中手动清除。