智能问答 仅知识库
向知识库提问
先上传文档,再提问。可在「AI 设置」中开启 AI 增强回答。
AI 增强回答
已关闭 · 仅检索知识库
⏎ 发送 · ⇧⏎ 换行
上传文档
支持 .txt 和 .md 格式,单文件不超过 5MB,最多同时上传 10 个。

点击选择文件,或拖放到此处

.txt · .md · 最多 10 个 · 单文件 ≤ 5MB
文档检索
从向量数据库中检索最相关的文档片段,不经过 LLM 生成。
AI 设置
配置 AI 增强回答功能。开启后,知识库有数据时 AI 总结优化;知识库无数据时 AI 直接回答。
回答模式
AI 增强回答
开启后使用 AI 生成回答;关闭则仅返回知识库原始片段
AI 服务配置
未填写 API Key 时,系统使用 Cloudflare Workers AI(免费,无需配置)。
填写 OpenAI API Key 后,将优先调用 OpenAI 进行嵌入和生成,效果更佳。
当前状态
统计信息
查看知识库向量数量、已上传文件及当前配置。
加载中
点击刷新获取最新数据...
清理缓存
清除 KV 中的查询缓存,下次相同问题将重新向量化并检索。

缓存会在 1 小时后自动过期。手动清理后,所有查询结果将重新从 Vectorize 中检索生成。

关于系统
基于 Cloudflare 全栈构建的 RAG 知识库查询系统,所有服务均部署在 Cloudflare 边缘网络。
Cloudflare RAG 知识库架构 用户层 浏览器 / 客户端 Cloudflare Pages 前端 (Web UI) Workers KV 会话 / 缓存 API 网关层 Cloudflare Workers 路由 · 鉴权 · 限流 · /query · /upload · /retrieve 文档摄入流程 Cloudflare R2 原始文档存储 Workers 分块 & 清洗 Workers AI 嵌入向量生成 D1 数据库 文档元数据 Cloudflare Vectorize 向量索引 & ANN 检索 存入 ↕ 检索 查询推理流程 Workers (Query) 问题嵌入 → 向量检索 → 组装 Prompt Workers AI / OpenAI LLM 生成最终回答(RAG / 直接回答) 回答流式返回 v2.0 · Cloudflare Workers
Cloudflare 服务说明
Cloudflare Pages
前端静态托管,全球 CDN 加速,与 Workers 原生集成
Cloudflare Workers
无服务器计算,处理 API 路由、鉴权、限流
Cloudflare Vectorize
全托管向量数据库,支持 ANN 近似最近邻检索
Workers AI + R2 + D1
AI 推理模型 / 对象存储 / SQL 元数据库,零出口费
Workers KV
边缘键值存储,用于查询缓存(TTL 1小时)
OpenAI API(可选)
可替换 Workers AI,使用 text-embedding-ada-002 + GPT-4 等模型
使用流程
1
上传文档
将 .txt / .md 文件上传,系统自动分块(默认 800 字符)→ 调用 Workers AI 生成嵌入向量 → 写入 Vectorize 向量索引,同时原文存储在 R2。
2
提问(仅知识库模式)
问题经过向量化后,在 Vectorize 中进行余弦相似度检索,直接返回最相关的原始文档片段(带相似度分数)。
3
提问(AI 增强模式 · 知识库有数据)
检索到相关文档片段后,拼装 RAG Prompt 送入 LLM,AI 结合上下文生成条理清晰的回答,并标注来源文件。
4
提问(AI 增强模式 · 知识库无数据)
当知识库中未找到相关内容时,系统自动回退到直接 AI 回答模式,将问题直接发送给 LLM(Workers AI 或 OpenAI)获取回答。
5
缓存加速
每次检索结果缓存 1 小时于 Workers KV,相同问题直接命中缓存,响应更快。可在「清理缓存」中手动清除。