📝
FormaX Team2026年五月18日6 分钟
RAG 文本分块实战:重叠切片、JSONL 导出与参数调优
为向量检索与 RAG 管道准备文档:固定窗口、重叠分块、一键导出 JSONL,全部在浏览器本地完成。
RAGAI数据处理
为什么 RAG 离不开「分块」
检索增强生成(RAG)先把长文档切成可检索的小片段,再嵌入向量库;用户提问时只召回相关块,而不是整本书塞进上下文。分块质量直接决定召回率与答案是否「有据可依」。
字符窗口 vs Token 窗口
生产环境常用 按 Token 切分以匹配嵌入模型上下文;快速原型与内部工具可用 按字符 的固定窗口 + 重叠,在浏览器里即时预览。FormaX RAG 文本分块工具 采用后者:可调 chunk size(≥32)与 overlap(须小于 chunk size),适合先跑通管道再换成 tiktoken 等方案。
重叠(Overlap)怎么设
- 太小:段落边界处的句子可能被截断,召回漏掉关键句。
- 太大:冗余 embedding 成本上升,索引体积膨胀。
- 经验起点:chunk 400 字符、overlap 50–80;技术文档可略大 chunk,对话记录可略小。
JSONL 输出长什么样
每行一个 JSON 对象,便于导入 LangChain、LlamaIndex 或自研入库脚本:
{"chunk_index":0,"text":"...","char_count":400,"metadata":{"start":0,"end":400,"source":"formax-rag-chunker"}}推荐工作流
- 粘贴或导入纯文本 / Markdown 正文(去掉页眉页脚噪声更好)。
- 在工具中调整参数并预览块列表。
- 下载
chunks.jsonl,写入向量库并保留chunk_index与start/end便于溯源。 - 上线前用真实用户问题做召回评测,再微调 chunk 与 overlap。
隐私与本地处理
分块在浏览器完成,文本不上传服务器,适合未脱敏的内部知识库草稿。立即试用:打开 RAG Chunker。