文档API 参考📓 教程🧑‍🍳 食谱🤝 集成💜 Discord🎨 Studio
文档

PreProcessors (预处理器)

使用预处理器来准备您的数据,例如规范化空格、移除页眉和页脚、清理文档中的空行或将文档分割成更小的部分。预处理器在索引管道中用于准备文件以供搜索。

预处理器描述
ChineseDocumentSplitter利用先进的中文语言处理能力,使用 HanLP 进行准确的中文分词和句子分词,将中文文本文档分割成更小的块。
CSVDocumentCleaner通过删除空行和空列来清理 CSV 文档,同时保留特定的被忽略的行和列。
CSVDocumentSplitter根据空行和空列将 CSV 文档分割成更小的子表。
DocumentCleaner移除文档中的多余空格、空行、指定的子字符串、正则表达式、页眉和页脚。
DocumentPreprocessor将一系列文本文档分割成一系列更短的文本文档,然后通过清理使其更具可读性。
DocumentSplitter将一系列文本文档分割成一系列文本更短的文本文档。
HierarchicalDocumentSplitter基于文本片段之间的父子关系,创建多级文档结构。
RecursiveSplitter将文本分割成更小的块,通过递归地应用一系列分隔符来实现。
按照提供的顺序应用于文本。
TextCleaner移除正则表达式、标点符号和数字,并将文本转换为小写。在评估前清理文本数据非常有用。

相关链接