PreProcessors (预处理器)
使用预处理器来准备您的数据,例如规范化空格、移除页眉和页脚、清理文档中的空行或将文档分割成更小的部分。预处理器在索引管道中用于准备文件以供搜索。
| 预处理器 | 描述 |
|---|---|
| ChineseDocumentSplitter | 利用先进的中文语言处理能力,使用 HanLP 进行准确的中文分词和句子分词,将中文文本文档分割成更小的块。 |
| CSVDocumentCleaner | 通过删除空行和空列来清理 CSV 文档,同时保留特定的被忽略的行和列。 |
| CSVDocumentSplitter | 根据空行和空列将 CSV 文档分割成更小的子表。 |
| DocumentCleaner | 移除文档中的多余空格、空行、指定的子字符串、正则表达式、页眉和页脚。 |
| DocumentPreprocessor | 将一系列文本文档分割成一系列更短的文本文档,然后通过清理使其更具可读性。 |
| DocumentSplitter | 将一系列文本文档分割成一系列文本更短的文本文档。 |
| HierarchicalDocumentSplitter | 基于文本片段之间的父子关系,创建多级文档结构。 |
| RecursiveSplitter | 将文本分割成更小的块,通过递归地应用一系列分隔符来实现。 按照提供的顺序应用于文本。 |
| TextCleaner | 移除正则表达式、标点符号和数字,并将文本转换为小写。在评估前清理文本数据非常有用。 |
更新于 3 个月前
相关链接
