Converters (转换器)
使用各种转换器从不同格式的文件中提取数据,并将其转换为统一的文档格式。有多种转换器可用于转换 PDF、图像、DOCX 文件等。
| 转换器 | 描述 |
|---|---|
| AzureOCRDocumentConverter | 将 PDF(包括可搜索 PDF 和仅图像 PDF)、JPEG、PNG、BMP、TIFF、DOCX、XLSX、PPTX 和 HTML 转换为文档。 |
| CSVToDocument | 将 CSV 文件转换为文档。 |
| DocumentToImageContent | 从基于图像或 PDF 文件的文档中提取视觉数据并将其转换为ImageContent 对象。 |
| DOCXToDocument | 将 DOCX 文件转换为文档。 |
| HTMLToDocument | 将 HTML 文件转换为文档。 |
| ImageFileToDocument | 将图像文件引用转换为空的带有相关元数据的 Document 对象。 |
| ImageFileToImageContent | 读取本地图像文件并将其转换为ImageContent 对象。 |
| JSONConverter | 将 JSON 文件转换为文本文档。 |
| MarkdownToDocument | 将 Markdown 文件转换为文档。 |
| MSGToDocument | 将 Microsoft Outlook .msg 文件转换为文档。 |
| MultiFileConverter | 将 CSV、DOCX、HTML、JSON、MD、PPTX、PDF、TXT 和 XSLX 文件转换为文档。 |
| OpenAPIServiceToFunctions | 将 OpenAPI 服务规范转换为与 OpenAI 的函数调用机制兼容的格式。 |
| OutputAdapter | 帮助一个组件的输出适应另一个组件的输入。 |
| PDFMinerToDocument | 使用 pdfminer 参数将复杂的 PDF 文件转换为文档。 |
| PDFToImageContent | 读取本地 PDF 文件并将其转换为ImageContent 对象。 |
| PPTXToDocument | 将 PPTX 文件转换为文档。 |
| PyPDFToDocument | 将 PDF 文件转换为文档。 |
| TikaDocumentConverter | 使用 Apache Tika 将各种文件类型转换为文档。 |
| TextFileToDocument | 将文本文件转换为文档。 |
| UnstructuredFileConverter | 将文本文件和目录转换为文档。 |
| XLSXToDocument | 将 Excel 文件转换为文档。 |
更新于 3 个月前
