Converters (转换器)
使用各种转换器从不同格式的文件中提取数据,并将其转换为统一的文档格式。有多种转换器可用于转换 PDF、图像、DOCX 文件等。
转换器 | 描述 |
---|---|
AzureOCRDocumentConverter | 将 PDF(包括可搜索 PDF 和仅图像 PDF)、JPEG、PNG、BMP、TIFF、DOCX、XLSX、PPTX 和 HTML 转换为文档。 |
CSVToDocument | 将 CSV 文件转换为文档。 |
DocumentToImageContent | 从基于图像或 PDF 文件的文档中提取视觉数据并将其转换为ImageContent 对象。 |
DOCXToDocument | 将 DOCX 文件转换为文档。 |
HTMLToDocument | 将 HTML 文件转换为文档。 |
ImageFileToDocument | 将图像文件引用转换为空的带有相关元数据的 Document 对象。 |
ImageFileToImageContent | 读取本地图像文件并将其转换为ImageContent 对象。 |
JSONConverter | 将 JSON 文件转换为文本文档。 |
MarkdownToDocument | 将 Markdown 文件转换为文档。 |
MSGToDocument | 将 Microsoft Outlook .msg 文件转换为文档。 |
MultiFileConverter | 将 CSV、DOCX、HTML、JSON、MD、PPTX、PDF、TXT 和 XSLX 文件转换为文档。 |
OpenAPIServiceToFunctions | 将 OpenAPI 服务规范转换为与 OpenAI 的函数调用机制兼容的格式。 |
OutputAdapter | 帮助一个组件的输出适应另一个组件的输入。 |
PDFMinerToDocument | 使用 pdfminer 参数将复杂的 PDF 文件转换为文档。 |
PDFToImageContent | 读取本地 PDF 文件并将其转换为ImageContent 对象。 |
PPTXToDocument | 将 PPTX 文件转换为文档。 |
PyPDFToDocument | 将 PDF 文件转换为文档。 |
TikaDocumentConverter | 使用 Apache Tika 将各种文件类型转换为文档。 |
TextFileToDocument | 将文本文件转换为文档。 |
UnstructuredFileConverter | 将文本文件和目录转换为文档。 |
XLSXToDocument | 将 Excel 文件转换为文档。 |
更新于 3 个月前