文档API 参考📓 教程🧑‍🍳 食谱🤝 集成💜 Discord🎨 Studio
文档

Converters (转换器)

使用各种转换器从不同格式的文件中提取数据,并将其转换为统一的文档格式。有多种转换器可用于转换 PDF、图像、DOCX 文件等。

转换器描述
AzureOCRDocumentConverter将 PDF(包括可搜索 PDF 和仅图像 PDF)、JPEG、PNG、BMP、TIFF、DOCX、XLSX、PPTX 和 HTML 转换为文档。
CSVToDocument将 CSV 文件转换为文档。
DocumentToImageContent从基于图像或 PDF 文件的文档中提取视觉数据并将其转换为ImageContent 对象。
DOCXToDocument将 DOCX 文件转换为文档。
HTMLToDocument将 HTML 文件转换为文档。
ImageFileToDocument将图像文件引用转换为空的带有相关元数据的 Document 对象。
ImageFileToImageContent读取本地图像文件并将其转换为ImageContent 对象。
JSONConverter将 JSON 文件转换为文本文档。
MarkdownToDocument将 Markdown 文件转换为文档。
MSGToDocument将 Microsoft Outlook .msg 文件转换为文档。
MultiFileConverter将 CSV、DOCX、HTML、JSON、MD、PPTX、PDF、TXT 和 XSLX 文件转换为文档。
OpenAPIServiceToFunctions将 OpenAPI 服务规范转换为与 OpenAI 的函数调用机制兼容的格式。
OutputAdapter帮助一个组件的输出适应另一个组件的输入。
PDFMinerToDocument使用 pdfminer 参数将复杂的 PDF 文件转换为文档。
PDFToImageContent读取本地 PDF 文件并将其转换为ImageContent 对象。
PPTXToDocument将 PPTX 文件转换为文档。
PyPDFToDocument将 PDF 文件转换为文档。
TikaDocumentConverter使用 Apache Tika 将各种文件类型转换为文档。
TextFileToDocument将文本文件转换为文档。
UnstructuredFileConverter将文本文件和目录转换为文档。
XLSXToDocument将 Excel 文件转换为文档。

相关链接

在我们的 API 参考中查看参数详情