GitHub - microsoft/markitdown: Python tool for converting files and office documents to Markdown.
18 hours ago
- #llm-integration
- #markdown-conversion
- #python-tool
- MarkItDown是一个用于将多种文件格式转换为Markdown的Python实用工具,专为LLM使用和文本分析管道优化。
- 版本0.1.0引入了破坏性变更,包括可选功能组依赖项和convert_stream()方法的更新。
- 安装可通过pip进行,支持特定格式的可选依赖项,或从源代码安装,且兼容Python 3.10及以上版本。
- 它支持从PowerPoint、Word、Excel、图像、音频、HTML、ZIP、YouTube链接和EPub等多种格式转换。
- 功能包括用于扩展功能的可选插件,例如通过markitdown-ocr插件提供的OCR支持。
- 集成选项包括使用Microsoft Document Intelligence进行PDF转换和基于LLM的图像描述生成。
- 可通过CLI、Python API或Docker使用,并提供了贡献、测试和社区参与的指南。