Hasty Briefsbeta

双语

GitHub - microsoft/markitdown: Python tool for converting files and office documents to Markdown.

18 hours ago
  • #llm-integration
  • #markdown-conversion
  • #python-tool
  • MarkItDown是一个用于将多种文件格式转换为Markdown的Python实用工具,专为LLM使用和文本分析管道优化。
  • 版本0.1.0引入了破坏性变更,包括可选功能组依赖项和convert_stream()方法的更新。
  • 安装可通过pip进行,支持特定格式的可选依赖项,或从源代码安装,且兼容Python 3.10及以上版本。
  • 它支持从PowerPoint、Word、Excel、图像、音频、HTML、ZIP、YouTube链接和EPub等多种格式转换。
  • 功能包括用于扩展功能的可选插件,例如通过markitdown-ocr插件提供的OCR支持。
  • 集成选项包括使用Microsoft Document Intelligence进行PDF转换和基于LLM的图像描述生成。
  • 可通过CLI、Python API或Docker使用,并提供了贡献、测试和社区参与的指南。