LangExtract: Python library for extracting structured data from language models
10 months ago
- #Python
- #LLM
- #Text Extraction
- LangExtract 是一个 Python 库,利用大语言模型(LLM)从非结构化文本中提取结构化信息。
- 主要功能包括精确的原始文本定位、可靠的结构化输出、优化的长文档处理、交互式可视化、灵活的LLM支持以及适用于任何领域的适应性。
- 支持云端模型(如Google Gemini)和通过Ollama运行的本地模型,使用云端模型需提供API密钥。
- 快速入门只需定义提示词、提供示例,并用几行代码即可运行提取。
- 通过pip可轻松安装,支持开发模式和Docker部署。
- API密钥可通过环境变量、.env文件或直接代码设置(生产环境不推荐)。
- 示例包括处理《罗密欧与朱丽叶》全文和从临床笔记中提取医疗信息。
- 欢迎贡献代码,贡献指南详见CONTRIBUTING.md文件。
- 支持使用pytest或tox进行本地测试,并提供依赖项处理说明。
- 免责声明指出LangExtract非Google官方支持产品,遵循Apache 2.0许可证。