LangExtract: A Gemini powered information extraction library
10 months ago
- #LLM
- #text-processing
- #data-extraction
- LangExtract是一个全新的开源Python库,通过大语言模型(LLM)从非结构化文本中提取结构化信息
- 该库提供轻量级接口支持多种LLM模型(包括Gemini系列),确保灵活性和可追溯性
- 可应用于医疗、金融、工程、法律等多个领域的信息抽取任务
- 支持通过提示词和示例定义抽取任务,并以JSONL格式输出结构化数据
- 内置可视化工具可查看标注结果,适用于演示或评估抽取质量
- 最初应用于医疗信息抽取场景(如识别药物名称和剂量)
- 交互式演示RadExtract展示了其在结构化放射学报告中的能力
- 已在GitHub开源,提供详细开发文档和示例代码供开发者使用