Hasty Briefsbeta

双语

LangExtract: A Gemini powered information extraction library

10 months ago
  • #LLM
  • #text-processing
  • #data-extraction
  • LangExtract是一个全新的开源Python库,通过大语言模型(LLM)从非结构化文本中提取结构化信息
  • 该库提供轻量级接口支持多种LLM模型(包括Gemini系列),确保灵活性和可追溯性
  • 可应用于医疗、金融、工程、法律等多个领域的信息抽取任务
  • 支持通过提示词和示例定义抽取任务,并以JSONL格式输出结构化数据
  • 内置可视化工具可查看标注结果,适用于演示或评估抽取质量
  • 最初应用于医疗信息抽取场景(如识别药物名称和剂量)
  • 交互式演示RadExtract展示了其在结构化放射学报告中的能力
  • 已在GitHub开源,提供详细开发文档和示例代码供开发者使用