A $196 fine-tuned 7B model outperforms OpenAI o3 on document extraction
8 months ago
- #language-model
- #machine-learning
- #information-extraction
- Extract-0是一个拥有70亿参数的文档信息提取专用语言模型
- 在包含1000项任务的基准测试中,其表现优于GPT-4.1、o3和GPT-4.1-2025等更大规模的模型
- 训练过程采用三阶段方法:合成数据生成、基于LoRA的监督微调、通过GRPO实现的强化学习
- 该模型仅调整0.53%的权重参数(7.66B总参数中的40.4M),显著提升训练效率
- 创新的基于语义相似度的奖励函数机制,有效解决提取任务中的模糊性问题
- 证明专用模型优化能以更少资源实现超越通用模型的性能