Hasty Briefsbeta

双语

A $196 fine-tuned 7B model outperforms OpenAI o3 on document extraction

8 months ago

#language-model
#machine-learning
#information-extraction

Extract-0是一个拥有70亿参数的文档信息提取专用语言模型
在包含1000项任务的基准测试中，其表现优于GPT-4.1、o3和GPT-4.1-2025等更大规模的模型
训练过程采用三阶段方法：合成数据生成、基于LoRA的监督微调、通过GRPO实现的强化学习
该模型仅调整0.53%的权重参数（7.66B总参数中的40.4M），显著提升训练效率
创新的基于语义相似度的奖励函数机制，有效解决提取任务中的模糊性问题
证明专用模型优化能以更少资源实现超越通用模型的性能