Hasty Briefsbeta

双语

Training Qwen 4B to Beat Large Models on Work Tasks

3 months ago

#AI
#Machine Learning
#Salesforce

Neurometric专注于为特定任务自动生成小型语言模型(SLMs)
CRMArena基准测试在真实的Salesforce CRM任务(如潜在客户筛选和活动优先级排序)上评估模型性能
通过微调40亿参数的Qwen模型，在CRM任务上以95%的准确率超越更大规模的模型
最初尝试教导SLMs生成SQL查询较为困难，但随着训练数据的扩充得到改善
第二阶段采用BANT框架进行直接答案生成，获得了0.825的评估分数
关键结论：经过任务特定微调的SLMs可以超越大模型、合成数据存在质量挑战、受限答案空间能提升结果质量