Hasty Briefsbeta

双语

My trick for getting consistent classification from LLMs

7 months ago

#classification
#LLM
#vectorization

大语言模型在生成类别标签时可能不一致，但在语义层面保持连贯性
通过向量化和聚类技术，可以从随机性的大语言模型输出中获得确定性标注
向量化处理促使标签收敛，显著减少独特标签的数量
向量化初期成本和延迟较高，但随着缓存命中率提升会逐渐降低
处理第10,000条推文时，向量化方案的成本效益达到纯LLM分类的10倍
提供Golang实现方案，包含嵌入生成、缓存检查及聚类逻辑
基准测试验证了该技术在成本、延迟和扩展性方面的有效性