My trick for getting consistent classification from LLMs
7 months ago
- #classification
- #LLM
- #vectorization
- 大语言模型在生成类别标签时可能不一致,但在语义层面保持连贯性
- 通过向量化和聚类技术,可以从随机性的大语言模型输出中获得确定性标注
- 向量化处理促使标签收敛,显著减少独特标签的数量
- 向量化初期成本和延迟较高,但随着缓存命中率提升会逐渐降低
- 处理第10,000条推文时,向量化方案的成本效益达到纯LLM分类的10倍
- 提供Golang实现方案,包含嵌入生成、缓存检查及聚类逻辑
- 基准测试验证了该技术在成本、延迟和扩展性方面的有效性