An LLM Query Understanding Service
a year ago
- #LLM
- #Kubernetes
- #Search
- 使用大语言模型(LLM)增强搜索能力,将查询结构化处理为颜色、材质、类别等维度
- 基于开源大语言模型(Qwen2-7B)部署FastAPI应用实现查询理解,无需依赖外部API
- 构建服务Docker镜像并部署至Google Kubernetes Engine(GKE)自动驾驶模式
- 配置支持GPU资源和模型数据持久化存储的Kubernetes部署方案
- 采用Valkey实现缓存机制,避免重复查询触发LLM调用
- 重构服务架构,实现搜索查询到结构化JSON响应的解析功能
- 实施部署监控与优化,包括负载测试和提示词调优