Hasty Briefsbeta

双语

An LLM Query Understanding Service

a year ago
  • #LLM
  • #Kubernetes
  • #Search
  • 使用大语言模型(LLM)增强搜索能力,将查询结构化处理为颜色、材质、类别等维度
  • 基于开源大语言模型(Qwen2-7B)部署FastAPI应用实现查询理解,无需依赖外部API
  • 构建服务Docker镜像并部署至Google Kubernetes Engine(GKE)自动驾驶模式
  • 配置支持GPU资源和模型数据持久化存储的Kubernetes部署方案
  • 采用Valkey实现缓存机制,避免重复查询触发LLM调用
  • 重构服务架构,实现搜索查询到结构化JSON响应的解析功能
  • 实施部署监控与优化,包括负载测试和提示词调优