Hasty Briefsbeta

双语

An LLM Query Understanding Service

a year ago

#LLM
#Kubernetes
#Search

使用大语言模型（LLM）增强搜索能力，将查询结构化处理为颜色、材质、类别等维度
基于开源大语言模型（Qwen2-7B）部署FastAPI应用实现查询理解，无需依赖外部API
构建服务Docker镜像并部署至Google Kubernetes Engine（GKE）自动驾驶模式
配置支持GPU资源和模型数据持久化存储的Kubernetes部署方案
采用Valkey实现缓存机制，避免重复查询触发LLM调用
重构服务架构，实现搜索查询到结构化JSON响应的解析功能
实施部署监控与优化，包括负载测试和提示词调优