Ten Years of Deploying to Production
2 months ago
- #DevOps
- #Platform Engineering
- #Production Deployment
- 2018年,该公司由运维团队(Ops)负责管理生产部署,发布频率较低(每两周一次)。
- 运维团队拥有创建虚拟机的工具,这对GPU训练等需要大量资源的任务至关重要。
- 当时的部署流程僵化,一旦出错可能导致发布延迟数周——除非运维团队愿意通融。
- 数据科学团队常遇到生产环境模型异常的问题,导致客户投诉频发。
- 当时没有正式的代码审查流程,代码经常直接在虚拟机上修改后随意推送到GitHub。
- 作者主动推行DevOps改进:搭建内部PyPi仓库、使用git标签、编写Chef配置脚本、建立代码审查机制。
- 到2026年,重点转向平台工程,强调开发者体验、快速CI/CD和生产系统容错能力。
- 2018年(僵化运维为中心)与2026年(灵活开发者为中心)的对比,清晰展现了部署与运维文化的演进历程。