Addressing GitHub's recent availability issues
2 months ago
- #System Resilience
- #GitHub
- #Incident Report
- GitHub因使用量激增遭遇严重的可用性和性能问题,暴露出扩展性局限
- 关键故障发生在2月2日、2月9日和3月5日,影响认证系统、用户管理和GitHub Actions服务
- 2月9日事故源于客户端应用流量激增及缓存TTL变更导致的数据库集群过载
- GitHub Actions在2月2日和3月5日因故障转移方案不足及潜在配置问题出现故障
- 影响因素包括隔离不充分、负载分流不足以及监控验证环节的缺失
- GitHub正实施短期改进措施,如重构用户缓存系统与隔离关键依赖项
- 长期解决方案包括将基础设施迁移至Azure平台,并通过解耦单体架构提升扩展性和韧性
- GitHub承诺通过发布事故摘要和月度可用性报告保持透明度