Hasty Briefsbeta

双语

Addressing GitHub's recent availability issues

2 months ago
  • #System Resilience
  • #GitHub
  • #Incident Report
  • GitHub因使用量激增遭遇严重的可用性和性能问题,暴露出扩展性局限
  • 关键故障发生在2月2日、2月9日和3月5日,影响认证系统、用户管理和GitHub Actions服务
  • 2月9日事故源于客户端应用流量激增及缓存TTL变更导致的数据库集群过载
  • GitHub Actions在2月2日和3月5日因故障转移方案不足及潜在配置问题出现故障
  • 影响因素包括隔离不充分、负载分流不足以及监控验证环节的缺失
  • GitHub正实施短期改进措施,如重构用户缓存系统与隔离关键依赖项
  • 长期解决方案包括将基础设施迁移至Azure平台,并通过解耦单体架构提升扩展性和韧性
  • GitHub承诺通过发布事故摘要和月度可用性报告保持透明度