Hasty Briefsbeta

双语

Matrix: Post-mortem of the September 2 outage

7 months ago
  • #database-outage
  • #postgresql
  • #disaster-recovery
  • Matrix.org 主服务器因例行维护期间数据库故障经历了24小时中断
  • 尝试恢复主数据库导致次级数据库丢失,不得不耗时从51TB的S3备份中恢复
  • 未发生数据丢失,但服务中断从UTC时间2025-09-02 17:45持续至2025-09-03 18:00
  • 该事件暴露出数据库服务器命名规范、备份策略和恢复流程等方面的问题
  • 经验教训包括需建立更好的保障措施、改进工具及在中断期间加强社区沟通