Matrix: Post-mortem of the September 2 outage
7 months ago
- #database-outage
- #postgresql
- #disaster-recovery
- Matrix.org 主服务器因例行维护期间数据库故障经历了24小时中断
- 尝试恢复主数据库导致次级数据库丢失,不得不耗时从51TB的S3备份中恢复
- 未发生数据丢失,但服务中断从UTC时间2025-09-02 17:45持续至2025-09-03 18:00
- 该事件暴露出数据库服务器命名规范、备份策略和恢复流程等方面的问题
- 经验教训包括需建立更好的保障措施、改进工具及在中断期间加强社区沟通