When etcd crashes, check your disks first
5 days ago
- #etcd
- #debugging
- #Kubernetes
- 在云边协同测试平台中,ETCD崩溃是由存储I/O延迟过高导致的
- 演示场景使用Karmada编排跨NUC、树莓派和Jetson AGX Orin的k3s集群,实现实时目标检测
- Karmada Pod因etcd超时周期性崩溃,根本原因是虚拟机共享存储的I/O性能不稳定
- 通过ZFS调优(禁用同步写入、启用LZ4压缩、禁用atime、设置recordsize为8K)解决了etcd稳定性问题
- 关键经验:当etcd崩溃时,应优先排查磁盘I/O性能,特别是在共享或非专用存储环境中
- 演示成功实现了基于遥测数据的自适应策略编排,将工作负载从树莓派动态迁移至Jetson AGX Orin