Hasty Briefsbeta

双语

When etcd crashes, check your disks first

3 months ago

#etcd
#debugging
#Kubernetes

在云边协同测试平台中，ETCD崩溃是由存储I/O延迟过高导致的
演示场景使用Karmada编排跨NUC、树莓派和Jetson AGX Orin的k3s集群，实现实时目标检测
Karmada Pod因etcd超时周期性崩溃，根本原因是虚拟机共享存储的I/O性能不稳定
通过ZFS调优（禁用同步写入、启用LZ4压缩、禁用atime、设置recordsize为8K）解决了etcd稳定性问题
关键经验：当etcd崩溃时，应优先排查磁盘I/O性能，特别是在共享或非专用存储环境中
演示成功实现了基于遥测数据的自适应策略编排，将工作负载从树莓派动态迁移至Jetson AGX Orin