Building a 30 PB storage cluster in the heart of SF
8 months ago
- #data-storage
- #cost-optimization
- #machine-learning
- 在旧金山市中心搭建存储集群,用于存储9000万小时的视频数据作为模型预训练素材
- 成本节约:自建年成本35.4万美元 vs AWS年费用1200万美元,降低约40倍
- 独特数据用例:机器学习训练数据不需要像企业数据那样的高冗余或高可用性
- 存储配置:100台DS4246机箱配备2400块HDD,构建30PB存储,搭配10个CPU头节点
- 软件方案:用200行Rust代码实现写入功能,nginx处理读取,SQLite管理元数据
- 成本明细:总月成本2.95万美元(含折旧) vs AWS月费113万美元
- 经验总结:保持简单是关键,避免采用Ceph/MinIO等复杂方案
- 实施挑战:物理安装(拧紧2400块硬盘)、网络兼容性调试
- 优化建议:采用SAS硬盘、超额配置网络带宽、做好线缆管理
- 未来改进:采用90盘位的超微SuperServer实现更高密度部署