Hasty Briefsbeta

双语

Building a 30 PB storage cluster in the heart of SF

8 months ago
  • #data-storage
  • #cost-optimization
  • #machine-learning
  • 在旧金山市中心搭建存储集群,用于存储9000万小时的视频数据作为模型预训练素材
  • 成本节约:自建年成本35.4万美元 vs AWS年费用1200万美元,降低约40倍
  • 独特数据用例:机器学习训练数据不需要像企业数据那样的高冗余或高可用性
  • 存储配置:100台DS4246机箱配备2400块HDD,构建30PB存储,搭配10个CPU头节点
  • 软件方案:用200行Rust代码实现写入功能,nginx处理读取,SQLite管理元数据
  • 成本明细:总月成本2.95万美元(含折旧) vs AWS月费113万美元
  • 经验总结:保持简单是关键,避免采用Ceph/MinIO等复杂方案
  • 实施挑战:物理安装(拧紧2400块硬盘)、网络兼容性调试
  • 优化建议:采用SAS硬盘、超额配置网络带宽、做好线缆管理
  • 未来改进:采用90盘位的超微SuperServer实现更高密度部署