Gt: [experimental] multiplexing tensor framework
4 months ago
- #gpu
- #machine-learning
- #distributed-computing
- GT是一个实验性的多路复用张量框架,专为分布式GPU计算设计。
- 它摒弃了机器学习研究中笨拙的锁步范式,采用动态调度和异步执行机制。
- GT包含三个核心组件:客户端(用户)、调度器(协调者)和工作者(每个GPU对应一个)。
- 客户端发出纯函数式指令,调度器会将其重写为GPU可识别的形式并分发给工作者。
- 工作者异步处理指令,可选择进行即时编译(JIT)。
- 指令流通过信号标注实现分片,并用热路径提示JIT编译。
- YAML配置文件可补充分片和编译的标注,但这些标注也可安全忽略。
- GT会自动在后台启动异步调度服务器和GPU工作者。
- 特性包括:高性能传输(ZeroMQ)、自动微分支持、PyTorch兼容API和基于信号的分片。
- 附加功能:实时监控、指令日志记录、AI辅助开发和完整文档。
- 支持pip安装,功能涵盖自动服务器模式、张量操作、自动微分和基于信号的分片。
- 示例演示了基础张量操作、信号分片、编译指令、调试工具和可视化。
- GT设计注重简洁性、可读性以及与AI编程助手的协作。
- 欢迎贡献代码,项目提供详细指南。
- 采用MIT许可证发布。