Hasty Briefsbeta

双语

Show HN: I built a toy TPU that can do inference and training on the XOR problem

9 months ago

#hardware-design
#machine-learning
#systolic-array

该项目旨在从零开始构建一个'玩具版'TPU（张量处理单元），重点在于理解并复现其推理和训练功能。
团队选择构建TPU是因为这是一个极具挑战性的项目——当时没有能同时处理推理和训练且文档完善的开源机器学习加速器。
设计哲学：'永远先尝试野路子'——在查阅外部资料前优先采用原创方案，目标是重新发明而非逆向工程TPU。
TPU是谷歌专为高效机器学习工作负载设计的专用集成电路，尤其擅长处理深度学习中的核心计算——矩阵乘法。
关键硬件概念：时钟周期、用于硬件描述的Verilog语言，以及实现高效矩阵乘法的脉动阵列。
脉动阵列由执行乘加运算的处理单元(PE)构成，可实现并行计算。
采用异或问题作为简单案例来演示推理和训练，因其非线性决策边界需要多层感知机(MLP)实现。
通过流水线技术和双缓冲机制优化性能，确保持续推理和高效的权重更新。
在设计中集成反向传播算法，利用脉动阵列进行梯度计算和权重更新。
引入统一缓冲器(UB)存储训练过程中的中间值，提升效率和可扩展性。
最终设计包含自定义指令集(ISA)和控制单元来管理操作，实现了功能完整的'玩具版'TPU。