Measuring FPGA vs ARM on Pynq-Z2: Tiny MLP, huge AXI/DMA Overhead
3 months ago
- #Machine Learning
- #High-Frequency Trading
- #FPGA
- 实验笔记:详细记录了在FPGA数据路径中实现微型多层感知机(MLP)用于高频交易(HFT)应用的过程
- 项目目标:构建可与真实硬件交互的最小化、可测量的HFT数据路径,突破Python回测的局限
- 双通道架构:反射通道(CPU)处理硬编码规则,推理通道(FPGA)运行微型量化MLP模型
- 原始构想:数据包处理流程为特征提取→MLP推理→决策→输出,各阶段均带时间戳记录
- 当前重点:在Pynq-Z2开发板上进行片上系统(SoC)性能基准测试,对比ARM反射通道与FPGA推理通道
- 关键发现:MLP计算量极小(64周期≈0.5微秒),但外围框架开销巨大(≈14万周期≈1.0–1.3毫秒)
- 性能对比:ARM反射通道比FPGA通道快约100倍(ARM:16–20微秒,FPGA带DMA:3.4–3.6毫秒)
- 采用四种覆盖测试方案测量延迟:完整版、纯MLP版、无DMA版和核心探针版,揭示框架开销占主导
- 识别出的瓶颈:AXI互连、位宽转换器、PL/PS边界和软件控制路径带来显著延迟
- 与现代HFT系统对比:实际部署采用流线型流水线、极简FIFO和旁路控制以实现更高性能
- 核心结论:项目凸显了严谨数据路径设计的重要性,避免MLP的延迟优势被框架开销抵消