Hasty Briefsbeta

双语

Measuring FPGA vs ARM on Pynq-Z2: Tiny MLP, huge AXI/DMA Overhead

3 months ago
  • #Machine Learning
  • #High-Frequency Trading
  • #FPGA
  • 实验笔记:详细记录了在FPGA数据路径中实现微型多层感知机(MLP)用于高频交易(HFT)应用的过程
  • 项目目标:构建可与真实硬件交互的最小化、可测量的HFT数据路径,突破Python回测的局限
  • 双通道架构:反射通道(CPU)处理硬编码规则,推理通道(FPGA)运行微型量化MLP模型
  • 原始构想:数据包处理流程为特征提取→MLP推理→决策→输出,各阶段均带时间戳记录
  • 当前重点:在Pynq-Z2开发板上进行片上系统(SoC)性能基准测试,对比ARM反射通道与FPGA推理通道
  • 关键发现:MLP计算量极小(64周期≈0.5微秒),但外围框架开销巨大(≈14万周期≈1.0–1.3毫秒)
  • 性能对比:ARM反射通道比FPGA通道快约100倍(ARM:16–20微秒,FPGA带DMA:3.4–3.6毫秒)
  • 采用四种覆盖测试方案测量延迟:完整版、纯MLP版、无DMA版和核心探针版,揭示框架开销占主导
  • 识别出的瓶颈:AXI互连、位宽转换器、PL/PS边界和软件控制路径带来显著延迟
  • 与现代HFT系统对比:实际部署采用流线型流水线、极简FIFO和旁路控制以实现更高性能
  • 核心结论:项目凸显了严谨数据路径设计的重要性,避免MLP的延迟优势被框架开销抵消