Hasty Briefsbeta

双语

Measuring FPGA vs ARM on Pynq-Z2: Tiny MLP, huge AXI/DMA Overhead

6 months ago

#Machine Learning
#High-Frequency Trading
#FPGA

实验笔记：详细记录了在FPGA数据路径中实现微型多层感知机(MLP)用于高频交易(HFT)应用的过程
项目目标：构建可与真实硬件交互的最小化、可测量的HFT数据路径，突破Python回测的局限
双通道架构：反射通道(CPU)处理硬编码规则，推理通道(FPGA)运行微型量化MLP模型
原始构想：数据包处理流程为特征提取→MLP推理→决策→输出，各阶段均带时间戳记录
当前重点：在Pynq-Z2开发板上进行片上系统(SoC)性能基准测试，对比ARM反射通道与FPGA推理通道
关键发现：MLP计算量极小(64周期≈0.5微秒)，但外围框架开销巨大(≈14万周期≈1.0–1.3毫秒)
性能对比：ARM反射通道比FPGA通道快约100倍(ARM:16–20微秒，FPGA带DMA:3.4–3.6毫秒)
采用四种覆盖测试方案测量延迟：完整版、纯MLP版、无DMA版和核心探针版，揭示框架开销占主导
识别出的瓶颈：AXI互连、位宽转换器、PL/PS边界和软件控制路径带来显著延迟
与现代HFT系统对比：实际部署采用流线型流水线、极简FIFO和旁路控制以实现更高性能
核心结论：项目凸显了严谨数据路径设计的重要性，避免MLP的延迟优势被框架开销抵消