Hasty Briefsbeta

双语

GPU-accelerated Llama3.java inference in pure Java using TornadoVM

a year ago
  • #Java
  • #GPU-Acceleration
  • #AI
  • Llama3模型可通过TornadoVM在原生Java环境中实现GPU加速运行
  • TornadoVM提供并行计算功能以增强GPU性能表现
  • 支持包括NVIDIA、Intel和Apple Silicon(通过OpenCL)在内的多种硬件后端
  • 提供不同GPU的性能指标(例如RTX 4090运行Llama-3.2-1B模型可达66.07 tokens/秒)
  • 需要Java 21、支持OpenCL/PTX后端的TornadoVM以及Maven构建工具
  • 包含完整的项目克隆、构建和运行配置指南
  • 支持FP16模型,可选Q8_0和Q4_0量化版本
  • 提供模型执行、内存管理和调试等命令行选项
  • 技术路线图旨在达到与llama.cpp等最快实现的性能对标
  • 由欧盟地平线欧洲计划和英国UKRI资助支持