GPU-accelerated Llama3.java inference in pure Java using TornadoVM
a year ago
- #Java
- #GPU-Acceleration
- #AI
- Llama3模型可通过TornadoVM在原生Java环境中实现GPU加速运行
- TornadoVM提供并行计算功能以增强GPU性能表现
- 支持包括NVIDIA、Intel和Apple Silicon(通过OpenCL)在内的多种硬件后端
- 提供不同GPU的性能指标(例如RTX 4090运行Llama-3.2-1B模型可达66.07 tokens/秒)
- 需要Java 21、支持OpenCL/PTX后端的TornadoVM以及Maven构建工具
- 包含完整的项目克隆、构建和运行配置指南
- 支持FP16模型,可选Q8_0和Q4_0量化版本
- 提供模型执行、内存管理和调试等命令行选项
- 技术路线图旨在达到与llama.cpp等最快实现的性能对标
- 由欧盟地平线欧洲计划和英国UKRI资助支持