Hasty Briefsbeta

双语

GPU-accelerated Llama3.java inference in pure Java using TornadoVM

a year ago

#Java
#GPU-Acceleration
#AI

Llama3模型可通过TornadoVM在原生Java环境中实现GPU加速运行
TornadoVM提供并行计算功能以增强GPU性能表现
支持包括NVIDIA、Intel和Apple Silicon（通过OpenCL）在内的多种硬件后端
提供不同GPU的性能指标（例如RTX 4090运行Llama-3.2-1B模型可达66.07 tokens/秒）
需要Java 21、支持OpenCL/PTX后端的TornadoVM以及Maven构建工具
包含完整的项目克隆、构建和运行配置指南
支持FP16模型，可选Q8_0和Q4_0量化版本
提供模型执行、内存管理和调试等命令行选项
技术路线图旨在达到与llama.cpp等最快实现的性能对标
由欧盟地平线欧洲计划和英国UKRI资助支持