Hasty Briefsbeta

双语

Show HN: Serve 100 Large AI models on a single GPU with low impact to TTFT

6 months ago

#AI
#GPU Optimization
#Inference Engine

Flashtensors是一个超高速推理引擎，其将模型从SSD加载到GPU显存的速度比传统加载器快10倍以上。
大型模型热切换时间不到2秒，极大缩短冷启动耗时。
传统模型加载器因冗长的启动时间拖慢工作流，而flashtensors能消除瓶颈并实现性能最大化。
在单台设备上托管数百个模型，并可按需热切换，对用户体验影响极小。
可在机器人、可穿戴设备等资源受限设备上运行智能体工作流。
适用场景包括：经济型个性化AI、无服务器AI推理、本地化部署、机器人技术及本地推理。
通过pip安装后，使用'flash start'、'flash pull'和'flash run'等命令管理执行模型。
Python API支持配置、模型注册、加载、推理及资源清理全流程操作。
基准测试显示flashtensors比safetensors快4-6倍，即使是320亿参数模型的冷启动也能控制在5秒内。
未来规划包含Docker集成、推理服务器、SGLang集成、LlamaCPP集成、Dynamo集成及Ollama集成等功能。