Launch HN: IonRouter (YC W26) – High-throughput, low-cost inference
2 months ago
- #AI Inference
- #GPU Optimization
- #Machine Learning
- 通过IonAttention技术实现高吞吐、低成本的推理。
- 定制推理栈可在单GPU上多路复用模型,毫秒级切换并实时适应流量变化。
- 支持微调模型、自定义LoRAs或任何开源模型,提供专用GPU流和按秒计费。
- 适用于机器人感知、监控安防、游戏资产生成和AI视频管线。
- 单GPU同时运行五个视觉语言模型,处理2700个视频片段且冷启动<1秒。
- 仅需一行代码修改即可兼容OpenAI客户端。
- 按百万token计费,无闲置成本。
- 集成智谱AI、月之暗面、MiniMax、积木等公司的旗舰模型。
- 包含140亿参数文生视频模型,10秒内生成视频片段。
- 亚4秒快速图像生成,满足实时应用需求。
- 无需GPU专业知识,一分钟内快速上手。