Hasty Briefsbeta

双语

Launch HN: IonRouter (YC W26) – High-throughput, low-cost inference

2 months ago

#AI Inference
#GPU Optimization
#Machine Learning

通过IonAttention技术实现高吞吐、低成本的推理。
定制推理栈可在单GPU上多路复用模型，毫秒级切换并实时适应流量变化。
支持微调模型、自定义LoRAs或任何开源模型，提供专用GPU流和按秒计费。
适用于机器人感知、监控安防、游戏资产生成和AI视频管线。
单GPU同时运行五个视觉语言模型，处理2700个视频片段且冷启动<1秒。
仅需一行代码修改即可兼容OpenAI客户端。
按百万token计费，无闲置成本。
集成智谱AI、月之暗面、MiniMax、积木等公司的旗舰模型。
包含140亿参数文生视频模型，10秒内生成视频片段。
亚4秒快速图像生成，满足实时应用需求。
无需GPU专业知识，一分钟内快速上手。