Hasty Briefsbeta

双语

Launch HN: IonRouter (YC W26) – High-throughput, low-cost inference

2 months ago
  • #AI Inference
  • #GPU Optimization
  • #Machine Learning
  • 通过IonAttention技术实现高吞吐、低成本的推理。
  • 定制推理栈可在单GPU上多路复用模型,毫秒级切换并实时适应流量变化。
  • 支持微调模型、自定义LoRAs或任何开源模型,提供专用GPU流和按秒计费。
  • 适用于机器人感知、监控安防、游戏资产生成和AI视频管线。
  • 单GPU同时运行五个视觉语言模型,处理2700个视频片段且冷启动<1秒。
  • 仅需一行代码修改即可兼容OpenAI客户端。
  • 按百万token计费,无闲置成本。
  • 集成智谱AI、月之暗面、MiniMax、积木等公司的旗舰模型。
  • 包含140亿参数文生视频模型,10秒内生成视频片段。
  • 亚4秒快速图像生成,满足实时应用需求。
  • 无需GPU专业知识,一分钟内快速上手。