Sarvam 105B, the first competitive Indian open source LLM
2 months ago
- #AI
- #OpenSource
- #IndiaAI
- Sarvam发布两款开源模型:完全在印度本土训练的Sarvam 30B和Sarvam 105B
- 两款模型专为推理、编程和智能体任务优化,在印度语言基准测试中表现优异
- Sarvam 30B专为实时部署设计,支撑对话代理平台Samvaad的运行
- Sarvam 105B擅长复杂推理和智能体工作流,驱动AI助手Indus的核心功能
- 模型采用混合专家(MoE)Transformer架构,实现高效训练与部署
- 预训练使用超大规模数据集(30B模型16T token/105B模型12T token),侧重推理与多语言内容
- 监督微调阶段包含高质量提示工程及针对印度特定风险场景的安全调优
- 强化学习采用多样化提示和自适应采样策略提升学习效果
- 基准测试显示Sarvam 105B在知识、推理和智能体任务上超越同类模型
- Sarvam 30B在编程和推理基准表现突出,专为高效部署优化
- 分词器针对印度语言优化,显著降低计算成本与延迟
- 推理优化包含内核级重写和高级调度策略,实现高吞吐量
- 演示案例涵盖网页生成、教育辅导、竞技编程等实际应用场景
- 模型可通过API调用,并在AI Kosh和Hugging Face平台提供下载
- 总结强调这些模型对建设印度自主AI基础设施的战略意义