Hasty Briefsbeta

双语

Teuken-7B-Base and Teuken-7B-Instruct: Towards European LLMs

a year ago
  • #LLM
  • #multilingual
  • #European Union
  • 介绍Teuken-7B-Base和Teuken-7B-Instruct——支持欧盟全部24种官方语言的多语言大语言模型。
  • 模型采用约60%非英语数据训练,配备定制多语言分词器,以解决英语中心化的大模型局限性。
  • 详细阐述开发原则,包括数据构成、分词器优化及训练方法学。
  • 在欧洲版ARC、HellaSwag、MMLU和TruthfulQA基准测试中展现出卓越性能。