Teuken-7B-Base and Teuken-7B-Instruct: Towards European LLMs
a year ago
- #LLM
- #multilingual
- #European Union
- 介绍Teuken-7B-Base和Teuken-7B-Instruct——支持欧盟全部24种官方语言的多语言大语言模型。
- 模型采用约60%非英语数据训练,配备定制多语言分词器,以解决英语中心化的大模型局限性。
- 详细阐述开发原则,包括数据构成、分词器优化及训练方法学。
- 在欧洲版ARC、HellaSwag、MMLU和TruthfulQA基准测试中展现出卓越性能。