The Common Pile v0.1: An 8TB dataset of public domain and openly licensed text
a year ago
- #open-source
- #LLM
- #dataset
- Common Pile v0.1是一个8TB的开源文本数据集,专为LLM预训练设计。
- 该数据集通过避免使用未经授权的文本来解决伦理问题,这与许多现有的LLM训练数据集形成鲜明对比。
- 数据集包含来自30个不同来源的多样化内容,如研究论文、书籍和教育材料。
- 基于该数据集训练的两个70亿参数LLM(Comma v0.1-1T和Comma v0.1-2T)展现出具有竞争力的性能。
- 本次发布包含数据集、创建代码、训练混合比例和模型检查点。