Hasty Briefsbeta

双语

The Common Pile v0.1: An 8TB dataset of public domain and openly licensed text

a year ago

#open-source
#LLM
#dataset

Common Pile v0.1是一个8TB的开源文本数据集，专为LLM预训练设计。
该数据集通过避免使用未经授权的文本来解决伦理问题，这与许多现有的LLM训练数据集形成鲜明对比。
数据集包含来自30个不同来源的多样化内容，如研究论文、书籍和教育材料。
基于该数据集训练的两个70亿参数LLM（Comma v0.1-1T和Comma v0.1-2T）展现出具有竞争力的性能。
本次发布包含数据集、创建代码、训练混合比例和模型检查点。