Hasty Briefsbeta

双语

The Common Pile v0.1: An 8TB dataset of public domain and openly licensed text

a year ago
  • #open-source
  • #LLM
  • #dataset
  • Common Pile v0.1是一个8TB的开源文本数据集,专为LLM预训练设计。
  • 该数据集通过避免使用未经授权的文本来解决伦理问题,这与许多现有的LLM训练数据集形成鲜明对比。
  • 数据集包含来自30个不同来源的多样化内容,如研究论文、书籍和教育材料。
  • 基于该数据集训练的两个70亿参数LLM(Comma v0.1-1T和Comma v0.1-2T)展现出具有竞争力的性能。
  • 本次发布包含数据集、创建代码、训练混合比例和模型检查点。