Hasty Briefsbeta

双语

An LLM trained only on data from certain time periods to reduce modern bias

10 months ago

#AI
#Natural Language Processing
#Historical Simulation

TimeCapsule LLM是一个实验性项目，旨在通过专门训练特定历史时期的文本来模拟该时期的世界观和语言表达方式。
该模型基于1800-1850年伦敦时期的文本进行训练，计划扩展至1800-1875年范围，以避免现代偏见和概念的干扰。
训练过程包括收集清洗历史文本、构建定制分词器，并使用Andrej Karpathy的nanoGPT框架从头开始训练。
初期训练使用187MB数据（50本书籍），生成的文本具有19世纪语言特征但连贯性不足，计划扩展至500-600本书籍以提升推理能力。
项目重点在于历史数据的筛选整理和训练准备，当前模型参数约1600万个。
主要挑战包括确保文本不受现代解读影响，以及处理OCR识别错误或注释干扰。
目前输出结果能体现19世纪语言特征且不含现代概念，但需通过更多数据提升句子结构和逻辑连贯性。