RepoRoulette: Randomly sample repositories from GitHub
a year ago
- #sampling
- #GitHub
- #open-source
- RepoRoulette提供了三种GitHub仓库随机采样方法:IDSampler、TemporalSampler和BigQuerySampler
- IDSampler利用GitHub的顺序仓库ID系统进行随机采样,但命中率较低
- TemporalSampler在指定日期范围内随机选择时间段内更新的仓库
- BigQuerySampler使用Google BigQuery的公共GitHub数据集进行高级筛选,但需要GCP账户
- GHArchiveSampler从记录GitHub公开事件的GitHub Archive中采样仓库
- 应用场景包括学术研究、学习资源、数据科学、趋势分析和安全研究
- 该项目开放贡献,采用MIT许可证