Hasty Briefsbeta

双语

RepoRoulette: Randomly sample repositories from GitHub

a year ago
  • #sampling
  • #GitHub
  • #open-source
  • RepoRoulette提供了三种GitHub仓库随机采样方法:IDSampler、TemporalSampler和BigQuerySampler
  • IDSampler利用GitHub的顺序仓库ID系统进行随机采样,但命中率较低
  • TemporalSampler在指定日期范围内随机选择时间段内更新的仓库
  • BigQuerySampler使用Google BigQuery的公共GitHub数据集进行高级筛选,但需要GCP账户
  • GHArchiveSampler从记录GitHub公开事件的GitHub Archive中采样仓库
  • 应用场景包括学术研究、学习资源、数据科学、趋势分析和安全研究
  • 该项目开放贡献,采用MIT许可证