Hasty Briefsbeta

双语

Crawl Order and Disorder

a year ago
  • #web-crawling
  • #optimization
  • #search-engine
  • 搜索引擎爬虫需要很长时间才能完成,99.9%的爬取在4天内完成,剩余的0.1%需要一周时间。
  • 迁移到增量爬取数据后,内存需求下降了80%,可以执行更多爬取任务。
  • 爬虫限制每个域的并发任务数,以避免超过爬取速率被反爬软件拦截。
  • 学术类域名由于规模庞大且子域名众多,通常设有严格的爬取限制。
  • 最初的随机爬取顺序导致大型域名(通常是学术类)启动较晚,延迟了整体完成时间。
  • 尝试按子域名排序适得其反,导致对博客主机同时发起过多请求。
  • 增加了请求延迟的随机间隔,并修改排序策略优先处理子域名超过8个的域,从而优化了调度。
  • 未来可通过历史爬取时长或磁盘数据量进一步优化任务优先级排序。