Facebook's Fascination with My Robots.txt
2 days ago
- #Web Crawling
- #Robots.txt
- 过去4天里,Facebook持续访问作者自托管Forgejo实例中的/robots.txt文件
- 请求来自Meta的IP地址段,并使用用户代理'facebookexternalhit/1.1'
- 仅访问robots.txt文件,未请求其他任何文件或路径
- Facebook官方文档称其爬虫用于收集链接分享的元数据,但作者怀疑自己的站点并未被广泛分享
- 作者推测这可能是Meta端的程序错误或配置失误,质疑此类重复请求对全球带宽和能源的消耗
- 与之前遇到的AI机器人流量相比,该行为虽基本无害,但仍是个奇特且值得关注的现象