Hasty Briefsbeta

双语

Is Meta Scraping the Fediverse for AI?

9 months ago

#Meta
#Fediverse
#AI Scraping

据称Meta正在抓取独立网站（包括联邦宇宙实例）的数据用于AI训练，无视robots.txt协议。
Meta否认指控称报道不实，但证据表明其存在大规模数据抓取行为。
一份泄露的1659页PDF文件列出了可能受Meta抓取影响的众多联邦宇宙实例（Mastodon、Lemmy、PeerTube等）。
建议管理员核查实例是否在列，并评估联邦网络风险——即使缓存帖子仍可能被爬取。
防护措施包括：制定反爬取服务条款、通过Meta表单请求数据删除、提起GDPR投诉（仅限欧盟）。
技术防护手段可采用防火墙（如Anubis）、压缩包炸弹、封禁AI用户代理等。
缺乏明确法规与企业漠视规范的行为使得对抗AI数据抓取愈发困难。