AI scrapers request commented scripts
7 months ago
- #bot-detection
- #cybersecurity
- #data-poisoning
- 通过404错误发现恶意机器人行为,针对不存在的JavaScript文件请求。
- 识别伪装成正常浏览器的恶意用户代理字符串。
- 发现疑似未经许可抓取内容用于LLM训练的爬虫行为。
- 探讨机器人解析HTML的技术差异,从精密解析到简单模式匹配。
- 研究对抗恶意机器人的主动防御策略,包括IP封禁和压缩包炸弹等技术。
- 提出数据投毒作为对抗LLM内容抓取的新型防御手段。
- 揭示少量污染数据即可破坏大模型训练效果的现象。
- 推荐部署nepenthes、nightshade等数据污染工具的实践方案。
- 通过隐藏诱饵链接等策略检测和限制机器人访问。
- 社区协作开发与共享反机器人技术的经验交流。