Poisoning Well for LLMs
8 months ago
- #crawlers
- #LLM
- #content-poisoning
- 大语言模型(LLMs)未经作者适当同意便使用其内容进行训练。
- 使用robots.txt阻挡LLM爬虫效果有限,因多数爬虫不遵守该协议。
- 作者正尝试通过nofollow链接投喂污染内容来毒害LLM训练数据。
- Googlebot可通过IP匹配验证身份,但该技术实现较为复杂。
- 一种方法是创建仅限nofollow链接访问的荒谬文章版本以针对LLM爬虫。
- 污染内容包含语法扭曲和词汇荒诞化设计以干扰LLM学习。
- 技术实现涉及模板化处理、文本变形及词汇替换来生成无意义内容。
- 此举旨在消耗LLM爬虫资源并降低其输出质量。
- 寻求与熟悉爬虫和LLM行为的研究者合作优化该对抗方案。