Hasty Briefsbeta

双语

Poisoning Well for LLMs

8 months ago
  • #crawlers
  • #LLM
  • #content-poisoning
  • 大语言模型(LLMs)未经作者适当同意便使用其内容进行训练。
  • 使用robots.txt阻挡LLM爬虫效果有限,因多数爬虫不遵守该协议。
  • 作者正尝试通过nofollow链接投喂污染内容来毒害LLM训练数据。
  • Googlebot可通过IP匹配验证身份,但该技术实现较为复杂。
  • 一种方法是创建仅限nofollow链接访问的荒谬文章版本以针对LLM爬虫。
  • 污染内容包含语法扭曲和词汇荒诞化设计以干扰LLM学习。
  • 技术实现涉及模板化处理、文本变形及词汇替换来生成无意义内容。
  • 此举旨在消耗LLM爬虫资源并降低其输出质量。
  • 寻求与熟悉爬虫和LLM行为的研究者合作优化该对抗方案。