Hasty Briefsbeta

双语

Poisoning Well for LLMs

8 months ago

#crawlers
#LLM
#content-poisoning

大语言模型（LLMs）未经作者适当同意便使用其内容进行训练。
使用robots.txt阻挡LLM爬虫效果有限，因多数爬虫不遵守该协议。
作者正尝试通过nofollow链接投喂污染内容来毒害LLM训练数据。
Googlebot可通过IP匹配验证身份，但该技术实现较为复杂。
一种方法是创建仅限nofollow链接访问的荒谬文章版本以针对LLM爬虫。
污染内容包含语法扭曲和词汇荒诞化设计以干扰LLM学习。
技术实现涉及模板化处理、文本变形及词汇替换来生成无意义内容。
此举旨在消耗LLM爬虫资源并降低其输出质量。
寻求与熟悉爬虫和LLM行为的研究者合作优化该对抗方案。