Hasty Briefsbeta

双语

The Nonprofit Feeding the Internet to AI Companies

6 months ago
  • #AI Ethics
  • #Data Scraping
  • #Copyright
  • 非营利组织Common Crawl一直在抓取各大新闻网站的付费墙文章,并将其提供给AI公司用于训练大语言模型(LLMs)。
  • 尽管声称只抓取'公开可用内容'并遵守删除请求,Common Crawl的存档中仍包含数百万篇来自《纽约时报》《经济学人》《大西洋月刊》等出版商的付费文章。
  • Common Crawl执行董事Rich Skrenta主张AI模型应免费获取网络内容,将网络爬虫比作应该'免费阅读书籍'的人。
  • 出版商已提出内容删除请求,但Common Crawl的存档基本未变,其删除声明(如50%、70%、80%)存在误导或虚假成分。
  • Common Crawl的搜索工具对NYTimes.com等域名显示错误的'未抓取'结果,掩盖了付费墙内容的存在。
  • OpenAI、谷歌和英伟达等AI公司依赖Common Crawl的数据,这些数据曾被用于训练GPT-3和ChatGPT等模型。
  • Common Crawl接受过AI公司捐赠(如OpenAI和Anthropic各25万美元),并积极协助策划AI训练数据集。
  • Skrenta漠视出版商权益,声称网络内容应自由获取,并贬低原创新闻的价值。
  • 批评者指出AI公司和Common Crawl剥削出版商作品,在鼓吹'开放'的同时破坏其商业模式。
  • Common Crawl的行为凸显了AI发展、版权问题与数据抓取伦理之间的紧张关系。