Hasty Briefsbeta

双语

The Nonprofit Feeding the Internet to AI Companies

6 months ago

#AI Ethics
#Data Scraping
#Copyright

非营利组织Common Crawl一直在抓取各大新闻网站的付费墙文章，并将其提供给AI公司用于训练大语言模型(LLMs)。
尽管声称只抓取'公开可用内容'并遵守删除请求，Common Crawl的存档中仍包含数百万篇来自《纽约时报》《经济学人》《大西洋月刊》等出版商的付费文章。
Common Crawl执行董事Rich Skrenta主张AI模型应免费获取网络内容，将网络爬虫比作应该'免费阅读书籍'的人。
出版商已提出内容删除请求，但Common Crawl的存档基本未变，其删除声明（如50%、70%、80%）存在误导或虚假成分。
Common Crawl的搜索工具对NYTimes.com等域名显示错误的'未抓取'结果，掩盖了付费墙内容的存在。
OpenAI、谷歌和英伟达等AI公司依赖Common Crawl的数据，这些数据曾被用于训练GPT-3和ChatGPT等模型。
Common Crawl接受过AI公司捐赠（如OpenAI和Anthropic各25万美元），并积极协助策划AI训练数据集。
Skrenta漠视出版商权益，声称网络内容应自由获取，并贬低原创新闻的价值。
批评者指出AI公司和Common Crawl剥削出版商作品，在鼓吹'开放'的同时破坏其商业模式。
Common Crawl的行为凸显了AI发展、版权问题与数据抓取伦理之间的紧张关系。