Hasty Briefsbeta

双语

Web-scraping AI bots cause disruption for scientific databases and journals

a year ago
  • #AI
  • #Publishing
  • #Bots
  • DiscoverLife是一个在线图片库,由于机器人流量激增导致网站访问速度变慢。
  • 机器人程序对学术出版商和研究人员造成的困扰日益加剧,它们抓取内容用于生成式AI训练。
  • 许多人怀疑机器人正在收集数据来训练聊天机器人和图像生成器等AI工具。
  • 海量的机器人请求使系统不堪重负,造成财务和运营中断。
  • 资源有限的小型组织尤其容易受到这些干扰的影响。
  • 互联网机器人已存在数十年,有些很有用,比如搜索引擎使用的爬虫。
  • 生成式AI的兴起导致未经授权抓取内容的'恶意机器人'数量激增。
  • BMJ和Highwire Press等出版商报告称'恶意机器人'流量显著增加,导致服务中断。
  • COAR报告显示,超过90%的受访成员遭遇AI机器人抓取内容,其中三分之二面临服务中断。
  • 中国开发的深度求索(DeepSeek)大模型表明,用较少资源也能打造强大AI模型,这导致更多机器人抓取训练数据。