Hasty Briefsbeta

双语

You cannot have our user's data

a year ago
  • #Open source
  • #LLM crawlers
  • #Data privacy
  • SourceHut已部署Anubis系统来防御激进的LLM爬虫程序。
  • 服务条款允许出于存档或开放获取研究目的使用自动化工具,但禁止用于招聘、招揽或营利行为。
  • 拟议的条款更新包含对爬虫程序的更严格规定,要求提供清晰的User-Agent标头并遵守robots.txt协议。
  • Robots.txt文件明确禁止营销爬虫、机器学习模型数据采集器及高频率请求的机器人。
  • LLM数据抓取行为因无视版权并引发性能问题而受到批评。
  • 部分观点认为系统管理员应优化服务或与LLM公司协商,但SourceHut拒绝这一提议。
  • SourceHut认为LLM公司无权获取用户数据,这些数据本应服务于开源贡献者。
  • 即使LLM公司付费,平台也不会为其提供特殊数据共享渠道。
  • SourceHut的运营资金来自用户订阅,而非出售用户数据。