You cannot have our user's data
a year ago
- #Open source
- #LLM crawlers
- #Data privacy
- SourceHut已部署Anubis系统来防御激进的LLM爬虫程序。
- 服务条款允许出于存档或开放获取研究目的使用自动化工具,但禁止用于招聘、招揽或营利行为。
- 拟议的条款更新包含对爬虫程序的更严格规定,要求提供清晰的User-Agent标头并遵守robots.txt协议。
- Robots.txt文件明确禁止营销爬虫、机器学习模型数据采集器及高频率请求的机器人。
- LLM数据抓取行为因无视版权并引发性能问题而受到批评。
- 部分观点认为系统管理员应优化服务或与LLM公司协商,但SourceHut拒绝这一提议。
- SourceHut认为LLM公司无权获取用户数据,这些数据本应服务于开源贡献者。
- 即使LLM公司付费,平台也不会为其提供特殊数据共享渠道。
- SourceHut的运营资金来自用户订阅,而非出售用户数据。