Hasty Briefsbeta

双语

Show HN: Stop AI scrapers from hammering your self-hosted blog

2 months ago
  • #AI scraping
  • #SEO
  • #web development
  • AI公司会抓取网站内容作为训练数据,而自托管博客缺乏有效手段阻止这种行为
  • Fuzzy Canary通过植入指向不良内容(如色情)的隐形链接来触发爬虫防护机制
  • 安装方式支持npm/pnpm:`npm i @fuzzycanary/core` 或 `pnpm add @fuzzycanary/core`
  • 提供服务端(推荐)和客户端两种用法。服务端方案直接将防护标记写入HTML,效果更佳
  • React框架(Next.js/Remix)用户只需在根布局添加`<Canary />`组件
  • 非React框架可使用`getCanaryHtml()`方法在`<body>`起始位置插入标记
  • 客户端方案需在入口文件导入`@fuzzycanary/core/auto`,运行时自动注入防护
  • 通过检查UserAgent避开正规搜索引擎(谷歌/必应),但静态站点面临HTML硬编码的挑战
  • 静态站点建议采用客户端初始化方案,通过运行时检测`navigator.userAgent`实现,但对不执行JavaScript的爬虫效果有限