Show HN: Stop AI scrapers from hammering your self-hosted blog
2 months ago
- #AI scraping
- #SEO
- #web development
- AI公司会抓取网站内容作为训练数据,而自托管博客缺乏有效手段阻止这种行为
- Fuzzy Canary通过植入指向不良内容(如色情)的隐形链接来触发爬虫防护机制
- 安装方式支持npm/pnpm:`npm i @fuzzycanary/core` 或 `pnpm add @fuzzycanary/core`
- 提供服务端(推荐)和客户端两种用法。服务端方案直接将防护标记写入HTML,效果更佳
- React框架(Next.js/Remix)用户只需在根布局添加`<Canary />`组件
- 非React框架可使用`getCanaryHtml()`方法在`<body>`起始位置插入标记
- 客户端方案需在入口文件导入`@fuzzycanary/core/auto`,运行时自动注入防护
- 通过检查UserAgent避开正规搜索引擎(谷歌/必应),但静态站点面临HTML硬编码的挑战
- 静态站点建议采用客户端初始化方案,通过运行时检测`navigator.userAgent`实现,但对不执行JavaScript的爬虫效果有限