Hasty Briefsbeta

双语

Show HN: Stop AI scrapers from hammering your self-hosted blog

5 months ago

#AI scraping
#SEO
#web development

AI公司会抓取网站内容作为训练数据，而自托管博客缺乏有效手段阻止这种行为
Fuzzy Canary通过植入指向不良内容（如色情）的隐形链接来触发爬虫防护机制
安装方式支持npm/pnpm：`npm i @fuzzycanary/core` 或 `pnpm add @fuzzycanary/core`
提供服务端（推荐）和客户端两种用法。服务端方案直接将防护标记写入HTML，效果更佳
React框架（Next.js/Remix）用户只需在根布局添加`<Canary />`组件
非React框架可使用`getCanaryHtml()`方法在`<body>`起始位置插入标记
客户端方案需在入口文件导入`@fuzzycanary/core/auto`，运行时自动注入防护
通过检查UserAgent避开正规搜索引擎（谷歌/必应），但静态站点面临HTML硬编码的挑战
静态站点建议采用客户端初始化方案，通过运行时检测`navigator.userAgent`实现，但对不执行JavaScript的爬虫效果有限