Show HN: Defuddle, an HTML-to-Markdown alternative to Readability
a year ago
- #readability
- #web-development
- #html-processing
- Defuddle是一款通过移除网页非必要元素来提升可读性的工具
- 它能清除网页中的干扰内容,如评论区、侧边栏、页眉页脚等非核心元素
- 该工具致力于输出整洁规范的HTML文档,特别适用于HTML转Markdown的场景
- 可作为Mozilla Readability的替代方案,其优势在于容错性更强,并能标准化处理脚注、数学公式和代码块
- 具备元数据提取功能(包括schema.org数据),并通过移动端样式识别冗余元素
- 通过npm安装,Node.js环境需配合JSDOM使用
- 返回对象包含作者、正文、描述、域名、网站图标、主图等结构化数据
- 提供三个版本:核心版、完整版(支持数学公式解析)和Node.js专用优化版
- 支持调试模式、页面URL指定、Markdown转换及选择器移除等配置选项
- 能标准化HTML元素结构,自动清除标题锚链接,并统一代码块/脚注/数学公式的呈现格式
- 构建环境要求Node.js和npm,通过标准命令即可完成依赖安装和打包