Heretic: Automatic censorship removal for language models
3 months ago
- #censorship-removal
- #language-models
- #machine-learning
- Heretic是一种无需昂贵后训练即可消除基于Transformer语言模型审查机制的工具
- 它结合了定向消融(abliteration)技术和由Optuna驱动的TPE参数优化器
- 通过最小化拒绝率和与原模型的KL散度,Heretic可实现自动化去审查
- 支持大多数稠密模型(包括多模态模型和部分MoE架构),但不支持SSM/混合模型
- 在RTX 3090上约45分钟可完成Llama-3.1-8B等模型的去审查,系统通过基准测试优化批量大小
- 去审查后用户可保存模型、上传至Hugging Face或进行测试对话
- Heretic实现了参数化定向消融变体,通过正交化矩阵消除拒绝方向的影响
- 核心创新包括柔性消融权重核函数、浮点拒绝方向索引、各组件独立参数设计
- 该工具综合多种消融技术和论文成果从头开发
- 采用GNU Affero通用公共许可证发布