Hasty Briefsbeta

双语

Heretic: Automatic censorship removal for language models

6 months ago

#censorship-removal
#language-models
#machine-learning

Heretic是一种无需昂贵后训练即可消除基于Transformer语言模型审查机制的工具
它结合了定向消融(abliteration)技术和由Optuna驱动的TPE参数优化器
通过最小化拒绝率和与原模型的KL散度，Heretic可实现自动化去审查
支持大多数稠密模型（包括多模态模型和部分MoE架构），但不支持SSM/混合模型
在RTX 3090上约45分钟可完成Llama-3.1-8B等模型的去审查，系统通过基准测试优化批量大小
去审查后用户可保存模型、上传至Hugging Face或进行测试对话
Heretic实现了参数化定向消融变体，通过正交化矩阵消除拒绝方向的影响
核心创新包括柔性消融权重核函数、浮点拒绝方向索引、各组件独立参数设计
该工具综合多种消融技术和论文成果从头开发
采用GNU Affero通用公共许可证发布