Hasty Briefsbeta

双语

Heretic: Automatic censorship removal for language models

3 months ago
  • #censorship-removal
  • #language-models
  • #machine-learning
  • Heretic是一种无需昂贵后训练即可消除基于Transformer语言模型审查机制的工具
  • 它结合了定向消融(abliteration)技术和由Optuna驱动的TPE参数优化器
  • 通过最小化拒绝率和与原模型的KL散度,Heretic可实现自动化去审查
  • 支持大多数稠密模型(包括多模态模型和部分MoE架构),但不支持SSM/混合模型
  • 在RTX 3090上约45分钟可完成Llama-3.1-8B等模型的去审查,系统通过基准测试优化批量大小
  • 去审查后用户可保存模型、上传至Hugging Face或进行测试对话
  • Heretic实现了参数化定向消融变体,通过正交化矩阵消除拒绝方向的影响
  • 核心创新包括柔性消融权重核函数、浮点拒绝方向索引、各组件独立参数设计
  • 该工具综合多种消融技术和论文成果从头开发
  • 采用GNU Affero通用公共许可证发布