Language Models Are Injective and Hence Invertible
7 months ago
- #Language Models
- #Machine Learning
- #Invertibility
- Transformer语言模型已被证明是单射的,这意味着不同的输入不可能映射到相同的输出。
- 该论文提出了SipIt算法,能够在线性时间内从隐藏激活状态精确重构输入文本。
- 在六个最先进语言模型上的实证测试表明不存在碰撞现象,支持了单射性主张。
- 这些发现对语言模型的透明度、可解释性及安全部署具有重要意义。