BERT Is Just a Single Text Diffusion Step

7 months ago

谷歌DeepMind推出Gemini Diffusion，这是一种采用扩散过程生成文本的语言模型，其工作原理与传统GPT模型不同——通过逐步优化噪声来生成完整文本块。
离散语言扩散是掩码语言建模(MLM)的泛化形式，与2018年提出的BERT方法原理相似。
原始Transformer架构(2017)采用编码器-解码器设计，但2018年出现的BERT(纯编码器)和GPT(纯解码器)模型在不同任务中各有所长。
扩散模型在图像生成领域流行后，研究者通过基于掩码的噪声处理机制将其适配文本领域——文本先被逐步掩码再逆向去噪。
增强型BERT模型RoBERTa通过HuggingFace库在WikiText数据集上微调，实现了基于扩散的文本生成，展现出良好潜力。
微调后的RoBERTa模型能生成连贯文本，但仍保留WikiText数据集格式带来的一些特殊表达习惯。
与GPT-2的对比显示，GPT-2输出更连贯且速度略快，但RoBERTa扩散模型成功验证了概念可行性。
实验证明：通过将可变速率掩码视为离散扩散过程，BERT类模型可被改造用于生成式任务。

Hasty Briefsbeta