Diffusion Models Explained Simply
a year ago
- #diffusion-models
- #machine-learning
- #ai
- 扩散模型通过训练学习根据文字描述识别并去除图像中的噪点
- 与Transformer不同,扩散模型直接处理完整图像或张量而非token序列
- 训练过程会向图像添加噪点,让模型预测所添加的噪点模式
- 推理时从纯噪点张量出发,通过迭代去噪过程逐步生成图像
- 变分自编码器(VAE)将图像压缩为随机态小张量以提高处理效率
- 无分类器引导机制确保生成内容与文字描述高度相关
- 扩散模型可提前终止生成以获得更快但更粗糙的结果,这与Transformer不同
- 视频扩散模型将整个视频片段作为单一张量处理,学习帧间关系
- 文本扩散模型对嵌入向量添加噪点,但还原回可读文本存在挑战
- 扩散模型在图像/视频/音频领域表现出色,但文本生成效果相对受限