前言
“AI作画依赖于多模态预训练,实质上各类作画AI模型早已存在,之因此近期作品质量提高非常多,可能是由于以前预训练无受到注意,还达不到媲美人类的程度,但随着数据量、训练量的增加,最后达到了此刻呈现的效果。”远在AI作画还无爆火之前,深度学习就已然能够按照照片库训练学习生成有些真假难辨的照片了,那时候仅仅依赖的是GAN神经对抗网络算法实现,此刻随着模型的迭代优化,已然有了越来越多的模型能够实现有些较为繁杂的照片生成。
AI作画用以学习的“教材”常常都是现成的人类绘画作品,而随着数量庞大的训练数据的增多,AI对人类作品意境的“临摹”技巧亦越来越高明。针对大都数普通人来讲,进行AI绘图创作没疑是新奇的体验,只需输入prompt重要词,就能生成自己想要的照片,尤其在AICG等行业,利用AI绘图工具创作二次元风格的插图,乃至漫画都已作为不少人的常态。那样咱们就按照模型原理+过程+效果对已有程序 昆仑万维AIG进行科研评测。
模型model
1.基于 VQ-VAE
DeepMind(和PixelCNN同一作)于2017年提出的一种基于离散隐变量(Discrete Latent variables)的生成模型:VQ-VAE。VQ-VAE相比VAE有两个要紧的区别:首要VQ-VAE采用离散隐变量,而不是像VAE那样采用连续的隐变量;而后VQ-VAE必须单独训练一个基于自回归的模型如PixelCNN来学习先验(prior),而不是像VAE那样采用一个固定的先验(标准正态分布)。另外,VQ-VAE还是一个强大的没监督表征学习模型,它学习的离散编码拥有很强的表征能力,近期比较火的文本转图像模型DALL-E亦是基于VQ-VAE的,况且近期的有些基于masked image modeling的没监督学习方法如BEiT亦用VQ-VAE得到的离散编码做为训练目的。
2.基于 Diffusion Model
区别于 VQ-VAE,VQ-GAN,扩散模型是当今文本生成图像行业的核心办法,当前最知名亦最受欢迎的文本生成图像模型 Stable Diffusion,Disco-Diffusion,Mid-Journey,DALL-E2 等等,
上文说到的 VQ-VAE 以及 VQ-GAN,都是先经过编码器将图像映射到中间潜变量,而后解码器在经过中间潜变量进行还原。实质上,扩散模型做的事情本质上是同样的,区别的是,扩散模型完全运用了全新的思路来实现这个目的123。
在扩散模型中,重点有两个过程构成,前向扩散过程,反向去噪过程,前向扩散过程重点是将一张照片变成随机噪音,而逆向去噪过程则是将一张随机噪音的照片还原为一张完整的照片。
3.第1个开源中文 Disco Diffusion 模型
2022 年 7 月,IDEA CCNL开源了第1个中文 CLIP 模型,日前已然有 4 个版本。
Taiyi-CLIP-Roberta-102M-Chinese:IDEA-CCNL/Taiyi-CLIP-Roberta-102M-Chinese · Hugging Face
Taiyi-CLIP-Roberta-large-326M-Chinese:IDEA-CCNL/Taiyi-CLIP-Roberta-large-326M-Chinese · Hugging Face
Taiyi-CLIP-RoBERTa-102M-ViT-L-Chinese:IDEA-CCNL/Taiyi-CLIP-RoBERTa-102M-ViT-L-Chinese ·
|