一文详解AI作画算法原理+性能评测

b1gc8v · 发表于 2024-7-3 17:46:16

前言

“AI作画依赖于多模态预训练，实质上各类作画AI模型早已存在，之因此近期作品质量提高非常多，可能是由于以前预训练无受到注意，还达不到媲美人类的程度，但随着数据量、训练量的增加，最后达到了此刻呈现的效果。”远在AI作画还无爆火之前，深度学习就已然能够按照照片库训练学习生成有些真假难辨的照片了，那时候仅仅依赖的是GAN神经对抗网络算法实现，此刻随着模型的迭代优化，已然有了越来越多的模型能够实现有些较为繁杂的照片生成。

AI作画用以学习的“教材”常常都是现成的人类绘画作品，而随着数量庞大的训练数据的增多，AI对人类作品意境的“临摹”技巧亦越来越高明。针对大都数普通人来讲，进行AI绘图创作没疑是新奇的体验，只需输入prompt重要词，就能生成自己想要的照片，尤其在AICG等行业，利用AI绘图工具创作二次元风格的插图，乃至漫画都已作为不少人的常态。那样咱们就按照模型原理+过程+效果对已有程序昆仑万维AIG进行科研评测。

模型model

1.基于 VQ-VAE

DeepMind（和PixelCNN同一作）于2017年提出的一种基于离散隐变量（Discrete Latent variables）的生成模型：VQ-VAE。VQ-VAE相比VAE有两个要紧的区别：首要VQ-VAE采用离散隐变量，而不是像VAE那样采用连续的隐变量；而后VQ-VAE必须单独训练一个基于自回归的模型如PixelCNN来学习先验（prior），而不是像VAE那样采用一个固定的先验（标准正态分布）。另外，VQ-VAE还是一个强大的没监督表征学习模型，它学习的离散编码拥有很强的表征能力，近期比较火的文本转图像模型DALL-E亦是基于VQ-VAE的，况且近期的有些基于masked image modeling的没监督学习方法如BEiT亦用VQ-VAE得到的离散编码做为训练目的。

2.基于 Diffusion Model

区别于 VQ-VAE，VQ-GAN，扩散模型是当今文本生成图像行业的核心办法，当前最知名亦最受欢迎的文本生成图像模型 Stable Diffusion，Disco-Diffusion，Mid-Journey，DALL-E2 等等，

上文说到的 VQ-VAE 以及 VQ-GAN，都是先经过编码器将图像映射到中间潜变量，而后解码器在经过中间潜变量进行还原。实质上，扩散模型做的事情本质上是同样的，区别的是，扩散模型完全运用了全新的思路来实现这个目的123。

在扩散模型中，重点有两个过程构成，前向扩散过程，反向去噪过程，前向扩散过程重点是将一张照片变成随机噪音，而逆向去噪过程则是将一张随机噪音的照片还原为一张完整的照片。

3.第1个开源中文 Disco Diffusion 模型

2022 年 7 月，IDEA CCNL开源了第1个中文 CLIP 模型，日前已然有 4 个版本。

Taiyi-CLIP-Roberta-102M-Chinese：IDEA-CCNL/Taiyi-CLIP-Roberta-102M-Chinese · Hugging Face

Taiyi-CLIP-Roberta-large-326M-Chinese：IDEA-CCNL/Taiyi-CLIP-Roberta-large-326M-Chinese · Hugging Face

Taiyi-CLIP-RoBERTa-102M-ViT-L-Chinese：IDEA-CCNL/Taiyi-CLIP-RoBERTa-102M-ViT-L-Chinese ·

大哥 · 发表于 2024-9-10 03:29:18

软文发布论坛开幕式圆满成功。 http://www.fok120.com

情迷布拉格 · 发表于 2024-9-25 05:43:04

交流如星光璀璨，点亮思想夜空。

1fy07h · 发表于 2024-10-2 00:31:03

你的努力一定会被看见，相信自己，加油。

4zhvml8 · 发表于 2024-10-3 07:30:35

论坛是一个舞台，让我们在这里尽情的释放自己。

j8typz · 发表于 2024-10-4 13:56:24

顶楼主，说得太好了！

nqkk58 · 发表于 2024-10-8 09:33:16

回顾过去一年，是艰难的一年；展望未来，是辉煌的一年。

4lqedz · 发表于 2024-10-25 06:01:47

你的见解独到，让我受益匪浅，非常感谢。

wrjc1hod · 发表于 4 天前

期待更新、坐等、迫不及待等。

m5k1umn · 发表于前天 03:23

哈哈、笑死我了、太搞笑了吧等。

		自动登录	找回密码
密码			立即注册