外链论坛

 找回密码
 立即注册
搜索
查看: 1|回复: 0

一文详解AI作画算法原理+性能评测

[复制链接]

714

主题

0

回帖

9607万

积分

论坛元老

Rank: 8Rank: 8

积分
96074961
发表于 3 天前 | 显示全部楼层 |阅读模式

前言

“AI作画依赖于多模态预训练,实质上各类作画AI模型早已存在,之因此近期作品质量提高非常多,可能是由于以前预训练受到注意,还达不到媲美人类的程度,但随着数据量、训练量的增加最后达到了此刻呈现的效果。”远在AI作画还爆火之前,深度学习就已然能够按照照片库训练学习生成有些真假难辨的照片了,那时候仅仅依赖的是GAN神经对抗网络算法实现,此刻随着模型的迭代优化,已然有了越来越多的模型能够实现有些较为繁杂照片生成。

AI作画用以学习的“教材”常常都是现成的人类绘画作品,而随着数量庞大的训练数据的增多,AI对人类作品意境的“临摹”技巧越来越高明。针对都数普通人来讲,进行AI绘图创作疑是新奇的体验,只需输入prompt重要词,就能生成自己想要的照片,尤其在AICG等行业,利用AI绘图器具创作二次元风格的插图,乃至漫画都已作为不少人的常态。那样咱们按照模型原理+过程+效果对已有程序 昆仑万维AIG进行科研评测。

模型model

1.基于 VQ-VAE

DeepMind(和PixelCNN同一作)于2017年提出的一种基于离散隐变量(Discrete Latent variables)的生成模型:VQ-VAE。VQ-VAE相比VAE有两个要紧的区别:首要VQ-VAE采用离散隐变量,而不是像VAE那样采用连续的隐变量;而后VQ-VAE必须单独训练一个基于自回归的模型如PixelCNN来学习先验(prior),而不是像VAE那样采用一个固定的先验(标准正态分布)。另外,VQ-VAE还是一个强大的监督表征学习模型,它学习的离散编码拥有很强的表征能力,近期比较火的文本转图像模型DALL-E是基于VQ-VAE的,况且近期有些基于masked image modeling的监督学习方法如BEiT用VQ-VAE得到的离散编码做为训练目的

2.基于 Diffusion Model

区别于 VQ-VAE,VQ-GAN,扩散模型是当今文本生成图像行业的核心办法,当前最知名最受欢迎的文本生成图像模型 Stable Diffusion,Disco-Diffusion,Mid-Journey,DALL-E2 等等,

上文说到的 VQ-VAE 以及 VQ-GAN,都是先经过编码器将图像映射到中间潜变量,而后解码器在经过中间潜变量进行还原。实质上,扩散模型做的事情本质上是同样的,区别的是,扩散模型完全运用了全新的思路来实现这个目的123。

在扩散模型中,重点有两个过程构成,前向扩散过程,反向去噪过程,前向扩散过程重点是将一张照片变成随机噪音,而逆向去噪过程则是将一张随机噪音的照片还原为一张完整的照片

3.第1个开源中文 Disco Diffusion 模型

2022 年 7 月,IDEA CCNL开源了第1个中文 CLIP 模型,日前已然有 4 个版本。

Taiyi-CLIP-Roberta-102M-Chinese:IDEA-CCNL/Taiyi-CLIP-Roberta-102M-Chinese · Hugging Face

Taiyi-CLIP-Roberta-large-326M-Chinese:IDEA-CCNL/Taiyi-CLIP-Roberta-large-326M-Chinese · Hugging Face

Taiyi-CLIP-RoBERTa-102M-ViT-L-Chinese:IDEA-CCNL/Taiyi-CLIP-RoBERTa-102M-ViT-L-Chinese ·

回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|外链论坛 |网站地图

GMT+8, 2024-7-6 18:48 , Processed in 0.107704 second(s), 20 queries .

Powered by Discuz! X3.4

Copyright © 2001-2023, Tencent Cloud.