AI绘画,为么听不懂人话?
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><strong style="color: blue;"><span style="color: black;">本文授权<span style="color: black;">转载</span>公众号:深燃</span></strong></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><strong style="color: blue;"><span style="color: black;">作者 | 唐亚华</span></strong></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">2023年的AI绘画<span style="color: black;">行业</span><span style="color: black;">是由于</span>两家<span style="color: black;">机构</span>的动态引爆的。</span></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">3月17日百度发布文心一言,网友们疯狂发散想象力,令人捧腹的<span style="color: black;">照片</span>接连被生成。关于文心一言文字生成<span style="color: black;">照片</span>的讨论热情空前高涨。</span></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">紧接着,3月18日,美国Midjourney<span style="color: black;">机构</span>宣布第五版AI图像生成服务,即MidjourneyV5。本来就处在行业领先水平的Midjourney,这一次版本更新真正让AI绘画圈沸腾了。<span style="color: black;">由于</span>MidjourneyV5生成的<span style="color: black;">照片</span>堪<span style="color: black;">叫作</span>惊艳。</span></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">两个系统几乎<span style="color: black;">同期</span>发布,免不了被对比。深燃体验后<span style="color: black;">发掘</span>,文心一言的<span style="color: black;">照片</span>生成功能,能够识别简单元素、文本<span style="color: black;">无</span>歧义的人或事物,但<span style="color: black;">触及</span>到成语、专有名词,以及字面意思和<span style="color: black;">实质</span><span style="color: black;">道理</span><span style="color: black;">区别</span>的表述,它就会跑偏。Midjourney在这方面几乎没什么问题。<span style="color: black;">另一</span>,Midjourney接收到的提示词(prompt)越<span style="color: black;">仔细</span><span style="color: black;">精细</span>,生成的<span style="color: black;">照片</span>越符合<span style="color: black;">需求</span>,但文心一言<span style="color: black;">需要</span>越多,系统越容易出错。</span></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">调侃<span style="color: black;">背面</span>,AI生成<span style="color: black;">照片</span><span style="color: black;">并不</span>是一件简单的事情,需要在数据、算法、算力等方面综合发力,既对技术和硬件有高<span style="color: black;">需求</span>,还对数据采集和标注等苦活累活高度依赖。文心一言的AI绘图功能与Midjourney在以上三方面都有不小的差距。</span></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">百度方面公开<span style="color: black;">暗示</span>,“<span style="color: black;">大众</span><span style="color: black;">亦</span>会从接下来文生图能力的快速调优迭代,看到百度的自研实力。文心一言正在<span style="color: black;">大众</span>的<span style="color: black;">运用</span>过程中<span style="color: black;">持续</span>学习和成长,请<span style="color: black;">大众</span>给自研技术和<span style="color: black;">制品</span>一点<span style="color: black;">自信心</span>和时间。”从业者预估,文心一言全力追赶,用一年<span style="color: black;">上下</span>的时间有<span style="color: black;">期盼</span>达到国外80%以上的水平。</span></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">AI绘图这个战场,枪声<span style="color: black;">已然</span>打响,追逐赛、排位赛都将一轮轮上演。</span></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;"><strong style="color: blue;"><span style="color: black;"><strong style="color: blue;">搞不定成语和专有名词,</strong><strong style="color: blue;">提示词越多AI越废</strong></span></strong></span></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">文心一言<span style="color: black;">近期</span>接受的最大考验,莫过于画一幅中餐菜名图。在网友们的热情创作下,驴肉火烧、红烧狮子头等菜品出来的画做一个比一个离谱,车水马龙的街道、虎头虎脑的大胖小子,<span style="color: black;">一样</span>惊掉了<span style="color: black;">大众</span>的下巴。</span></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><img src="https://mmbiz.qpic.cn/sz_mmbiz_jpg/oZsJseC8PzU6Gia0PvUuqehSN1LzkUN7Drz8icibOaiaiccUm6TSTyN4VRYhibLucRe0IicuVkkiaXje7ia7EIhgicxPZ7Mw/640?wx_fmt=jpeg&tp=webp&wxfrom=5&wx_lazy=1&wx_co=1" style="width: 50%; margin-bottom: 20px;"><span style="color: black;">网友体验文心一言时截图,<span style="color: black;">日前</span>已更新</span></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">网民<span style="color: black;">热情</span>找bug,百度程序员应该<span style="color: black;">亦</span>在<span style="color: black;">背面</span>发力,深燃测试<span style="color: black;">发掘</span>,以上内容均已更新为<span style="color: black;">能够</span>正确<span style="color: black;">表示</span>对应<span style="color: black;">照片</span>。<span style="color: black;">不外</span>,像娃娃菜、脸盆、虎皮鸡蛋、三杯鸡,还有胸有成竹的男人、虎背熊腰的男人,文心一言仍然给出的是字面直译后的<span style="color: black;">照片</span>,画风一言难尽。</span></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><img src="https://mmbiz.qpic.cn/sz_mmbiz_jpg/oZsJseC8PzU6Gia0PvUuqehSN1LzkUN7DGtEuPQuV6Z3oPfRGG1ECCa4Y0Diam9OHb6DYfg5jhuU0TVoZrusuS5A/640?wx_fmt=jpeg&tp=webp&wxfrom=5&wx_lazy=1&wx_co=1" style="width: 50%; margin-bottom: 20px;"><span style="color: black;">深燃截图</span></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">即便输入提示词时强调“画一个卫浴<span style="color: black;">器具</span>水龙头”,文心一言画出的仍然是水中龙的头像;当深燃输入“画一个风姿绰约的人”时,系统画出的是一位男士,显然AI没能理解风姿绰约形容的是<span style="color: black;">女性</span>。</span></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><img src="https://mmbiz.qpic.cn/sz_mmbiz_jpg/oZsJseC8PzU6Gia0PvUuqehSN1LzkUN7DQZykRr2Scydr4ku9ic6LJcBoCLadAcn0Gz0xhL2bLxtq3hMGibricUQmg/640?wx_fmt=jpeg&tp=webp&wxfrom=5&wx_lazy=1&wx_co=1" style="width: 50%; margin-bottom: 20px;"><span style="color: black;">深燃截图</span></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">程序员改bug的速度比不上网友找漏洞的速度。<span style="color: black;">火速</span>又有人<span style="color: black;">发掘</span>,文心一言画图时有把提示词中译英之后<span style="color: black;">按照</span>英文意思生成<span style="color: black;">照片</span>的可能性,据此有人推测百度可能用国外的作图<span style="color: black;">制品</span>接口,套了一个自己的壳。</span></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">深燃<span style="color: black;">亦</span>验证了一下某用户的测试。<span style="color: black;">例如</span>输入“水瓜”,画出的是西瓜,这<span style="color: black;">亦</span>对应西瓜的英文单词Watermelon;<span style="color: black;">需求</span>画树叶、封面、苹果,画出的图是树叶覆盖苹果,显然系统是把封面翻译<span style="color: black;">成为了</span>Cover,这个单词<span style="color: black;">亦</span>有覆盖的意思;画“土耳其张开翅膀”,<span style="color: black;">显现</span>的画面是张开翅膀的火鸡,<span style="color: black;">咱们</span>都<span style="color: black;">晓得</span>,Turkey是土耳其,<span style="color: black;">亦</span>是火鸡。</span></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><img src="https://mmbiz.qpic.cn/sz_mmbiz_jpg/oZsJseC8PzU6Gia0PvUuqehSN1LzkUN7DE64JEnmhddwezWWdtzibkf5EJTBazdyD5Q6EUAaR96bfa2oAVjBoNHQ/640?wx_fmt=jpeg&tp=webp&wxfrom=5&wx_lazy=1&wx_co=1" style="width: 50%; margin-bottom: 20px;"><span style="color: black;">深燃截图</span></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">对此,百度对外<span style="color: black;">回复</span><span style="color: black;">叫作</span>,文心一言完全是百度自研的大语言模型,文生图能力来自文心跨模态大模型ERNIE-ViLG。“在大模型训练中,<span style="color: black;">咱们</span><span style="color: black;">运用</span>的是<span style="color: black;">全世界</span>互联网公开数据,符合行业惯例。”</span></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">亚洲视觉科技<span style="color: black;">开发</span>总监陈经<span style="color: black;">亦</span>在接受<span style="color: black;">媒介</span>采访时<span style="color: black;">暗示</span>,“百度的画图AI采用了英文标注的开源<span style="color: black;">照片</span>素材进行训练,<span style="color: black;">因此呢</span>需要中翻英来当prompt(提示词)。<span style="color: black;">日前</span>,<span style="color: black;">全世界</span>AI<span style="color: black;">开发</span>有开源的传统,<span style="color: black;">尤其</span>是训练数据库,<span style="color: black;">否则</span>收集<span style="color: black;">照片</span>效率太低了。”</span></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">深燃体验后还<span style="color: black;">发掘</span>,<strong style="color: blue;">文心一言在单个<span style="color: black;">需要</span>描述时表现尚可</strong>,<span style="color: black;">例如</span>画一幅愤怒的小孩、开心的农民、一只很饿的流量猫,<strong style="color: blue;">但一幅图一旦提出多个作图<span style="color: black;">需要</span>,AI就有点懵。</strong></span></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;"><span style="color: black;">例如</span>请文心一言“生成一幅画,在一个下雨天,小红在植树,小王在看书”,系统生成的<span style="color: black;">照片</span>里<span style="color: black;">仅有</span>背靠树看书的一个人;还有,“画一幅画,里面有大笑的<span style="color: black;">青年</span>人、哭泣的小孩、愁容满面的老人”,系统把哭泣和愁容满面等表情集合在了一张脸上,画出了一个小孩和老人的结合体。如下图所示,还有<span style="color: black;">有些</span>类似的<span style="color: black;">状况</span>,系统<span style="color: black;">一样</span>没能准确完成给出的指令。</span></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><img src="https://mmbiz.qpic.cn/sz_mmbiz_jpg/oZsJseC8PzU6Gia0PvUuqehSN1LzkUN7Df5MIINibWC3YibhqenPOMTI3icjMyB8ekm6cibdvjVIgObeFCCoUUamL0Q/640?wx_fmt=jpeg&tp=webp&wxfrom=5&wx_lazy=1&wx_co=1" style="width: 50%; margin-bottom: 20px;"><span style="color: black;">深燃截图</span></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">深燃又把<span style="color: black;">以上</span>提示词输入到MidjourneyV4测试了一下,如下图所示,即使是V4版本,表现<span style="color: black;">亦</span>远高出文心一言。MidjourneyV4基本能理解句子中的意思,做出的图几乎<span style="color: black;">能够</span><span style="color: black;">包括</span>所有的要素。</span></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><img src="https://mmbiz.qpic.cn/sz_mmbiz_jpg/oZsJseC8PzU6Gia0PvUuqehSN1LzkUN7DufvOUOmjwJ57ecMELPnVvmh8LzvrBOt0gXb1paP56XUes9hWazhw7g/640?wx_fmt=jpeg&tp=webp&wxfrom=5&wx_lazy=1&wx_co=1" style="width: 50%; margin-bottom: 20px;"><span style="color: black;">深燃体验MidjourneyV4后截图</span></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">深燃还测试了AI绘画<span style="color: black;">行业</span><span style="color: black;">始终</span><span style="color: black;">败兴</span>难以<span style="color: black;">解决</span>的画手指难的问题。在这方面,文心一言<span style="color: black;">亦</span>没能经受住考验。<span style="color: black;">例如</span>“画一位30岁的女士,双手竖起大拇指”,文心一言生成的<span style="color: black;">照片</span>大拇指是竖起来了,<span style="color: black;">然则</span>其中一只手有7根手指;输入“画一个人,两只手做点赞姿势”时,系统<span style="color: black;">亦</span><span style="color: black;">没法</span>实现这一手部姿势。</span></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><img src="https://mmbiz.qpic.cn/sz_mmbiz_jpg/oZsJseC8PzU6Gia0PvUuqehSN1LzkUN7DExNVLFgxia5ugb2M0csGm8OV7rvqSIWXZBuHPdfyFcuGwTLdQT989Hw/640?wx_fmt=jpeg&tp=webp&wxfrom=5&wx_lazy=1&wx_co=1" style="width: 50%; margin-bottom: 20px;"><span style="color: black;">深燃截图</span></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">Midjourney此前的版本<span style="color: black;">一样</span>存在手指误差的问题,最新发布的V5版本,<span style="color: black;">已然</span>能够正确画出五根手指,虽然有人依旧指出其绘出的大拇指有点长,但相比以往<span style="color: black;">已然</span>有不小的进步。有从业者<span style="color: black;">评估</span>:“Midjourney的此前版本就像是近视<span style="color: black;">病人</span><span style="color: black;">无</span>戴上眼镜,而MidjourneyV5<span style="color: black;">便是</span>戴上眼镜后的清晰效果,4K细节拉满”。</span></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;"><span style="color: black;">例如</span>MidjourneyV5画出的《三体》角色图,效果被网友<span style="color: black;">评估</span>为几乎要“成精了”。而文心一言画《三体》角色时,系统全然<span style="color: black;">不顾及</span>描述里<span style="color: black;">说到</span>的留着黑色短发、戴着眼镜的<span style="color: black;">需求</span>,画出了一个扎着发髻,不戴眼镜,古风穿着的男士。</span></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><img src="https://mmbiz.qpic.cn/sz_mmbiz_jpg/oZsJseC8PzU6Gia0PvUuqehSN1LzkUN7DJBApgEWqfpxPoRzGPTDjiaH3VfzpmfQyCbNclVOZMlq33DibXyNftIyw/640?wx_fmt=jpeg&tp=webp&wxfrom=5&wx_lazy=1&wx_co=1" style="width: 50%; margin-bottom: 20px;"><span style="color: black;">MidjourneyV5生成的三体角色图 <span style="color: black;">照片</span><span style="color: black;">源自</span> / Ai总编推书</span></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;"><span style="color: black;">近期</span>MidjourneyV5画的一对情侣的<span style="color: black;">照片</span>掀起了业内一阵惊呼。作图的提示词是:“一对<span style="color: black;">青年</span>的情侣穿着牛仔裤和夹克坐在楼顶上”,背景分别是2000年和2023年的北京。最后出图的效果大大超出<span style="color: black;">非常多</span>人的想象。深燃把类似表述输入文心一言时,系统直接给出了毫不<span style="color: black;">关联</span>的<span style="color: black;">照片</span>。</span></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><img src="https://mmbiz.qpic.cn/sz_mmbiz_jpg/oZsJseC8PzU6Gia0PvUuqehSN1LzkUN7DMMiaHxoYZbHI3o2aXNglu2bgHvIf6vJYfkJia4su9wq2ZhMx7NpPplWQ/640?wx_fmt=jpeg&tp=webp&wxfrom=5&wx_lazy=1&wx_co=1" style="width: 50%; margin-bottom: 20px;"><span style="color: black;">左图为MidjourneyV5作图 <span style="color: black;">照片</span><span style="color: black;">源自</span> / 量子位 </span><span style="color: black;">右为深燃对比体验文心一言截图</span></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">对比来看,<strong style="color: blue;">Midjourney作图<span style="color: black;">已然</span>在细节上几近完美了,文心一言还处在难以准确分辨字面意思和<span style="color: black;">实质</span>意思的初级<span style="color: black;">周期</span>。Midjourney提示词描述越<span style="color: black;">仔细</span>,生成的<span style="color: black;">照片</span>越<span style="color: black;">精细</span>,文心一言能理解的文字长度有限,<span style="color: black;">太多</span>描述会让它直接报错<span style="color: black;">或</span>胡乱生成<span style="color: black;">照片</span>。</strong></span></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;"><strong style="color: blue;"><span style="color: black;">AI文生图到底有多难?</span></strong></span></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">按<span style="color: black;">显现</span>时间来算,AI绘画算是AI<span style="color: black;">行业</span>的新事物。</span></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">公开<span style="color: black;">报告</span><span style="color: black;">表示</span>,2021年1月,OpenAI发布了两个连接文本与图像的神经网络:DALL・E和 CLIP。DALL・E<span style="color: black;">能够</span>基于文本直接生成图像,CLIP能够完成图像与文本类别的匹配。DALL・E是基于GPT-3的120亿参数版本实现的。</span></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">随后在2022年,DALL·E 2、Stable Diffusion等文生图底层大模型发布,带动了应用层的发展,<span style="color: black;">显现</span>了一大批爆款<span style="color: black;">制品</span>,<span style="color: black;">包含</span>Midjourney。2022年<span style="color: black;">亦</span>被认为是“<strong style="color: blue;">AI绘画元年</strong>”。</span></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">StabilityAI的Stable Diffusion是一个开源模型,<span style="color: black;">非常多</span><span style="color: black;">研发</span>者基于这个模型<span style="color: black;">研发</span>训练出了<span style="color: black;">更加多</span><span style="color: black;">区别</span>的生成模型。国内<span style="color: black;">非常多</span>科技<span style="color: black;">机构</span>的AI绘画项目<span style="color: black;">亦</span><span style="color: black;">是由于</span>Stable Diffusion<span style="color: black;">供给</span>技术支撑。Midjourney是付费订阅的,公开信息<span style="color: black;">表示</span>,Midjourney每年的收入可能达到1亿美元<span style="color: black;">上下</span>。<span style="color: black;">另一</span>,有AI绘图业务的还有Google、Meta等<span style="color: black;">机构</span>。百度的文心一言和此前就发布的文心一格算是国内最早的具备AI绘画功能的大模型。</span></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">文心一言的发布和升级了的MidjourneyV5<span style="color: black;">更加是</span>将AI绘画行业推向高潮。这一次迭代是Midjourney自去年推出<span style="color: black;">败兴</span>最大的更新,Midjourney<span style="color: black;">亦</span><span style="color: black;">成为了</span><span style="color: black;">日前</span>市面上最先进的AI图像生成器之一。</span></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">热度还在继续。<span style="color: black;">近期</span>,行业内又有一系列企业跟进推出AI绘画功能。3月21日,微软宣布,必应搜索引擎接入了OpenAI的DALL·E模型,将AI图像生成功能引入新版必应和Edge浏览器,免费开放。就在同一天,Adobe发布AI模型Firefly,支持用文字生成图像、艺术字体。</span></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;"><span style="color: black;">能够</span>说,2023年,AI绘画行业迎来了真正的大爆发。</span></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">调侃文心一言之余,客观<span style="color: black;">来讲</span>,AI生成<span style="color: black;">照片</span>本身就不是一件容易实现的事情。<strong style="color: blue;">系统的语义理解能力、充分的数据标注、细节处理、用户的提示词<span style="color: black;">选取</span>,都在AI作图中起着重要<span style="color: black;">功效</span>。</strong></span></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><img src="https://mmbiz.qpic.cn/sz_mmbiz_jpg/oZsJseC8PzX95DngbMiaMzTWq6RUibf6E0yRBDgVWRz8XbCOU24gF0L8BFfhSRBNWcQ7mAGLP7SjGg6WPyCQ5SDA/640?wx_fmt=jpeg&tp=webp&wxfrom=5&wx_lazy=1&wx_co=1" style="width: 50%; margin-bottom: 20px;"></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">AI<span style="color: black;">行业</span>资深从业者郭威告诉深燃,之前AI生成<span style="color: black;">照片</span>只需要确认风格、物品等,用GAN(生成式对抗网络)生成<span style="color: black;">照片</span>。文心一言和Midjourney这一代模型的做法是先理解自然语义,再生成<span style="color: black;">照片</span>。把自然语言输入到系统里,AI对语义的理解和人类的理解不可避免会有偏差。</span></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">“<strong style="color: blue;">更大的难点,还是标注数据。语义比词组的空间更大,需要<span style="color: black;">海量</span>数据,<span style="color: black;">况且</span>标注难度和成本更高</strong>。”郭威说。</span></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;"><span style="color: black;">非常多</span>人以为,系统生成<span style="color: black;">照片</span>有误时,后台改一个标注就能<span style="color: black;">纠正</span>系统了。<span style="color: black;">例如</span>生成“驴肉火烧”出了错,只是告诉系统这是一道菜,而不是一头驴就行了,<strong style="color: blue;">但这种方式只是一对一修改而<span style="color: black;">无</span>一层层训练,修正了单个错误,并不会<span style="color: black;">加强</span>系统的理解能力,治标不治本。</strong></span></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;"><span style="color: black;">亦</span><span style="color: black;">便是</span>说,即便是有<span style="color: black;">海量</span>开源的<span style="color: black;">全世界</span>数据库<span style="color: black;">照片</span><span style="color: black;">能够</span>用,国内的系统在中文提示词与英文素材对应方面还需要做<span style="color: black;">海量</span>工作。</span></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;"><span style="color: black;">另一</span>,<strong style="color: blue;">AI生成的<span style="color: black;">照片</span>极难完善眼睛、手、脚等部位细节</strong>。<span style="color: black;">始终</span><span style="color: black;">败兴</span>,行业内就有“AI不会画手”的说法,<span style="color: black;">非常多</span>人判断是不是AI作图,就看<span style="color: black;">照片</span>中的手画得怎么样。“<span style="color: black;">由于</span>深度学习神经网络<span style="color: black;">无</span>足够的数据学习手指与手指之间的架构<span style="color: black;">规律</span>,加上手指关节间特征属于细小颗粒度,生成的手容易出错。”资深AloT算法从业者连路诗说。<span style="color: black;">日前</span>除了MidjourneyV5,其他AI作图<span style="color: black;">制品</span>细节方面的问题还<span style="color: black;">无</span>完全<span style="color: black;">处理</span>。</span></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">到了<span style="color: black;">最后</span>生成<span style="color: black;">照片</span>环节,<strong style="color: blue;">用户<span style="color: black;">选取</span>用什么提示词(prompt)和风格(style)来生成想要的<span style="color: black;">照片</span><span style="color: black;">亦</span>很重要,新用户<span style="color: black;">常常</span>不得<span style="color: black;">办法</span>,很难找到<span style="color: black;">精细</span>的提示词或足够契合的风格。</strong></span></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;"><span style="color: black;">另外</span>,<span style="color: black;">日前</span>的AI绘图<span style="color: black;">制品</span>还存在<span style="color: black;">有些</span><span style="color: black;">一起</span>的挑战。</span></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">连路诗<span style="color: black;">说到</span>,<strong style="color: blue;">一方面是时效性<span style="color: black;">不足</span></strong>,<span style="color: black;">日前</span>AI绘画知识库的更新、数据的引入不完全是实时的,<span style="color: black;">倘若</span>加入实时性数据,需要巨大的成本;另一方面,<span style="color: black;">日前</span>各系统对数据过滤的严谨程度不<span style="color: black;">同样</span>,有的设置了相对严格的禁用词,有的<span style="color: black;">无</span>,<strong style="color: blue;">法律或道德边界不清。</strong></span></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;"><strong style="color: blue;">还有一个是AI绘图带来的版权问题</strong>。<span style="color: black;">日前</span>行业内大部分企业不对外宣布自己用来训练AI的<span style="color: black;">照片</span><span style="color: black;">源自</span>,<span style="color: black;">这般</span>的AI生成<span style="color: black;">照片</span>商用时,可能存在未知的法律<span style="color: black;">危害</span>。且<span style="color: black;">日前</span>AI作的图<span style="color: black;">亦</span>不受版权<span style="color: black;">守护</span>。</span></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;"><strong style="color: blue;"><span style="color: black;">多久<span style="color: black;">才可</span>追上?</span></strong></span></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">行业共性问题之外,<span style="color: black;">按照</span>多位从业者的说法,<strong style="color: blue;">在数据、算法、算力三方面,文心一言都跟Midjourney差距不小。</strong></span></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">数据方面,文心一言数据的数量和质量都需要<span style="color: black;">提高</span>。</span></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">连路诗解释,NLP(即natural language process,自然语言处理)分成几个过程,<span style="color: black;">第1</span>步是自然语言理解,<span style="color: black;">例如</span>,实体识别,系统会<span style="color: black;">按照</span>专属名词生成自己的理解;接下来是自然语言生成,<span style="color: black;">包含</span>生成文字和<span style="color: black;">照片</span>。大<span style="color: black;">都数</span>问题出在对自然语言的理解不准确,<span style="color: black;">此时</span>候就需要人工对句子进行数据处理、参数<span style="color: black;">调节</span>等。</span></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">“中文本身难在字与字之间<span style="color: black;">无</span>间距,人工分词一方面要隔开字词的间距,<span style="color: black;">同期</span>要界定动词、名词等词性,还要标注主语、谓语、宾语,以及<span style="color: black;">是不是</span>为常用词等”,连路诗<span style="color: black;">弥补</span>,<strong style="color: blue;">“分词需要庞大的人力投入,<span style="color: black;">通常</span>一个小组<span style="color: black;">最少</span>需要5000人。AI<span style="color: black;">机构</span><span style="color: black;">一般</span>把这一<span style="color: black;">需要</span>外包给人力成本较低的省份的<span style="color: black;">机构</span>,<span style="color: black;">另一</span>,AI生成<span style="color: black;">照片</span>的结果<span style="color: black;">亦</span>需要人类的反馈<span style="color: black;">加强</span>学习。”</strong></span></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;"><span style="color: black;">基本</span>标注工作做好之后,系统会将这些词转成向量进行计算,向量越不准确,生成的结果越模糊。“<span style="color: black;">日前</span>百度可能做了一部分工作,但还没达到能准确理解大部分语义的程度,<span style="color: black;">能够</span>判定为不及格。”连路诗说。</span></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><img src="https://mmbiz.qpic.cn/sz_mmbiz_jpg/oZsJseC8PzX95DngbMiaMzTWq6RUibf6E0GvblKJic8YWtnJJz1Xj0cZpORUNg4pkeiaLZCicApAGOYef18Ya2iahC0g/640?wx_fmt=jpeg&tp=webp&wxfrom=5&wx_lazy=1&wx_co=1" style="width: 50%; margin-bottom: 20px;"></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">陈经<span style="color: black;">亦</span><span style="color: black;">说到</span>,大模型需要的数据库里的“<span style="color: black;">照片</span>是要标注的,这更加大了收集整理<span style="color: black;">照片</span>的难度。当前<span style="color: black;">亦</span>有中文标准的训练数据,<span style="color: black;">然则</span>少<span style="color: black;">非常多</span>。<span style="color: black;">因为</span>发布时间<span style="color: black;">匆忙</span>,百度<span style="color: black;">针对</span>画图AI的中文输入词还没完全搞定,后续应该会<span style="color: black;">按照</span>用户反馈,把中文的提示词与英文的训练素材更好的对应上。”</span></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">第二大差距是算法。</span></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">算法方面,各<span style="color: black;">机构</span>在底层大模型的<span style="color: black;">运用</span>层数上有差别。连路诗认为,以文心一言<span style="color: black;">日前</span>在算法方面的表现来看,有可能与Midjourney等模型的深度神经网络的层数有十倍<span style="color: black;">上下</span>的差距。</span></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">“AI生成<span style="color: black;">照片</span>不准确还有一种可能性,<strong style="color: blue;">该系统的底层架构不是深度神经网络,<span style="color: black;">亦</span><span style="color: black;">无</span><span style="color: black;">按照</span>底层Vector(向量)一点点像素级生成<span style="color: black;">照片</span>,而是系统先用搜索引擎匹配知识图谱,再生成图像,<span style="color: black;">亦</span><span style="color: black;">能够</span>理解为拼凑贴图</strong>。神经网络在对<span style="color: black;">照片</span>进行计算的时候,本来就有<span style="color: black;">照片</span>的旋转、切割、拼凑,<span style="color: black;">这般</span>的系统生成的<span style="color: black;">照片</span>有可能是颗粒度很粗的片状<span style="color: black;">照片</span>拼凑出来的。”连路诗做了<span style="color: black;">这般</span>的推测。<span style="color: black;">不外</span>,文心一言属于哪种技术还不清楚。</span></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">第三,算力上的差距。OpenAI号<span style="color: black;">叫作</span>自己的模型是千亿规模参数,<span style="color: black;">亦</span><span style="color: black;">便是</span>每次计算的时候<span style="color: black;">持有</span>1000张以上显卡分布式计算的算力。百度与国外几家<span style="color: black;">重点</span>科技企业的算力差距<span style="color: black;">一样</span>不小。</span></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">当然,百度和Midjourney<span style="color: black;">日前</span>的发展程度不一,与其发展<span style="color: black;">周期</span><span style="color: black;">亦</span><span style="color: black;">相关</span>系。</span></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">Midjourney于2022年3月首次面世,<span style="color: black;">日前</span><span style="color: black;">已然</span>迭代到了第五代。百度文心一言所具备的AI作图功能,即文心一格,虽然在2022年8月就推出了,但<span style="color: black;">日前</span><span style="color: black;">无</span>看到<span style="color: black;">关联</span>的升级迭代信息。<strong style="color: blue;">而在AI<span style="color: black;">行业</span>,变化几乎是以天为单位的。</strong></span></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">国内AI绘图多久能赶上国际水平?郭威对此比较<span style="color: black;">阳光</span>。在他看来,“数据方面虽然有差异,但最多<span style="color: black;">亦</span><span style="color: black;">仅有</span>半年<span style="color: black;">上下</span>的差距,中文类的数据国内比国外<span style="color: black;">更加多</span>,拼命补一下能赶上。”</span></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">至于算法差异,他<span style="color: black;">暗示</span>,OpenAI等几家机构比Google、Facebook、百度等高出半年到一年的水平,之前<span style="color: black;">由于</span>不确定性大,各企业<span style="color: black;">无</span>重点布局,<span style="color: black;">此刻</span>验证这条路是有前途的,针对性追赶,<span style="color: black;">火速</span><span style="color: black;">亦</span>能赶上。虽然OpenAI没开源,但从OpenAI出来的<span style="color: black;">有些</span>人<span style="color: black;">火速</span><span style="color: black;">亦</span>会把技术思路共享到小圈子里,头部<span style="color: black;">机构</span>很容易跟进。</span></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">“算力的差距就很难弥补了,短期内难追上去,<span style="color: black;">然则</span>用一年多时间把国内系统做到国外80分或90分以上的程度是可能的。”郭威说。</span></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">无论<span style="color: black;">怎样</span>,接下来,AI绘画将会<span style="color: black;">步行到</span>舞台中央大放异彩是确定的事实,对各<span style="color: black;">机构</span><span style="color: black;">来讲</span>,拼的是速度。行业规则是公开的,所有选手都在往前跑,<span style="color: black;">此时</span>候,竞争是最大的动力,拿结果说话才是硬道理。</span></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><img src="data:image/svg+xml,%3C%3Fxml version=1.0 encoding=UTF-8%3F%3E%3Csvg width=1px height=1px viewBox=0 0 1 1 version=1.1 xmlns=http://www.w3.org/2000/svg xmlns:xlink=http://www.w3.org/1999/xlink%3E%3Ctitle%3E%3C/title%3E%3Cg stroke=none stroke-width=1 fill=none fill-rule=evenodd fill-opacity=0%3E%3Cg transform=translate(-249.000000, -126.000000) fill=%23FFFFFF%3E%3Crect x=249 y=126 width=1 height=1%3E%3C/rect%3E%3C/g%3E%3C/g%3E%3C/svg%3E" style="width: 50%; margin-bottom: 20px;"></p>
同意、说得对、没错、我也是这么想的等。 “沙发”(SF,第一个回帖的人)
页:
[1]