AI创业，追逐风口但别轻信“红利”——专访AI人机交互专家季啸白

fny5jt9 · 发表于 2024-7-1 05:46:35

自2023年以Stable Diffusion为主的开源图像生成AI败兴，AI在图像和视频两个方向均有了质的突破。从语音AI到作为创新前沿的AI视频大模型，经历了六十年风雨的人工智能逐步迎来了产业化的临界点。

季啸白日前在全世界头部互联网社交媒介机构工作，同期亦是长时间的图像生成AI方向创业者。从全世界顶级名校硕士毕业后，季啸白始终投身于图像生成AI制品化的科研和创业，作品亦多次获奖。AI怎样转化为新质生产力？紫牛资讯记者采访了人机交互专家季啸白。

扬子晚报/紫牛资讯记者王塞塞

图源：视觉中国

一

紫牛资讯：没论是苹果手机的Siri，还是小爱朋友、天猫精灵，语音助手从一出生起始就被人们视作AI技术的落地制品，但它为么没被都数用户高频运用？

季啸白：我觉得重点有两大原由：运用场景有限和效率不高。语音AI最早能够追溯到20世纪50年代，很长的时间段里，它是依赖人类守护来回答问题。近几年语音AI实现了质的飞跃，例如ChatGPT所供给的语音AI不仅能够回答用户的问题，还能引导对话向更有价值的方向发展。但做为信息传递的载体，语音的信息密度常常小于图像，在非常多场景下，单凭语音很难完整表达繁杂的信息。另外，语音AI个性化能力有着先天不足，它很难从你的语气和用词中感知你的爱好，没法得到你的运用数据，亦没法有效向你举荐内容。图形化界面的先天优良在于，没论是淘宝还是抖音，你点进去看了多久，查看哪一类商品比较多，这些数据都能做为举荐给你视频和商品的依据。

紫牛资讯：但语音AI仍然是人工智能竞逐的要紧战场，例如2024北京车展，车内AI语音交互便是非常多新能源车的亮点。语音AI还有那些发展方向？

季啸白：如今基于大模型智驾技术的公司非常多，但即便是业界领先的语音识别算法，在嘈杂环境、口音差异、速度变化等状况下，转录准确率很难达到100%。但人类在设备时代已养成为了这般的惯性：对人类犯错习以为常，但不可接受设备犯错，这正是车内AI语音交互发展的限制。另外，在车内场景下，用户对语音AI的诉求不算高频需求，变现方式亦颇为单一，大多打包在车机订阅服务中。针对普通AI创业者来讲，成功的机会很小。相比之下，语音AI在情感陪同方面，赛道更宽。独居老人常常缺乏人际交流，情感陪同型语音助手能够经过自然对话，为老人供给情感支持；陪同儿童时，语音助手能够与孩儿进行有趣的互动游戏；有些青年人期盼和爱好的动漫角色谈爱情，和自己崇拜的偶像交流，和爱好的虚拟角色交流，这些都是语音AI可能应用的空间。

二

紫牛资讯：去年底英国《自然》杂志刊文预测的2024年十大科学发展中，人工智能的进步和ChatGPT人工智能占据前两位。人类怎样对待可能持有认识的人工智能，亦成为了关注的专题。

季啸白：有科研者预测，人工智能产生认识将在5-20年内实现。但我晓得的是，2023年无一项帮助是用于“科研人工智能产生认识”的。我认为，AI的发展仍然在初期。在当下，人们仿佛对AI有些不切实质的幻想，总认为AI已然进化出了人类的思维，有感情、有思考，能代替人类写论文，乃至能和人类谈爱情。这有些一厢情愿了。

紫牛资讯：2023年1月，美国多名艺术家集体起诉三家生成式AI商场应用机构作图软件以她们作品的风格生成图像，法院审理认为AI生成后的照片本来就不享有著作权，并不违反著作权法。今年，谷歌又面临着三位漫画家和一位摄影师提出的集体诉讼。你怎样看待这些诉讼？

季啸白：这亦印证了当下AI是无人类思维的。日前，你让AI写生物医药论文、画一幅抽象主义绘画，而AI本质上只是学习过去人们写过的论文、画过的绘画，而后根据人类当下的需求重新杂糅并输出。AI是无创造性的，尤其是图像行业。图像生成AI经常显现的版权纠纷，是由于人类对AI的输出结果不可很好地掌控。由此可见，探索更有效的人机交互方式，空间很大。

紫牛资讯：当下，越来越多的创业者涌入AI行业，在图像生成方面，可谓是老中青三代齐上阵，但进去后却发掘并不容易。你怎样看待？

季啸白：当前图像生成AI的人机交互方式，从途径上来讲分为用文字生成图像、用“文字+图像”生成图像、用“文字+图像+风格倾向”生成图像、用“文字+图像+标注重点部位”生成图像；从轮次上来讲亦分为单次和多次。设计恰当且简化的人机交互，更能帮忙面向普通用户的C端制品得到成功。怎样帮图像生成式AI做好人机交互体验，帮忙人们恰当准确表达诉求的同期，降低上手难度和门槛，是创业者和普通用户的需求，亦是我重点科研的方向。

紫牛资讯：非常多创业者认为，C端（个人用户端）需求大，寻求C端扩张更易成功。

季啸白：美国硅谷初期的有些图像生成AI都是面向普通消费者的，用户按次付费，或经过订阅制包月运用。大部分消费者抱着尝鲜的目的而来，用户增长火速，但留存和付费转化很低，本质上是由于通用型图像生成AI的天花板太低。当下，图像生成AI的重点正在从 C端向着面向公司的B端转移。

紫牛资讯：面向B端的制品，和面向C端的制品，有什么显著区别？

季啸白：B端消费者不爱好随机，没法接受太高的自由度。B端用户是要生成照片拿来干活的，不可天马行空的任由AI发挥。因此呢，对B端制品必须深入浅出地供给更丰富的多轮生成调优能力，这一点在人机交互的设计上必定要思虑到。

紫牛资讯：那C端制品的落地区向在哪？

季啸白：C端制品的商场空间肯定存在。短期内图像生成AI在C端制品的落地区向，是低客单价的广泛需求。千万不可陷入追求高客单价，AI的本质是替代人类的重复劳动和昂贵劳动力，追求高客单价是个误区。AI没法创造奢侈品，亦很难触及高频需求，咱们的平常生活中，出门吃饭买菜，回家刷短视频睡觉，很少必须创造图像，因此呢传统商场道理的高客单价和高频都是不可取的。C端创业者，必定要着眼广泛的多个需求，例如做AI图像集成工具，连带AI美妆，AI一键换背景，AI一键改光线，AI生成证件照、艺术照，虽然对单个用户而言不算高频需求，但针对全部社会而言，累计运用次数会相当可观。

紫牛资讯：B端用户中，电商是庞大的群体，亦是普通AI创业者重点关注的对象。面向电商的AI创业，你有什么意见？

季啸白：电商行业其实是最早起始接触照片生成AI技术的行业，由于行业本身信息敏锐度高，亦有海量照片处理需求。咱们工作中亦经常有电商行业的从业者来聊，她们的需求太大了，没论是图像生成、图像批量后期处理，还是一键换衣等需求，本质上便是用AI的低成本去换重拍照片的成本。然则，她们的需求非常杂，相当定制化，详细到每一类需求量，并不大，因此照片生成AI反而服务欠好这个行业。之前有个老板来找咱们，期盼把帽子、围巾、手套等物品的平铺图能直接生成到模特的身上。从技术方向，咱们要对物品做定制化的研发，有必定人工成本。电商核算后，发掘找模特快速拍一下效率更高，成本更低。这一个项目最后无成功，但能管中窥豹一个行业。

三

紫牛资讯：2月15日， OpenAI颁布了“文生视频”大模型Sora，并附带颁布了由它生成的48段视频，诱发了社会高度关注。从中长时间看，图像生成AI的发展方向是什么？

季啸白：我认为视频生成正处在破晓时分。视频的商场前景比照片大得多，这亦是抖音、TikTok等制品成功的原由。经过互联网20年的发展，人们对消费视频已然习以为常，运用习惯亦从阅读静态媒介向消费动态内容转变。视频生成大约在2025年达到可商用的成熟度。视频生成技术一旦成熟，OpenAI可能会创立自己的视频平台，和抖音、TikTok直接竞争视频消费者，同期给影视行业带来变革。影视行业不必定爱好从0起始生成视频，但会对修复拍摄的穿帮细节、虚拟布景AI生成宏大背景、生成没法拍摄的视觉效果等感兴趣。影视行业的付费意愿高，和影视行业紧密合作，会是这个10年下半场的要紧机会。

紫牛资讯：AI会取代人类的摄影和图像创作吗？

季啸白：从长时间来讲，图像生成AI必定是和人类大脑协作，而不是取代人类的摄影和图像创作。摄影是对客观事物的捉捕，亦是拍摄者心情和思考的表达。我很爱好画画和摄影，AI技术虽然在持续演进，但人类主动创作的主观表达是永远没法替代的。返回外链论坛：http://www.fok120.com/，查看更加多

责任编辑：

qzmjef · 发表于 2024-10-9 10:19:31

楼主果然英明！不得不赞美你一下！

1fy07h · 发表于 2024-11-5 10:35:32

请问、你好、求解、谁知道等。

		自动登录	找回密码
密码			立即注册