原文:https://a16z.com/ai-voice-agents/
此刻是重新构想tel通话的时代。因为通用人工智能的存在,无人再必须亲自拨打tel。仅有当tel对她们有价值时,人们才会花时间打tel。
针对企业来讲,这可能寓意着:(1)节省人工呼叫者的时间和劳动成本;(2)有可能将资源重新分配以增多收入;(3)经过更符合规定和一致的客户体验来降低危害。
针对消费者来讲,语音助手能够供给相当于人类水平的服务,而无需支付花费或“匹配”一个真正的人。日前,包含治疗师、教练和伙伴——在将来,这很可能会涵盖更广泛的围绕语音创立的体验。像大都数其他消费者软件同样,有哪个“胜利者”是不可预测的!
tel通话是连接世界的 API——而 AI将此提高到了新的水平。
市场机会
每一层都有巨大的机会——基本设备参与者、消费者界面和企业代理。针对 B2C 和 B2B 语音代理,咱们围绕最令人兴奋的新兴制品有有些假设:
怎样构建语音助手?
像 GPT-4o 这般的新型多模态模型可能会经过一个模型同期“运行”其中几个层来改变堆栈的结构。这可能会减少延迟和成本,并为更自然的对话界面供给支持——由于许多座席没法经过下面的组合堆栈达到真正的类似人类的质量。
语音助手必须消化人类语音 (ASR),处理这个输入并返回一个输出,而后向人类回话(TTS)。
针对某些机构/办法,LLM或一系列LLMs处理对话流程和情感。在其他状况下,有独特的引擎来添加情感、管理中断等,“全栈”语音供给商在一个地区供给这一切。
消费者 (B2C) 和企业 (B2B) 应用位置于此堆栈之上。即使运用第三方供给商,应用程序(一般)亦会插进自定义 LLM - 一般亦用作对话引擎。
全栈与自组装
语音助手创始人能够选取在全栈平台(例如 Retell、Vapi、Bland)上起步一个助手或自己组装堆栈。在做出此决按时,有几个关键原因:
这些是此刻每一个堆栈级别的有些领先参与者。这不是一张全面的市场地图,但表率了语音代理创始人最常提出的名字。咱们预计,随着多模态模型的显现,这种堆栈将出现重大变化。
B2B代理:咱们的看法
咱们正在从 1.0 AI 语音(tel树)过渡到 2.0 的 AI 语音(基于LLM)转变。在过去 6 个月上下的时间里,显现了 2.0 机构。1.0 机构此刻可能更准确,但从长远来看,2.0 办法应该更具可扩展性和准确性。
不太可能有一种水平模型或平台适用于所有类型的企业语音助手。垂直行业之间存在有些关键差异:(1) 呼叫类型、音调和结构;(2)集成和流程;(3)GTM和“杀手级特征”。
这可能寓意着显现了海量的垂直代理人。她们在用户界面上有着剧烈的个人色彩。这必须拥有深厚行业专业知识或兴趣的创始团队。劳动力是许多企业的第1成本中心 - TAM针对“做对了”的机构来讲很重要。
近期期的机会可能是哪些靠tel预约存活和死亡、劳动力严重短缺和通话繁杂度低的行业。随着座席变得越来越繁杂,她们将能够处理更繁杂的呼叫。
B2B 代理:进化
咱们已然看到了B2B语音代理行业的三大技术浪潮:
许多语音代理机构正在针对特定行业(例如汽车服务)或特定类型的任务(例如约会安排)采用垂直特定的办法。这有几个原由: 执行难度。将呼叫拜托给 AI 的质量门槛很高,况且对话流程(加上客户方面的后端工作流程)火速就会变得繁杂/详细。在这些垂直行业中为“边缘案例”而构建的机构有更好的成功机会(例如,通用模型会误解的独特词汇)。法规和许可证。有些语音代理机构面临特殊限制、必须认证等。一个典型的例子是医疗保健(例如HIPAA合规性),尽管这亦出此刻营销等类别中,这些类别在国家层面上有人工智能冷门tel法规。集成。在某些类别中确定用户体验(对企业和消费者而言)可能必须一长串集成 - 或除非您尝试为该特定用例供给服务,否则不值得构建的专用集成。楔入其他软件。语音是核心客户操作(如预订、续订、报价等)的自然入口。在某些状况下,针对这些企业来讲,这将是一个楔入更广泛的垂直SaaS平台的楔子,尤其是倘若客户群仍然重点离线运营。
B2B代理:咱们看到机会的地区
基于LLM - 但不必定从第1天起就 100% 自动化。
人工智能语音代理的“强形式”将是一个完全LLM驱动的对话,而不是交互式语音响应(IVR)或tel树办法。然则,因为LLMs并非始终 100% 靠谱,因此呢针对更敏锐/更大的交易,可能会有有些(临时的)“人为循环”。这亦使得特定于垂直的工作流程变得尤为重要,由于它们能够最大限度地加强成功的可能性,同期以更少的边缘状况最大限度地减少人为干扰。
调节自定义模型与提示LLM办法。
B2B语音代理将必须导航专门的(或特定于垂直的)对话,而通常LLM对话可能不足。许多机构正在调节每一个客户的模型(运用几百个或几千个数据点),并且可能会将其推断回机构范围的基本模型。针对企业客户端,自定义调节乃至能够继续进行。重视:有些机构可能会针对其特定用例调节“通用”模型(以跨客户端运用),而后按照每一个客户进行提示。
拥有行业专业知识的技术团队。
鉴于它们的繁杂性,有些先前的人工智能背景将有助于(倘若不是必要的话)起步和扩展高质量的B2B语音代理。然而,认识怎样将制品打包并楔入垂直行业可能一样重要——必须行业专业知识或浓厚的兴趣。您不必须 AI 博士学位就可构建和起步企业语音代理!
关于集成 + 生态系统的尖锐 POV。
与以上类似,每一个垂直行业的买家都有有些特定的功能或集成,她们一般期盼在购买之前看到这些功能或集成。事实上,这可能是在她们的评定中将制品从“有用”提高到“神奇”的证明点。这亦是为何起始相当垂直化是有道理的另一个原由。
要么是“企业级”,要么是强劲的制品主导增长 (PLG) 运动。
针对收入高度集中在顶级机构/供给商的垂直行业,语音代理机构可能会从企业起始,并最后经过自助服务制品“涓滴”到中小企业。中小型企业客户迫切必须处理方法,并愿意测试各样选项,但可能没法供给准许初创机构将模型调节为企业级的数据规模/质量。
B2C代理:咱们的看法
在 B2B 中,语音代理在很大程度上取代了现有的tel呼叫来完成特定任务。针对消费者代理来讲,用户必要选取继续参与,这拥有挑战性,由于语音并不总是方便交互。这寓意着制品栏“更高”。
消费者语音代理的第1个亦是最显著的应用是采用昂贵或难以拜访的人类服务,并用人工智能取代供应商。这包含治疗、辅导、辅导等等——任何基于对话的、能够虚拟完成的。
然而,咱们相信B2C语音代理的真正魔力可能还无到来!咱们正在寻找能够利用语音力量实现以前不存在的新型“对话”的制品。这可能会重塑现有服务的外形规格,或创建全新的服务。
针对能够实现用户体验的制品来讲,语音代理供给了一个机会,以软件中前所未有的水平吸引消费者——真正模仿人与人之间的联系。这可能在代理中表现为制品,或语音表现为更广泛制品的模式。
B2C 代理:进化
到日前为止,占主导地位的消费者 AI 语音代理来自大机构,例如 ChatGPT Voice 和 Inflection 的 Piapp。消费者声音显现较慢有几个原由: 大机构在准确性、延迟等方面已然持有消费者分布和一流的模型。大规模传送语音并不易。鉴于近期推出的 GPT-4o,尤其如此。B2B 语音代理正在将 AI “插进”到现有流程中,而 B2C 语音代理则需求用户采用新行径。这可能会更慢/必须更神奇的制品。因为对Siri等制品的体验,消费者对语音AI产生了消极影响,因此呢不必定受到启发去尝试新的应用程序。基本广泛的制品一般能够供给语音 AI 的基本用例——辅导、陪同等。B2C 语音初创机构刚才起始处理 ChatGPT、Pi 等没法处理的用例或创造体验。
B2C 代理:咱们看到机会的地区
关于为何必须语音的剧烈 POV。
咱们对哪些对语音怎样为制品带来独特价值(而不仅是“为了语音而语音”)持主见的制品和创始人感到兴奋。在许多状况下,语音界面实质上是与文本界面相比的净消极界面,由于它更不方便消费和提取信息。
关于为何必须实时语音的剧烈 POV。
虽然语音很难运用,但实时语音乃至更难(与异步语音信息相比)。咱们很兴奋地看到,创始人们对为何她们的制品必须围绕实时对话来构建有自己的见解——亦许是为了类似人类的陪同、实践环境等。
非拟物化到前人工智能的“制品”。
咱们可疑,强格式的制品不会是以前人与人对话的直接翻译,其中人工智能语音代理只是为人类供给者插进。首要,要达到这个标准是很困难的,但更重要的是,有机会运用人工智能更好(更有效、更愉快地)供给相同的价值。
垂直化到模型质量不=赢家的程度
领先的通用消费类AI制品(ChatGPT、Pi、Claude)拥有高质量的语音模式。她们能够有道理地参与多种类型的对话和互动。况且,她们可能会在短期内在延迟和对话流方面获胜,由于她们托管自己的模型和堆栈。
咱们很高兴看到初创机构经过为特定类型的对话进行定制或调节,或构建为语音代理体验供给更加多上下文和价值的 UI(例如,跟踪一段时间内的进度,或以固执己见的方式引导对话/体验)取得成功。
|