编译 | Vendii编辑 | 漠影
智东西9月19日信息,据VentureBeat今日报告,AI情感创企Hume AI于9月11日发布了Empathic Voice Interface 2(EVI 2)。
EVI被宣叫作为全世界首个拥有情商的对话式AI。EVI能够经过分析用户的语音,如口音、语气、语调、拟声词、节奏和停顿等,来理解用户的心情和心理状态,并做出实时响应。
与EVI 1相比,新发布的EVI 2的响应延迟减少了40%,且成本降低了30%。另外,新一代EVI还进行了一系列功能加强与更新:语音质量的加强,情商与同理心的加强,支持自定义语音……
Hume AI由前谷歌DeepMind科研员Alan Cowen于2021年创立,他此刻担任该机构的首席执行官兼首席专家。该机构于今年3月27日完成为了5000万美元的B轮融资。
官网位置:https://www.hume.ai/
1、功能加强:语音质量和情商的提高,还支持自定义语音
EVI 2集成为了一个先进的语音生成模型和情感大型语言模型(eLLM),能够处理和生成文本及音频。这种多模态办法使得EVI 2生成的语音听起来更自然,语调更恰当,表现力更高,输出更连续。
另外,在同一模型中处理语音和语言,使得EVI 2能够更好地理解用户输入内容的情感倾向,从而做出相应调节,在内容和语气方面生成更拥有同理心的响应。
除了在语音质量和情商方面的提高,新一代EVI 2还支持用户自定义语音。研发人员能够设置音调、鼻音和性别等参数,按照特定的应用需要定制EVI 2的语音,例如应用于客服设备人、虚拟AI助手。
EVI 2还支持用户在交互过程中经过语音提示,动态修改EVI 2的说话风格。例如,“说得更快”、“语调听起来很兴奋”,乃至还能够“进行说唱“。
按照Hume AI的介绍,EVI 2还能够与其他应用程序、大语言模型进行集成,在客服通话、网页搜索等功能中运用。
Cowen在上周与VentureBeat的视频通话中谈道:“咱们期盼研发者能够将这个模型集成到任何应用中,创建她们想要的品牌语音,并按照她们的用户需要进行调节,使其品牌语音变得值得信赖且拥有个性。”
另外,他透露道,EVI 2并不打算供给语音克隆的功能。
“咱们当然能够用咱们的模型克隆声音,但咱们无供给这一功能,由于它的危害太高、益处亦不清晰。”他解释道,“人们真正想要的是能够定制声音。咱们研发了新的语音,让用户能够创建区别的个性化语音。相比于克隆特定声音,研发者似乎对创建新语音更感兴趣。”
定制语音功能体验位置: https://platform.hume.ai/evi/voices
2、性价比加强:响应延迟降低40%,定价降低30%,年底预计能支持更加多语言
EVI 2与EVI 1相比,延迟降低了40%,此刻平均响应时间在500到800毫秒之间。速度的改进使对话响应更快、更像人类。
EVI 2还有一大亮点是其成本效益的加强。Hume AI将EVI 2的定价降低了约30%,从第1代的每分钟0.102美元降低到每分钟0.072美元。企业用户还能够享受批量折扣。
不外,按照VentureBeat的计算,OpenAI日前供给的文本转语音服务(非新推出的ChatGPT高级语音模式)要比Hume AI的EVI 2便宜非常多。OpenAI的文本转语音服务每1000字符收费0.015美元(大约每分钟语音0.015美元),而Hume AI的EVI 2为每分钟0.072美元。
EVI 2日前仅支持英语,Hume AI计划在2024年底之前推出对西班牙语、法语和德语等多种语言的支持。
Cowen向VentureBeat透露道,得益于她们的训练过程,EVI 2实质上自主学习了多种语言,不需要由工程师进行人为的训练。
“咱们无专门训练模型输出某些特定的语言,但它从训练数据中学会了说法语、西班牙语、德语、波兰语等多种语言。”Cowen解释道。
结语:先于竞争对手公研发布,有望抢占市场
据传,Hume AI潜在的竞争对手Anthropic正在重新打造其投资方亚马逊的Alexa语音助手并准备推出。
另一方面,OpenAI在今年5月展示的由GPT-4o模型支持的ChatGPT高级语音模式,日前只对少许用户开放,在候补名单中的用户仍需等待。
尽管Hume AI并无像OpenAI或Anthropic那样广为人知,但Hume AI已然抢先于它们公开推出了一个人性化语音助手,并且客户此刻就能够立即将其投入运用。这可能为Hume AI在竞争激烈的市场中抢占一席之地。
源自:VentureBeat
|