设备之心报告
编辑:蛋酱、小舟
OpenAI 的「Her」最终向部分人群开放了。
今年 5 月,OpenAI 在「春季新品发布会」上搬出了新一代旗舰生成模型 GPT-4o、桌面 App,并展示了一系列新能力。
此刻,OpenAI 宣布向一小部分 ChatGPT Plus 用户开放 ChatGPT 的高级语音模式,让用户首次得到 GPT-4o 的超现实音频响应。这部分用户将在 ChatGPT 应用程序中收到提醒,并收到一封电子邮件,其中包括相关怎样运用该应用程序的说明。
「自从咱们首次演示先进的语音模式败兴,咱们始终致力于加强语音对话的安全性和质量,准备将这项前沿技术带给数百万人。」OpenAI 暗示,该功能将在 2024 年秋季逐步向所有 Plus 用户推出。
有些用户已然晒出了高级语音模式的运用效果:
重播
播放
00:00
/
00:00
直播
进入全屏
50
点击按住可拖动视频
源自: https://x.com/tsarnick/status/1818402307115241608
当你和 ChatGPT 讲段子时,Ta 能够供给有些笑声陪同:
源自: https://x.com/yoimnotkesku/status/1818406786077970663
运用 ChatGPT 的高级语音模式,「Her」能够在讲故事的同期创建背景音乐,并且适用于多种语言。
源自: https://x.com/yoimnotkesku/status/1818415019349901354
法语、西班牙语和乌尔都语亦都能够:
源自: https://x.com/yoimnotkesku/status/1818424494106853438
但中文表达不太地道,仿佛一个正在学习中文的「歪果仁」:
源自: https://x.com/yoimnotkesku/status/1818446895083139170
听完的人都懵了:
而口音问题不只出此刻中文,据述德语亦同样:
源自: https://x.com/yoimnotkesku/status/1818445235606671670
最后,讲段绕口令吧:
源自: https://x.com/yoimnotkesku/status/1818427991514337695
OpenAI 暗示高级语音模式与 ChatGPT 日前供给的语音模式有所区别。
ChatGPT 的旧语音模式处理方法运用了三种独立的模型:一个模型将语音转换为文本,GPT-4 负责处理提示(prompt),第三个模型则负责将 ChatGPT 的文本转换为语音。而 GPT-4o 是多模态的,能够在无辅助模型的帮忙下处理这些任务,从而明显降低对话延迟。OpenAI 还暗示 GPT-4o 能够感知用户声音中的心情语调,包含哀痛、兴奋等等。
今年 5 月,OpenAI 首次展示了 GPT-4o 的语音功能,「她」的反应速度、与真人声音的惊人类似度震惊了观众 —— 问题就出在这儿。
这个名叫 「Sky」 的声音酷似电影《Her》中人工助手的扮演者斯嘉丽・约翰逊(Scarlett Johansson)。
在 OpenAI 演示之后不久,约翰逊说她曾拒绝 OpenAI CEO 山姆・奥特曼关于运用她的声音的多次请求,在看到 GPT-4o 的演示之后,她聘请了法律顾问为自己的声音辩护。OpenAI 否认运用了斯嘉丽・约翰逊的声音,但亦删除了演示中的声音。
6 月,OpenAI 暗示将推迟发布高级语音模式,以改进其安全办法。
漫长的等待后,「Her」总算与大众见面了。OpenAI 暗示,此次推出的高级语音模式将仅限于 ChatGPT 与付费配音演员合作,制作了四种预设语音:Juniper、Breeze、Cove 和 Ember。
值得重视的是,输出的声音有且仅有这四种 —— OpenAI 5 月份的演示中展示的 Sky 语音已再也不适用于 ChatGPT。OpenAI 发言人 Lindsay McCallum 暗示:「ChatGPT 不可冒用他人的声音,包含个人和公众名人的声音,并且会阻止与这些预设声音之一区别的输出。」
这种设置的初衷是避免 Deepfake 争议。今年 1 月,人工智能初创机构 ElevenLabs 的语音克隆技术被用来冒充美国总统拜登,诈骗了新罕布什尔州的初选选民,诱发了不小的争议。
OpenAI 还暗示,已然引入了新的过滤器来阻止某些生成音乐或其他受版权守护音频的请求。
去年,非常多图像生成、音乐生成的 AI 机构因侵犯版权而陷入了法律纠纷,尤其是爱好打官司的唱片机构,已然起诉过人工智能音频生成器 Suno 和 Udio。而 GPT-4o 这般的音频模型则让能够提出投诉的机构增多了一个全新的类别。
据述,OpenAI 与 45 种语言的 100 多名外边「红队」成员一块测试了 GPT-4o 的语音功能。而这些关键信息,将在 8 月份一份关于 GPT-4o 的功能、局限性和安全评定报告中有更仔细的颁布。
参考链接:
https://twitter.com/OpenAI/status/1818353580279316863
https://www.theverge.com/2024/7/30/24209650/openai-chatgpt-advanced-voice-mode
https://www.reuters.com/technology/openai-starts-roll-out-advanced-voice-mode-some-chatgpt-plus-users-2024-07-30/
https://www.bloomberg.com/news/articles/2024-07-30/openai-begins-rolling-out-voice-assistant-after-safety-related-delay?srnd=phx-technology
https://techcrunch.com/2024/07/30/openai-releases-chatgpts-super-realistic-voice-feature/
https://www.theinformation.com/briefings/after-delay-openai-releases-ai-voice-assistant
|