金磊 发自 凹非寺
量子位 | 公众号 QbitAI
上线仅仅一天,GPT-4o的高级语音功能(Advanced Voice Mode)简直要被玩疯了。
无数网友脑洞大开的疯狂测试,GPT-4o这边呢,不仅各样奇葩任务全盘接收,表现好到更加是让不少人连连惊呼“Blow my mind”。
例如有位网友需求GPT-4o用中文讲个故事,它的表现是这般的:
非常多懂中文的网友看罢,纷纷暗示不论是心情还是整体的描述,GPT-4o的表现都比较OK。
但亦并非完美,例如它的语速略显慢了些,以及把“气”读成为了“kì”。
还有更像人的例子,仔细听:
你没听错,GPT-4o在读美国女诗人Emiliy Dickinson的作品时,她哭了!
(颇有种情到深处自然浓的感觉)
这效果可把网友们吓得不轻,暗示“毛骨悚然”。
然而这还只是网友们疯狂测试的一隅,还有非常多好玩的例子,咱们继续往下看。
数1-100,贼快
倘若让你用英文从1数到10,越快越好,你需要几秒?
有网友就给GPT-4o提了这个需求,来感受下AI的语速:
当网友需求它以更快的速度读1-10时,“AI字幕”识别功能都失效了
。
而当GPT-4o被需求速读1-50时,咱们还能够听到他还会像人同样有大口换气的动作。
接下来,这位网友提出了更高的需求——速读1-100:
虽然前期无完全get网友的需求,但在他持续地引导之下,GPT-4o最后还是完成为了速读1-100的任务。
除此之外,在搞怪方面,GPT-4o学猫叫亦是一绝:
(
咱们一块学猫叫,一块喵喵喵~
)
当然,以实时性和多语种出圈的语音功能,网友定然亦不会放过测试这项任务。
主打一个随意打断、随意切换:
乌尔都语→希伯来语→挪威语→摩洛哥达利加语→阿姆哈拉语→匈牙利语→格鲁吉亚语→克林贡语。
还有更加实用的功能。
例如倘若你在玩一款日本游戏,但却看不懂日文,那就直接让GPT-4o来帮忙就好了:
好家伙,GPT-4o直接摇身一变,成为了实时翻译官了。
“自然的语音是关键”
除了上面这些详细的案例,沃顿商学院教授Ethan Mollick亦谈了谈他的感受。
他将GPT-4o的高级语音功能总结为三点: 它和OpenAI当时演示的效果同样好。
它显然能够生成更加多音频,但存在限制。
它令人毛骨悚然。海量无认识的线索让人感觉像是在与一个人交流。
并且Ethan教授还认为,这种非常自然、拟人的语音,正是改变人类与AI交互性质的关键(虽然底层模型是咱们用了很久的那个)。
但实质上,高级语音模式与ChatGPT现有的语音功能存在显著差异。
ChatGPT 之前的语音处理方式依赖于三个区别的模型:首要是将语音信号转化为文字的模型,其次是 GPT-4 用于解析和回复用户指令,最后是将 ChatGPT 的输出文本转换为语音的模型。
相比之下,GPT-4o 具备多模态能力,能够独立完成这些任务,无需其他模型的辅助,这大大减少了对话过程中的等待时间。
另外,OpenAI 还强调 GPT-4o 能够识别并响应用户语音中的情感变化,例如能够感知到哀痛、兴奋等心情。
而随着越来越多网友晒出她们的测试结果,底下的吃瓜群众们是按耐不住了,纷纷暗示期盼OpenAI快点让更加多人体验上。
那样你觉得用GPT-4o的高级语音功能,还能有什么更有意思的玩法?欢迎在评论区留言讨论~
参考链接:
[1]https://x.com/CrisGiardina/status/1818469456269463810
[2]https://x.com/ManuVision/status/1818441972220104813
[3]https://x.com/emollick/status/1818790423319478384
[4]https://x.com/EthanSutin/status/1818405750760522232
[5]https://x.com/flowersslop/status/1818504414774046845
[6]https://x.com/CrisGiardina
[7]https://www.youtube.com/watch?v=cEhSo4ZPhpw
— 完—
量子位年度AI主题策划正在征集中!
欢迎投稿专题一千零一个AI应用,365行AI落地区案
或与咱们分享你在寻找的AI制品,或发掘的AI新动向
点这儿 |