外链论坛

 找回密码
 立即注册
搜索
查看: 45|回复: 1

实测:ChatGPT的翻译能力怎么样?

[复制链接]

2790

主题

6256

回帖

9996万

积分

论坛元老

Rank: 8Rank: 8

积分
99969942
发表于 2024-8-22 08:31:39 | 显示全部楼层 |阅读模式

在今天,狂热追捧ChatGPT,仿佛已然作为了一种“政治正确”。

ChatGPT一出,学界、工业界无不惊为天人。一位科研公司的资深科研员就对AI科技评论说过:“ChatGPT出来,直接给咱们整不会了——生成做的比咱们好就不说了,NLP(自然语言处理)能力还比咱们强不少。”

微软注资百亿美元,谷歌则如临大敌,ChatGPT在科技圈里掀起的巨浪,仍是此刻进行时。

然则,ChatGPT并非“万能钥匙”——大模型在某些专业行业的准确度,仍然没法超越其他垂类制品近期,腾讯AI Lab 就经过实验证明,在设备翻译行业,ChatGPT在某些状况下,能力弱于其他商场翻译制品

论文位置

https://arxiv.org/pdf/2301.08745v1.pdf

1ChatGPT是个好翻译吗?

腾讯AI Lab的调查文指出:

首要,在高资源环境——如欧洲语言上——ChatGPT的表现与商场翻译制品(如谷歌翻译、DeepL Translate)相比拥有竞争力,然则,在低资源环境——如古代语言——显著落后;

其次,在翻译的鲁棒性上,ChatGPT在生物医学摘要、或Reddit评论方面表现不如商场翻译制品然则白话方面许会是一个很好的翻译工具。

为了更好地理解ChatGPT的翻译能力,腾讯AI Lab从以下三个方面开展实验:

提示词(Prompt)翻译:ChatGPT是一个大型语言模型,在翻译时需有提示词(Prompt)做为引导才可引导系统进行翻译。因此,提示词的风格会影响翻译输出的质量。例如,在多语言设备翻译模型中,怎样将两种语言信息联系起来非常重要,这一般经过附加语言标记来处理

多语言翻译:ChatGPT是一个处理各样NLP任务并涵盖区别语言的单一模型,能够被视为一个统一的多语言设备翻译模型。因此呢,ChatGPT在资源差异(如高与低)和语系差异(如欧洲与亚洲)上的表现是该实验所探讨的重点之一。

翻译鲁棒性:ChatGPT是基于GPT-3研发的模型,GPT-3在涵盖各样行业的大规模数据集进行上训练,因此呢,在特定行业的表现,是这次科研者们的重点之一。

提示词翻译

为了设计触发ChatGPT设备翻译能力的提示词,腾讯AI Lab团队向ChatGPT提出以下prompt:

供给十个能够让你翻译的简明提示或模版

得到图1中的结果:

图1: ChatGPT举荐的10个可诱发其进行设备翻译的prompt

生成的提示语看起来很恰当然则都有类似的格式,科研人员将它们总结成三个候选prompt(如图2),其中[SRC] 和 [TGT] 分别表率翻译的源语言和目的语言。另一科研人员在Tp2中增多了一个额外命令,需求ChatGPT不要在翻译的句子上加双引号(在原始格式中经常出现)。尽管如此,ChatGPT依旧不稳定,如会将同一批次的多行句子翻译成单行。

图2:候选翻译提示

科研人员将三种区别的候选prompt与Flores-101的测试集在汉译英任务中的表现进行比较,图3表示了ChatGPT和其他三个翻译软件的结果。虽然ChatGPT供给了相当好的翻译,但它仍然落后于基线最少5.0个BLEU点。关于三个候选prompt,Tp3在所有指标方面表现的最好,因此呢在这篇论文中,科研者默认运用Tp3。

图3:在中译英翻译任务中ChatGPT运用区别提示语的翻译表现对比

多语言翻译

腾讯AI Lab选取了四种语言来评定ChatGPT在多语言翻译中的能力,包含德语(De)、英语(En)、罗马尼亚语(Ro)和中文(Zh),这些语言在科研和竞赛中都被广泛采用。前三种语言同来自拉丁语系,而后一种则来自中文语系。科研人员测试了任意两种语言间的翻译表现,共触及12次翻译。

资源差异

经过实验发掘,在同语系中区别语言存在资源差异。在设备翻译中,德英互译一般被认为是一个高资源任务,有超过1000万条语料。而罗马尼亚语与英语间互译语料要少得多。

如图4所示,ChatGPT在德译英和英译德上,与谷歌翻译和DeepL能够分庭抗礼;而在罗马尼亚语译英,和英译罗马尼亚语方面,则要显著落后。详细来讲,ChatGPT在英译罗马尼亚语上得到的BLEU分数比谷歌翻译低了46.4%。

图4:ChatGPT在多语言翻译中的表现

科研者认为,英语和罗马尼亚语之间的单一语言数据的巨大资源差异,限制了罗马尼亚语的语言建模能力,这部分解释了将英语翻译成罗马尼亚语表现差的原由

相反,罗马尼亚语译成英语能够受益于强大的英语建模能力,使平行数据的资源缺口能够得到必定程度的赔偿

语系

同期科研人员思虑了语系的影响。

一般认为,针对设备翻译,区别语系之间的翻译一般比同一语系间翻译更难。科研人员发掘,德英互译、汉英互译,德汉互译在文化和书写方式上存在差异。

另一能够发掘,在这几种翻译中,ChatGPT和几款商场翻译软件间差距很强科研者认为,这是由于在同一语系中知识转移比在区别语系间要好,针对既是低资源又来自区别语系的语言来讲(如罗马尼亚语和汉语的互译),这种差距会进一步扩大。

因为ChatGPT在一个模型中处理区别的任务,低资源的翻译任务不仅与高资源的翻译任务竞争,而且还与其他NLP任务竞争模型容量,这说明其性能表现欠佳。

翻译鲁棒性

腾讯AI Lab进一步评定了ChatGPT在WMT19 Bio和WMT20Rob2和Rob3测试集上的翻译鲁棒性,这些测试集引入了行业偏见和潜在的噪声数据。

例如WMT19 Bio测试集是由于Medline摘要构成的,这需要特定行业的知识处理,WMT20Rob2是来自Reddit的评论,可能包括各样错误,如拼写错误、单词遗漏、插进重复、语法错误、破坏性语言,和网络俚语等。图5列出了BLEU分数,显然ChatGPT在WMT19 Bio和WMT20Rob2测试集上的表现不如谷歌翻译和DeepL Translate。

图5:ChatGPT在翻译鲁棒性方面的表现

原由可能在于,像谷歌翻译这般商场翻译制品常常需要持续加强其翻译特定行业(如生物医学)或噪音句子的能力,由于它们是现实世界的应用,需要对分布之外的数据有更好地概括性,ChatGPT不太能够完成这一点。

不外,一个有趣的发掘是,ChatGPT在包括众包语音识别语料的WMT20Rob3测试集上大大超过了谷歌翻译和DeepL Translate。这显示,ChatGPT本质上是一个人工智能对话工具,能够比商场翻译软件生成更自然的白话(见图6)。

图6:来自WMT20鲁棒集set3的例子

2ChatGPT应怎样扬长避短?

从该科研可知,高举高打的ChatGPT每训练一次就耗费海量算力资源,但不可在全行业尽善尽美。因此有些起始思考,是不是应该“摒弃”大模型思路,转而去做“精耕细作”的小模型。

腾讯AI Lab在Chat GPT“测评”中说到,罗马尼亚语与英语互译,相较德英互译存在很强差距,原由在于:巨大资源差异,限制了罗马尼亚语的语言建模能力,恰恰证明,AI学习能力常常受到低资源的掣肘。

有资深学者认为,尽管现时ChatGPT仍存在不少不足之处,但仍然对科研者和创业者有着不少启示。以ChatGPT为表率的AI 3.0走的是跟过去 AI 浪潮不同样的路,即更落地、更接近真实世界,在工业应用上,更直接,更落地,从学术科研到工业落地的路径变得更短、更快。

将来,“helpful, truthful, harmless”的 AI 系统会作为现实。

雷峰网雷峰网

回复

使用道具 举报

2656

主题

412

回帖

9118万

积分

论坛元老

Rank: 8Rank: 8

积分
91180375
发表于 2024-9-2 04:44:35 | 显示全部楼层
楼主的文章深得我心,表示由衷的感谢!
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

站点统计|Archiver|手机版|小黑屋|外链论坛 ( 非经营性网站 )|网站地图

GMT+8, 2024-10-6 00:33 , Processed in 0.061840 second(s), 20 queries .

Powered by Discuz! X3.4

Copyright © 2001-2023, Tencent Cloud.