|
本文整理自Nature上的一篇文案,原文题目为“AI is complicating plagiarism. How should scientists respond?”今年的学术界抄袭事件频发,1月份哈佛校长因遭受抄袭指控而辞职,2月份又有同行评审意见被揭发存在抄袭行径。关联阅读:同行评审意见,亦存在抄袭行径?在学术写作中,还有一个更大的问题,由生成式人工智能 (AI) 工具的快速普及而诱发,即运用AI工具是不是形成抄袭?在那些状况下准许运用AI工具?ChatGPT等生成式AI工具基于大型语言模型 (LLM) ,能够帮忙节省时间、提高文字表达能力并减少语言阻碍。许多科研者认为,在某些状况下,这些工具应被准许运用,但需要充分披露。然而,此类工具的运用,使得本就充满争议的、怎样合法运用他人作品的讨论变得更加繁杂。LLMs运用海量已发布文案进行训练,并生成文本,因此呢,运用此类工具可能会引起类似抄袭的行径出现。例如,科研者运用AI生成的内容充当自己的成果,或运用AI生成与某些论文内容非常接近的文本,却不注明参考文献。这些工具还可用来掩盖故意抄袭的内容,运用此类工具的行径很难被发掘。2023 年,在一项针对 1600 名科研者的调查中,68% 的受访者暗示,AI将使抄袭更易,亦更难被发掘。德国柏林应用科技大学一位检测抄袭行径的专家 Debora Weber-Wulff 说:“每一个人都担心其他人运用这些工具,又担心自己错失运用的机会”。关联阅读:Nature深度调研:1600名科研者怎样看待和运用ChatGPT等AI工具
当AI遇上抄袭 美国科研诚信办公室将抄袭定义为“未经授权而搬用他人的想法、方法、结果或文字的行径”。2015 年的一项科研表示,1.7%的科研者承认有过抄袭行径,30% 的科研者晓得有人抄袭[1]。LLM的显现,可能会使状况变得更糟。倘若有人运用LLM先对他人的文本进行解释,那样故意抄袭的行径就很容易被掩盖。加拿大计算机学家Muhammad Abdul-Mageed暗示,人们经过提示语能够让AI工具以繁杂的方式进行修改,例如以学术期刊的风格。一个核心问题是,运用完全由AI编写的、未注明源自的内容是不是算作抄袭?许多科研者认为无结论。例如,欧洲学术诚信网(European Network for Academic Integrity)将禁止运用AI或未申报运用AI所进行的写作定义为“未经授权的内容生成”,而不是抄袭[2]。Weber-Wulff说:“对我而言,抄袭指的是源自于一个详细的人的内容。尽管在有些状况下,AI生成的文本与人类书写的内容几乎完全相同,但这一般不足以被视为抄袭。“而另有些人认为,生成式AI工具侵犯了版权。抄袭和侵犯版权都是对他人作品的欠妥运用,抄袭违反了学术道德,而侵犯版权则可能违法。密歇根大学一位计算机专家说:“这些AI系统是创立在数百万、乃至数亿人的工作之上的。”有些媒介机构认为AI侵犯了自己的版权,并提出了抗议。2023 年 12 月,《纽约时报》对科技巨头微软和 OpenAI(ChatGPT的机构) 提起了版权诉讼。诉讼叫作,这两家机构复制并运用了数百万篇文案来训练LLM,而这些LLM与原出版物存在内容竞争。提出诉讼的依据是,GPT-4 几乎逐字逐句地复制了期刊文案中的有些段落。2024年 2 月,OpenAI 向联邦法院提出需求驳回部分诉讼,认为“ChatGPT 绝不是订阅《纽约时报》的替代品” 。微软发言人亦暗示:“应当准许AI工具的研发以合法合规的方式进行,它们亦不可替代杂志所装扮的重要角色。”美国路易斯安那州一位版权和剽窃顾问暗示,“倘若法院裁定,未经许可运用文本训练AI确实侵犯了版权,这对AI机构来讲将是一个巨大的打击。由于倘若无广泛的训练集,ChatGPT 等工具就不可能存在。”
AI的爆炸式增长 自 2022 年 11 月ChatGPT发布败兴,AI在学术写作中的运用呈爆炸式增长。7 月更新的一项预印本科研中[3],科研者估计,2024 年上半年发布的生物医学论文中,最少有 10% 的摘要运用了LLM撰写——相当于每年 15 万篇论文。该科研由德国数据专家 Dmitry Kobak 领导,分析了2010-2024 年6 月PubMed中的1400 万篇摘要。Kobak及其同事发掘,相比以英语为母语的国家,中国和韩国等国家的论文表示出更加多运用LLM的迹象。Kobak预测,LLM的运用肯定会继续增多,并且越来越难被发掘。学术写作中不披露软件的运用,不是什么鲜嫩事。自 2015 年败兴,法国图卢兹大学的计算机专家 Guillaume Cabanac等科研者始终在揭露由论文生成软件 SCIgen编写的乱码论文,以及哪些包括“扭曲短语”的论文,这些短语是由于翻译或转换文本的软件所创建。Cabanac 暗示,“在生成式AI显现之前,人们就有了有些瞒天过海的工具。”AI针对学术写作是有价值的。科研者暗示,它能够使文本和概念更清晰,减少语言阻碍,并为科研执行和思考腾出时间。然则,针对那些状况下使用AI会形成抄袭,或违反学术道德,人们仍感到困惑。美国马里兰大学计算机专家 Soheil
Feizi 暗示,运用LLM改写已有论文显然是抄袭,但倘若运用LLM来帮忙表述想法(无论是按照提示生成文本,还是编辑草稿),只要将过程公开,就不应受处罚。“咱们应该准许人们运用LLM更清晰地表达自己的想法”。日前,许多期刊都有在必定程度上准许运用 LLM的政策。在最初禁止运用 ChatGPT 生成文本后,《Science》于 2023 年 11 月更新了其政策,叫作在撰写稿件时需要完全披露AI的运用状况——包含所运用的版本和提示词。作者应对准确性负责,并保证不存在抄袭。《Nature》亦表示,作者应在办法学部分描述 LLM 的运用状况。关联阅读:《Science》更新投稿政策:放宽ChatGPT等AI在论文中的运用限制对 TOP100学术出版商和期刊的分析发掘,截止2023年10月,24%的出版商和87% 的期刊发布了生成式AI的运用指南[4]。几乎所有出版商都暗示,AI工具不可被列为作者。但在准许运用的AI类型和披露程度上,各出版商政策有所区别。Weber-Wulff暗示,关于AI在学术写作中的运用,迫切需要更知道的指南。关联阅读:BMJ:总结TOP100期刊关于ChatGPT等AI的运用指南Abdul-Mageed暗示,日前,LLM在撰写学术论文方面的广泛应用,受到其局限性的限制。用户需要创建仔细的提示词,以描述对象、语言风格和科研行业。然而,Abdul-Mageed 暗示,开发人员正在研发有些应用程序,使科研者更易获取专属的学术内容。在将来,用户将不必编写仔细的提示词,只需简单地从下拉菜单中选取选项,按下按钮,就能够从头起始制作整篇论文。
AI工具的检测 随着LLM在写作行业的快速应用,一系列旨在检测AI运用的工具亦应运而生。尽管许多工具都宣叫作准确率极高——在某些状况下超过 90%。但科研表示,大都数工具并无达到。2023年 12 月发布的一项科研中[5],Weber-Wulff等人评定了学术界广泛运用的 14 种AI检测工具。仅有 5种工具能够准确识别出 70% 及以上的文本,无一种工具的准确率超过 80%。当有人经过同义词替换或将句子重新排序等方式对AI生成的文本进行轻度编辑后,这些工具的准确率下降到平均 50% 以下。作者写道,这般的文本“几乎没法被当前的工具检测到”。其他科研显示,需求AI多次转述文本,亦会大大降低检测的准确率[6]。AI检测还存在其他问题。一项科研显示,检测软件更有可能将非英语母语人士撰写的论文识别为AI生成的[7]。Feizi说,检测软件没法准确区分完全由AI撰写的文本和运用AI润色的文本。区分这些状况既困难又不靠谱,并可能产生海量的误报,这会严重损害关联学者或学生的声誉。本文整理自:https://www.nature.com/articles/d41586-024-02371-z参考文献:1. Sci Eng Ethics. 2015
Oct;21(5):1331-52.2. Foltynek, T. et al. Int. J.
Educ. Integr. 19, 12 (2023).3. Kobak, D., González-Márquez, R.,
Horvát, E.-Á. & Lause, J. Preprint at arXiv https://doi.org/10.48550/arXiv.2406.07016 (2024).4. BMJ. 2024 Jan 31:384:e077192.5. Weber-Wulff,
D. et al. Int. J. Educ. Integr. 19, 26
(2023).6. Sadasivan, V. S., Kumar, A.,
Balasubramanian, S., Wang, W. & Feizi, S. Preprint at arXivhttps://doi.org/10.48550/arXiv.2303.11156 (2023).7. Patterns (N
Y). 2023 Jul 10;4(7):100779.
------分割线------ 医咖会8周岁啦,今年计划推出近10门研究课程(包含R语言绘图、公共数据库挖掘、文献计量学等)。快点击"阅读原文”,来投票你最感兴趣的课程。
|
上一篇:ai写作生成器免费,在线ai写作入口在哪?下一篇:AI智能写作软件,哪一款ai写作工具好?
|