Nature：论文撰写运用AI工具形成抄袭吗？界限在哪里？

4zhvml8 · 发表于 2024-9-28 16:12:09

本文整理自Nature上的一篇文案，原文题目为“AI is complicating plagiarism. How should scientists respond?”今年的学术界抄袭事件频发，1月份哈佛校长因遭受抄袭指控而辞职，2月份又有同行评审意见被揭发存在抄袭行径。关联阅读：同行评审意见，亦存在抄袭行径？在学术写作中，还有一个更大的问题，由生成式人工智能 (AI) 工具的快速普及而诱发，即运用AI工具是不是形成抄袭？在那些状况下准许运用AI工具？ChatGPT等生成式AI工具基于大型语言模型 (LLM) ，能够帮忙节省时间、提高文字表达能力并减少语言阻碍。许多科研者认为，在某些状况下，这些工具应被准许运用，但需要充分披露。然而，此类工具的运用，使得本就充满争议的、怎样合法运用他人作品的讨论变得更加繁杂。LLMs运用海量已发布文案进行训练，并生成文本，因此呢，运用此类工具可能会引起类似抄袭的行径出现。例如，科研者运用AI生成的内容充当自己的成果，或运用AI生成与某些论文内容非常接近的文本，却不注明参考文献。这些工具还可用来掩盖故意抄袭的内容，运用此类工具的行径很难被发掘。2023 年，在一项针对 1600 名科研者的调查中，68% 的受访者暗示，AI将使抄袭更易，亦更难被发掘。德国柏林应用科技大学一位检测抄袭行径的专家 Debora Weber-Wulff 说：“每一个人都担心其他人运用这些工具，又担心自己错失运用的机会”。关联阅读：Nature深度调研：1600名科研者怎样看待和运用ChatGPT等AI工具

当AI遇上抄袭

美国科研诚信办公室将抄袭定义为“未经授权而搬用他人的想法、方法、结果或文字的行径”。2015 年的一项科研表示，1.7%的科研者承认有过抄袭行径，30% 的科研者晓得有人抄袭[1]。LLM的显现，可能会使状况变得更糟。倘若有人运用LLM先对他人的文本进行解释，那样故意抄袭的行径就很容易被掩盖。加拿大计算机学家Muhammad Abdul-Mageed暗示，人们经过提示语能够让AI工具以繁杂的方式进行修改，例如以学术期刊的风格。一个核心问题是，运用完全由AI编写的、未注明源自的内容是不是算作抄袭？许多科研者认为无结论。例如，欧洲学术诚信网（European Network for Academic Integrity）将禁止运用AI或未申报运用AI所进行的写作定义为“未经授权的内容生成”，而不是抄袭[2]。Weber-Wulff说：“对我而言，抄袭指的是源自于一个详细的人的内容。尽管在有些状况下，AI生成的文本与人类书写的内容几乎完全相同，但这一般不足以被视为抄袭。“而另有些人认为，生成式AI工具侵犯了版权。抄袭和侵犯版权都是对他人作品的欠妥运用，抄袭违反了学术道德，而侵犯版权则可能违法。密歇根大学一位计算机专家说：“这些AI系统是创立在数百万、乃至数亿人的工作之上的。”有些媒介机构认为AI侵犯了自己的版权，并提出了抗议。2023 年 12 月，《纽约时报》对科技巨头微软和 OpenAI（ChatGPT的机构）提起了版权诉讼。诉讼叫作，这两家机构复制并运用了数百万篇文案来训练LLM，而这些LLM与原出版物存在内容竞争。提出诉讼的依据是，GPT-4 几乎逐字逐句地复制了期刊文案中的有些段落。2024年 2 月，OpenAI 向联邦法院提出需求驳回部分诉讼，认为“ChatGPT 绝不是订阅《纽约时报》的替代品” 。微软发言人亦暗示：“应当准许AI工具的研发以合法合规的方式进行，它们亦不可替代杂志所装扮的重要角色。”美国路易斯安那州一位版权和剽窃顾问暗示，“倘若法院裁定，未经许可运用文本训练AI确实侵犯了版权，这对AI机构来讲将是一个巨大的打击。由于倘若无广泛的训练集，ChatGPT 等工具就不可能存在。”

AI的爆炸式增长

自 2022 年 11 月ChatGPT发布败兴，AI在学术写作中的运用呈爆炸式增长。7 月更新的一项预印本科研中[3]，科研者估计，2024 年上半年发布的生物医学论文中，最少有 10% 的摘要运用了LLM撰写——相当于每年 15 万篇论文。该科研由德国数据专家 Dmitry Kobak 领导，分析了2010-2024 年6 月PubMed中的1400 万篇摘要。Kobak及其同事发掘，相比以英语为母语的国家，中国和韩国等国家的论文表示出更加多运用LLM的迹象。Kobak预测，LLM的运用肯定会继续增多，并且越来越难被发掘。学术写作中不披露软件的运用，不是什么鲜嫩事。自 2015 年败兴，法国图卢兹大学的计算机专家 Guillaume Cabanac等科研者始终在揭露由论文生成软件 SCIgen编写的乱码论文，以及哪些包括“扭曲短语”的论文，这些短语是由于翻译或转换文本的软件所创建。Cabanac 暗示，“在生成式AI显现之前，人们就有了有些瞒天过海的工具。”AI针对学术写作是有价值的。科研者暗示，它能够使文本和概念更清晰，减少语言阻碍，并为科研执行和思考腾出时间。然则，针对那些状况下使用AI会形成抄袭，或违反学术道德，人们仍感到困惑。美国马里兰大学计算机专家 Soheil Feizi 暗示，运用LLM改写已有论文显然是抄袭，但倘若运用LLM来帮忙表述想法（无论是按照提示生成文本，还是编辑草稿），只要将过程公开，就不应受处罚。“咱们应该准许人们运用LLM更清晰地表达自己的想法”。日前，许多期刊都有在必定程度上准许运用 LLM的政策。在最初禁止运用 ChatGPT 生成文本后，《Science》于 2023 年 11 月更新了其政策，叫作在撰写稿件时需要完全披露AI的运用状况——包含所运用的版本和提示词。作者应对准确性负责，并保证不存在抄袭。《Nature》亦表示，作者应在办法学部分描述 LLM 的运用状况。关联阅读：《Science》更新投稿政策：放宽ChatGPT等AI在论文中的运用限制对 TOP100学术出版商和期刊的分析发掘，截止2023年10月，24%的出版商和87% 的期刊发布了生成式AI的运用指南[4]。几乎所有出版商都暗示，AI工具不可被列为作者。但在准许运用的AI类型和披露程度上，各出版商政策有所区别。Weber-Wulff暗示，关于AI在学术写作中的运用，迫切需要更知道的指南。关联阅读：BMJ：总结TOP100期刊关于ChatGPT等AI的运用指南Abdul-Mageed暗示，日前，LLM在撰写学术论文方面的广泛应用，受到其局限性的限制。用户需要创建仔细的提示词，以描述对象、语言风格和科研行业。然而，Abdul-Mageed 暗示，开发人员正在研发有些应用程序，使科研者更易获取专属的学术内容。在将来，用户将不必编写仔细的提示词，只需简单地从下拉菜单中选取选项，按下按钮，就能够从头起始制作整篇论文。

AI工具的检测

随着LLM在写作行业的快速应用，一系列旨在检测AI运用的工具亦应运而生。尽管许多工具都宣叫作准确率极高——在某些状况下超过 90%。但科研表示，大都数工具并无达到。2023年 12 月发布的一项科研中[5]，Weber-Wulff等人评定了学术界广泛运用的 14 种AI检测工具。仅有 5种工具能够准确识别出 70% 及以上的文本，无一种工具的准确率超过 80%。当有人经过同义词替换或将句子重新排序等方式对AI生成的文本进行轻度编辑后，这些工具的准确率下降到平均 50% 以下。作者写道，这般的文本“几乎没法被当前的工具检测到”。其他科研显示，需求AI多次转述文本，亦会大大降低检测的准确率[6]。AI检测还存在其他问题。一项科研显示，检测软件更有可能将非英语母语人士撰写的论文识别为AI生成的[7]。Feizi说，检测软件没法准确区分完全由AI撰写的文本和运用AI润色的文本。区分这些状况既困难又不靠谱，并可能产生海量的误报，这会严重损害关联学者或学生的声誉。本文整理自：https://www.nature.com/articles/d41586-024-02371-z参考文献：1. Sci Eng Ethics. 2015 Oct;21(5):1331-52.2. Foltynek, T. et al. Int. J. Educ. Integr. 19, 12 (2023).3. Kobak, D., González-Márquez, R., Horvát, E.-Á. & Lause, J. Preprint at arXiv https://doi.org/10.48550/arXiv.2406.07016 (2024).4. BMJ. 2024 Jan 31:384:e077192.5. Weber-Wulff, D. et al. Int. J. Educ. Integr. 19, 26 (2023).6. Sadasivan, V. S., Kumar, A., Balasubramanian, S., Wang, W. & Feizi, S. Preprint at arXivhttps://doi.org/10.48550/arXiv.2303.11156 (2023).7. Patterns (N Y). 2023 Jul 10;4(7):100779.

------分割线------

医咖会8周岁啦，今年计划推出近10门研究课程（包含R语言绘图、公共数据库挖掘、文献计量学等）。快点击"阅读原文”，来投票你最感兴趣的课程。

7wu1wm0 · 发表于 2024-10-10 03:41:49

seo常来的论坛，希望我的网站快点收录。

		自动登录	找回密码
密码			立即注册