科技日报微X公众号
“太不像话了!学生用人工智能生成的期末论文糊弄我。”近期,上海某高校教师在社交媒介上“吐槽”自己遇到的新困难——有些想偷懒的学生起始用人工智能技术完成论文。
以ChatGPT为表率的生成式人工智能技术(AIGC)横空出世,似乎为人们写论文供给了新助手。从供给选题到文稿润色、从统计分析到图表制作……其功能之强大,几乎覆盖了学术论文写作过程的方方面面。
面对ChatGPT等工具的潜在危害,争议随之而来。不少人质疑,人工智能到底能不可用于辅助学术论文写作。有人认为,它只是加强研究效率的工具。有人则对此持审慎态度,认为容易诱发大规模的学术诚信问题。
人工智能技术在论文写作中的应用程度怎样?技术应用的边界在哪里?怎样对这一技术进行有效治理?科技日报记者对此进行了深入采访。
1
AI生成的文本“非常水”
有多少人尝试过用人工智能技术写论文?去年《自然》杂志对全世界博士后的一项调查发掘,大概三分之一的受访者运用人工智能聊天设备人来优化文本、生成或编辑代码、整理文献。
当记者尝试在社交媒介上搜索“AI”“论文”“写作”等关键词,五花八门的AI论文写作指点教程映入眼帘。其中大部分宣叫作能够教会用户在几分钟内经过几个简单的过程,生成一篇几万字的“优秀”论文。这些教程的浏览量最高已达数百万。
AI真的能生成一篇完整的“优秀”论文吗?记者根据教程起始了尝试:“请提出与民族志纪录片相关的论文选题。”几乎无需等待,几个看起来很“可靠”的选题就出此刻对话框里。
某大语言模型生成的民族志纪录片论文选题。网页截图
“请就某一选题生成写作大纲。”几秒后,7个像模像样的章节所有生成完毕。“请就提纲中某项内容,仔细描述2000字。”重复几次操作后,一篇几万字的“论文”火速就完成为了。但记者浏览后发掘,其生成的段落中,存在大部分重复且言之无物的内容。
除了说“车轱辘”话,某985高校人工智能专业硕士科研生温睿还发掘了此类论文的行文特点:“通常是先写一句话,而后进行分条论述。当老师看到这般招数化的内容就会猜测,这类文案很大程度上是人工智能写的。”
文案开头那位教师的经历印证了温睿的发掘。“这般的论文看似条理清晰、层次丰富,但实质上每一个层面的内容都很少,况且非常空洞。我马上就可疑是AI生成的。”该老师说。
不少期刊编辑、审稿人亦发掘了一样的问题。
某人文社科期刊审稿人徐彬向记者透露,用AI写论文的关键在于提示词。倘若提示词选择的不恰当,就极有可能得到一篇招数化的文案。他日前已然收到过五六篇“一眼就能看出来”用AI写的稿子。
“这些文案的一起特点便是非常水。虽然它生成的语言连贯性不错,然则缺乏深度,创新性亦不强。”对此,徐彬略显无奈,“综述类文案是运用AI的重灾区,但日前期刊还缺乏关联的评估标准和处理机制。”
2
伪造数据集更具隐蔽性
在清华大学人工智能国际治理科研院副院长梁正看来,论文核心评估标准包含作者发挥的创造性、对论文的贡献程度。一篇大部分由AI生成且隐瞒运用状况的文案,既无作者智力的贡献,亦不符合研究诚信的需求,属于学术造假。
AIGC导致的学术造假还出现在数据行业。记者在采访过程中,多位业内专家说到了伪造数据集问题。相比直接的文本生成,这一方式更拥有隐蔽性。
GPT-4的ADA功能是一种结合了计算机编程语言Python的模型,能够执行统计分析和创建数据可视化。梁正向记者讲述了一则真实的案例:国外某公司科研人员先是需求GPT-4 ADA创建一个关于圆锥角膜病人的数据集,后又需求它编造临床数据,用以支持深板层角膜移植术比穿透性角膜移植术效果更好的结论。但真实的临床数据证明,两种手术效果并无显著差别。
“针对某个问题,提出办法来处理,并经过实验来证明办法的可行性——这是专业论文的常用模式。人工智能不可做实验,哪怕它给的实验数据再理想,亦都是虚假的。”温睿认为,虚假的数据背离了科学科研的真正道理。
除了数据处理,更加多人运用AIGC来解释概念。温睿发掘AIGC生成的概念简洁明了,查重率亦非常低。但当记者询问这些概念是不是正确时,温睿显出有些迟疑:“我亦无把握,一般默认它是对的。”
为了验证AIGC给出答案的准确性,记者就有些新兴概念提问,但它给出的答案常常和真正概念毫不沾边。当记者让AI生成5篇某行业的重点参考文献,它又胡编乱造了5个不存在的作者和不存在的文献。
以上作者和论文并不存在。网页截图
在人工智能行业,描述AI“一本正经地胡说八道”的专业名词是“AI幻觉”。哈尔滨工业大学(深圳)特聘校长助理、教授张民解释,AI幻觉指的是AI会生成貌似恰当连贯,但与输入问题意图不一致、与现实或已知数据不符合或没法验证的内容。这大都是因为AI对知识的记忆不足、理解能力不足、训练方式固有的坏处端及模型本身技术的局限性所引起。
“倘若不警觉AI幻觉,特别有可能损害科学科研的真实性和客观性。”梁正暗示,AI生成的错误信息一旦被广泛传播,不仅会导致“学术垃圾”泛滥,还将影响学术生态的良性发展。
3
一场你追我逃的“猫鼠游戏”
一项新技术的显现,针对社会的发展常常是把双刃剑。虽然人工智能技术存在种种隐患,但其在图文创作、数据处理等方面的强大能力已被大都数人认可。“归根结底,咱们认为AI将增多人类的智慧,而非取代人类。其运用应在人类监督之下,并将道德原因思虑在内。”施普林格·自然集团发言人说。
推动AI向善发展,必须借助行之有效的技术手段。值得重视的是,AI生成的论文并不可被查重工具检测出来。因此呢,国内外都在探索开发专门针对AIGC的检测工具。
从原理看,AIGC检测技术是在“用AI打败AI”。同方知网数字出版技术股份有限机构副总经理柯春晓介绍:“人类的创作常常是随机且富有灵感的,而接受过海量文本训练的AI已然形成为了生产文本的‘固有’范式,倾向于运用‘一致’的结构和规则,因此呢拥有更高的可预测性。”AIGC检测的核心便是依托海量的文本和数据样本,识别出人类和AIGC工具在平均句子长度、词汇多样性和文本长度等方面的区别点,从而揪出AI论文“枪手”。
有些期刊出版公司经过检测工具发掘了AIGC代写论文的痕迹。“从去年7月底到此刻,咱们发掘涉嫌AI写作的论文数据每一个月都在提升,大大概六七十篇的文案疑似运用AI的程度超过了50%。”《中华医学杂志》社有限责任机构新媒介部专家沈锡宾介绍。
沈锡宾向记者展示了检测过程:一篇论文经过检测系统后,会表示疑似AI生成占全文比重,关联疑似段落亦会被标红。但记者重视到,和传统的查重报告单知道标注重复痕迹区别,AIGC检测报告单只指的是出某些文本AIGC的“置信度”,并不可回答为何是这个值。
“这使得报告单常常只起到参考和警示功效。”柯春晓说。
日前,人工智能大模型正在以“周”为单位进行迭代升级。怎样适应持续升级的技术,是摆在AIGC检测工具面前的一道必答题。
做为运用者的人类本身亦在持续“进化”。“类似人们逃避查重的方式,倘若人们认识到AI检测的方式,亦能够重新组织关联内容,对AI生成的文本进行人工润色。这般很可能就检测不出来了。”沈锡宾说。
作坏处与反作坏处的过程,实质上是场“猫鼠游戏”。只要技术持续升级,两者间的博弈就不会停止。日前,AIGC检测技术仍处在萌芽期。怎样对AI生成的虚假照片、虚假数据进行识别仍是难点。因此呢,人们引入智能检测技术的同期,亦要创立人工审查机制。
“审稿人要当好‘守门人’,发挥同行评议的功效,仔细甄别判断论文的数据是不是和认知存在偏差。出版公司亦能够需求作者供给原始数据,多管齐下,保证研究诚信。”沈锡宾说。
4
技术向善要他律更要自律
加强技术治理的同期,各方都在翘首以盼,期待达成某些共识以及关联政策尽快出台。“教育、研究、出版各方都很关注AIGC运用的边界,期待对恰当运用AIGC形成一个共识性规范。”知网技术专家呼吁。
其实,早在去年初,中国科学技术信息科研所(以下简叫作中信所)就牵头爱思唯尔、施普林格·自然、约翰威立等国际知名出版集团和研究信息分析公司,在广泛调研并梳理业内关联科研和探索工作的基本上,完成为了中英文版的《学术出版中AIGC运用边界指南》(以下简叫作《指南》),并于去年9月20日在国内外同步发布。
去年12月21日,科技部发布的《负责任科研行径规范指引(2023)》(以下简叫作《指引》)更加是受到了业内的广泛关注。
《指引》和《指南》就怎样负责任地运用AIGC,解答了令研究工作者、期刊编辑、审稿人困惑的有些问题。
首要是披露问题。《指引》提出,运用生成式人工智能生成的内容应知道标注并说明其生成过程,保证真实准确和尊重他人知识产权。《指南》中更加是供给了声明的模板,供研究人员参考。
针对有些人想用AIGC投机取巧的行径,《指引》知道提出,不得运用AIGC直接生成申报材料;《指南》规定,AIGC不该该用来产生科研假设、直接撰写整篇论文文本、解释数据、得出科研结论。研究人员运用的数据必要是科研人员进行实验并收集所得,如运用AIGC供给的统计分析结果需进行验证。
随着AIGC的运用边界持续清晰,越来越多的出版公司达成共识,制定了运用规范。施普林格·自然集团发言人介绍说,她们日前已然知道了相关作者身份和图像方面的规定。例如,人工智能不可担任作者,真正作者如运用大语言模型须加以透明描述,AI生成的图像一般不可用于发布等。
“《科学》杂志在去年1月份发布的政策是禁止运用任何AIGC工具。而11月16日她们更新了投稿规则、放宽了限制,暗示只要进行了适当披露,运用工具是能够接受的。”中信所博士郑雯雯说道。
“《指引》覆盖较为全面,对AIGC的运用总体呈现出平衡包涵、敏捷治理的态度,而非一味禁止。这亦说明治理的目的并不是阻止研究工作者运用新一代人工智能技术,而是让研究工作者能够负责任地去运用。”梁正说到,在政策制定的行径框架之下,还要关注学科差异问题。“运用AIGC可能因学科的区别而有所差异,其伦理问题亦要按照学科特点细化。”
例如,在自然科学行业,AIGC的强大功能更加多表现在数据处理行业,倘若失范运用,常常难以发掘。而针对人文社科行业,直接运用AIGC生成内容的痕迹非常容易被发掘,尤其是在高水平的科研其中,优劣之分更为显著。
“因此呢,针对更加注重文字表达、数据资料支持的学科,例如企业管理、理工科、医学等,必须防范产生虚假的数据集或论证材料。”梁正说,“对AIGC运用的披露程度、疑似度的数据指标等,都必须学术一起体进一步探索,来推动形成广泛共识。”
另外,尽管国家出台了相应的规则,但从外边监督到行业自治还必须一个过程。AIGC的运用触及包括科研人员、出版公司、关联行业组织、政府等方方面面。怎样厘清各方关系,各司其职是关键。“简单说,便是出了问题,谁来查?有无能力查?”郑雯雯强调。
记者认识到,中华医学会杂志社在今年1月9日颁布了其针对AIGC技术运用的相关规定。其中不仅触及了作者要遵守的细则,还提出了查处方式——经编辑部研判的违反AIGC运用的情形,将直接退稿或撤稿;情节严重者,将加入作者学术失信名单。
“咱们下一步的目的是把存在问题的文案作一个归纳总结,进一步摸清AIGC运用的规律,为科学治理累积经验。”沈锡宾说。
“尽管新兴技术有着潜在危害,但亦有着无可比拟的优良,不宜一味封堵,而是要做好引导、恰当合规地运用新技术。”郑雯雯暗示,归根到底,科学科研的主体是人。倘若心中的那杆“秤”倾斜了,即使再完善的监管政策、再高端的检测技术,亦难以抵挡学术不端的侵袭。
梁正亦强调,做为研究诚信的第1责任人,研究人员必定要保持严谨的学术态度,关注科研行业的真问题,坚守学术科研的基本原则,如原创性和透明性;知道认识到ChatGPT等工具的潜在危害,避免运用欠妥而导致学术不端。
“研究诚信和伦理是研究的生命线,研究人员必定要存敬畏、有底线。一旦在这方面有瑕疵,职业生涯或将葬送。”梁正提醒。
(文中温睿、徐彬均为化名)
|