2022年5月20日,由中华书局和清华大学中国古典文献科研中心联合发起的“《数字人文》专家面对面”系列讲座活动,邀请到了《数字人文》三位主编:来自清华大学的孙茂松教授、刘石教授和中华书局编审周绚隆执行董事,一起给大众带来第1讲《浅谈人工智能背景下的数字人文》。此次讲座采取线上腾讯会议与“伯鸿读书会”直播相结合的方式,共有一千两百余名师生和学者观看并参与讨论。
中华书局朱翠萍老师首要介绍了“《数字人文》专家面对面”系列讲座的活动,旨在讨论跨学研究究行业的数字人文问题,将以《数字人文》学刊发布的论文成果为线索,邀请作者亲身诠释科研思路和办法,以期更加多专业的人文学者关注数字人文科研成果、利用数字人文方法和手段进行学术科研。
讲座主持人、清华大学人文学院刘石教授介绍了中国数字人文的发展状况,以及《数字人文》的创刊和发展历程。他认为,计算机科学、人工智能和大数据技术的发展使得大数据时代不期而至,技术的发展倒逼咱们提出更高和更激荡人心的目的。在深度学习技术的快速发展下,数字人文正在利用从数字化向知识化的转变,从简单的搜索转向更为繁杂的分析与科研。《数字人文》的口号是“数字使人文更新”,这个“更”字,既是更加,亦是更换的意思。数字人文技术不仅为人文科研带来新的科研材料和科研视野,况且能够更新人文科研的范式和路径。在数字时代,对数字人文的注重必须提升到文化发展战略的高度来看待。
主讲人、清华大学计算机科学与技术系的孙茂松教授首要简单介绍了知识的生产与传播中的有些辩证关系。他提出,知识重点由形式和内容构成,形式包含载体形式和内容形式,而知识的内容重点指知识的思想内涵。从本质上讲,内容决定了知识的深刻度和影响力,形式则对知识的传播度有巨大功效。亦便是说,尽管深刻性非常重要,但它不是独一的标准,知识传播亦特别有价值。
怎么样把人文原始材料提炼转化为适合计算机分析的对象,以及怎么样利用计算机的分析结果来辅助处理人文问题,是数字人文所面临的挑战。数字人文所运用的计算机技术触及的面很广,但可归纳为若干类。从历时方向讲,初期的工作是针对文本,后来逐步扩大到图像、视频、语音、3D等。最早的数字人文工作非常基本、简单,重点是将人文材料数字化,构建数字人文科研的资源基本(这催生了后来的OCR技术),以及利用计算机对已数字化了的文献著作自动创立索引。紧接着是词搜索、排序、词频统计等技术,后来随着计算机关联学科分支的发展,又生发出聚类分析、主题分析、标签标注、自然语言文本分析等与内容相关的分析办法以及可视化设计等数据呈现办法。近些年来,图像、视频、语音以及多模态联合分析办法亦取得了长足进步。但总的来讲,以上技术手段对内容语义的理解能力存在天然不足,完全处理语义问题日前看是不可能的。现有数字人文项目的经验告诉咱们,人工对数据的加工越多,数字人文科研的效果就越好。不外一般数字人文技术重点用于帮忙人类专家从难以驾驭的超大规模数字化人文材料中分析宏观趋势,因此呢语义分析的准确率即使仅有七八成,亦是特别有参考价值的。
深度学习算法重点有两大类:一类是卷积神经网络(CNN),重点用于图像理解;另一类是循环神经网络(RNN)重点用于语言理解。深度学习算法所采用的深层神经网络,结构简洁,规模繁杂。神经元节点之间连接的权重最起始都是随机生成的,随后按照训练数据的误差进行梯度反向传播,重新调节权重来降低误差,循环往复,直到训练结果趋于稳定。数学上已然证明,只要神经网络模型规模足够大,就能够逼近求解任何归类问题。同期还有一条基本法则:要训练出规模足够大的好模型,必定要有足够大的训练数据量,两者互为依存、互为要求。深度学习算法和大数据在这个道理上实现了高度的对立统一。
孙茂松认为,深度学习技术在数字人文行业内能够有非常多应用。最早进入公众视野的是人工智能写诗,其基本过程是循环神经网络对海量已有诗歌数据进行自动分析,经过其内置的重视力机制算出已生成上文中每一个字的重要性,对产生下一个字的概率进行预测。依此逐字向前推进,写出诗歌。所生成诗句的通顺性乃至所生成整首诗的整体一致性是以上机制重点考量的原因。就现有结果而言,计算机在生成短文本方面的性能可圈可点,例如“九歌”对对子,或是生成集句诗,即从历史文本中寻找已有语义类似的句子来匹配组合,都有不错的表现。但针对生成长文本,如短篇小说、散文等,能力还很差。近期有西方学者对计算机写诗质量进行严肃认真的评估,实验设置为:人从计算机自动生成的诗中挑选若干首,再同人写的若干首诗混起来,让其他被试去甄别那些诗是计算机写的,那些诗是人写的。结论是被试难以区分,这显示计算机生成的诗已然差不多能够以假乱真。但该实验观察亦显示,被试对计算机所写诗的喜欢度显著小于人写的诗。这儿面还触及一个非常繁杂、深刻的问题,即计算机写诗能否拥有文学所追求的创新性?从深度学习的机制来看,应该说是有可能的,其原理是基于古代诗歌之大数据,可望让计算机习得古人诗歌各样规律所决定的可能生成空间。这个空间是非常巨大的,古人已然写出来的诗歌,或许只是这个可能空间中的很小一部分,剩余部分应该会有必定机会展现出文学新意。当然,这亦取决于智能算法是不是足够高明,否则很容易落入已有诗歌的模仿和拼凑的“信息茧房”中。倘若采用“机生成+人修改”模式,创新效果更便于发挥出来。深度学习在数字人文的其他应用还有非常多,例如生成绘画作品、按照句子生成图像、设备人绘画、AI作曲等等。
图:一个基于改进重视力机制的计算机诗歌生成基本模型(引自清华大学矣晓沅的博士学位论文)
当然关于数字人文还有非常多其他问题,例如数字人文中的伦理道德问题:计算机产生的“虚情假意”的艺术能被人类接受吗?或人类对数字艺术的宽容度问题:人类能够接受受设备启发或人机一起产生的艺术吗?这些问题有待更加多学者探讨。
最后,孙茂松教授总结道,深度学习本质上并无理解语义,深度学习机制,看穿了便是神经元节点和连接神经元节点之间的权重,其行径呈现出某种智能,但内在机理上却完全无智能。仅有密切结合数字人文的详细问题,妥善运用它,才可够处理有些问题。归根结底,数字人文的核心还是拥有深刻性的人文科研,受囿于人工智能技术的局限性,要达到这个目的,依然任重道远。不外,数字人文与人工智能技术的结合在促进文化思想传播方面的巨大功效,倒是顺水推舟的。
讲座结束后,中华书局执行董事周绚隆进行了简短的评议。他非常肯定孙茂松教授的观点,认为文献科研已然自觉或不自觉地借用了有些数字人文的技术和成果,例如中华书局古联机构的中华经典古籍库等。当然他亦认同,数字技术是基于历史数据的,不可完全处理语义问题,亦不可从基本上实现巨大的突破和创新。但人文创作却必须背叛历史,持续寻求创新。在这方面,人文学术有着数字技术所不可达到的深度和高度。
关于数字人文对学术的影响,他提出,从出版的方向看,近些年来,无论是论文还是书稿,篇幅都比以前要长非常多,一个重点原由是日前的可用资料更加多了,科研的内容自然亦多了。但倘若仅仅把数据库和分析工具的结果不假思索地拿来应用到科研成果上,是非常不可取的。基于数据库的分析结果必定要经过人的干涉,剔除无用和垃圾信息,基于人的科研和需求,寻求和运用有针对性的数据和材料。
他强调,对完全不认识计算机技术的人文学者来讲,孙茂松教授介绍的办法和案例深入浅出,启发性很大。数字人文不是一种学科,而是一种办法,一种认识,有了人文阅读和学习,再经过工具来拓展视野,确实能够提出有些需求,改变有些认识,亦能够为人文科研供给新的科研办法和方向。
在提问环节,听众提出了不少有针对性的问题,孙茂松教授亦一一做了精彩的解答。
最后,刘石教授总结道,数字人文是工程性项目,必须合作,必须海量的人力与财力的投入,期待经过此次讲座,能有更加多人关注数字人文,关注《数字人文》杂志、网站(www.dhlib.cn)以及公众号(DH数字人文),还有即将上线的璇琮数字人文智慧平台,以及古联机构推出的OCR识别系统(ocr.ancientbooks.cn)。当然,更重要是的是期待能够有更加多的人投入到数字人文关联科研中,一起为中国的数字人文发展作出贡献。
源自:光明日报
|