AI诗人的十四行诗，能赛过莎翁的吗？

nykek5i · 发表于 2024-8-18 23:52:42

人工智能创作简史

这是莎士比亚第18首十四行诗中的一个诗节：

Shall I compare thee to a summers day?

thou art more lovely and more temperate:

rough winds do shake the darling buds of May,

and summers lease hath all too short a date

我可能把你和夏天相比拟？

你比夏天更可爱更温和：

暴风会把五月的花苞吹落地，

夏天亦嫌太短促，匆匆而过*

*译者注

本文中显现的莎士比亚十四行诗中文译作除非尤其说明，均为梁实秋译本。

- John Burningham -

这是由人工智能程序Deep-speare创作的十四行诗：

Yet in a circle pallid as it flow,

by this bright sun, that with his light display,

rolld from the sands, and half the buds of snow,

and calmly on him shall infold away

它流淌，在苍白的旋涡中

路过明媚的阳光，他的光辉闪耀

最终滚落在细沙上，雪般的花蕾含苞待放

轻覆其身，悄然而逝

仔细阅读Deep-speare写的诗，你可能会察觉到一丝荒谬，不外它倒确实遵循章法，用英文老师的话来讲便是，乍看之下这首诗歌每一行的节奏、韵律和基本语法都还挺像那样一回事。正如该科研团队发掘的那样，当向全世界展示AI创作的诗歌时，不少人都被糊弄过去了——大都数读者没法区掰开AI生成的诗和人类作者写出的作品。

该团队由三位设备学习科研人员和一名文学学者构成，运用古腾堡工程在线图书馆（Project Gutenberg）收录的2700首十四行诗来训练AI诗人。该AI诗人利用被叫作为深度学习的AI办法，对训练数据库中的诗歌进行挖掘，持续地“冥思苦想”出与样本匹配的诗句，自己学会作诗的。她们并无像以往类似的项目同样，给AI诗人输入韵律、发音方面的字典等资源，然而，Deep-speare靠着摸索，自己学会了十四行诗写作的三大要素：节奏、韵律，和自然语言的基本原理（即怎样将词汇流畅地衔接在一块）。

*译者注

古腾堡工程（Project Gutenberg），是一项志愿工作，致力于将文化作品的数字化和归档，以“鼓励创作和发行电子书”为其宗旨。该工程肇始于1971年，是最早的数字图书馆。截止2012年7月，古腾堡工程声叫作超过40,000件馆藏。

该团队的目的是探索深度学习在生成自然语言上能做到何种程度，以及怎样充分利用诗歌的有趣特质。尤其是像十四行诗这般的诗歌，其节奏和韵律有着刻板和规整的模式，想晓得是不是能够经过设计系统体系，让Deep-speare自主学习此类模式。

这一切的奋斗离不开计算创造力行业的蓬勃发展。一幅由AI创作出的肖像画曾在纽约佳士得（Christie’s）拍卖行以43.2万美元的价格成交；AI作曲项目DeepBach创作的巴赫风格音乐作品足以让人信以为真；而在雕塑和舞蹈的行业，亦能看见AI的身影。除此之外，在语言和文学方面，来自OpenAI实验室的GPT-2文本生成系统凭实力证明了人工智能能够仅经过开头句，就能生产出相当流畅的文本段落。

*译者注

计算创造力（computatinal creativity, 亦叫作为人工智能创造力，设备创造力或创造力计算学）是一项跨学科的科研行业，位置于人工智能，认知心理学，哲学和艺术行业的交汇处。

- Fran Horne -

在过去的十年里，正是深度学习的蓬勃发展才使得这些关于计算创造力的实验作为可能。深度学习拥有创作追求的几个关键优良：对初学者来讲，它非常灵活，况且亦能相对容易地训练出能执行各样任务的深度学习系统（咱们叫作之为模型）。这些模型善于发掘模式，并从中进行总结归纳——有时候乃至会产生令人惊奇的结果，而这种优良亦被叫作为“偶发创造力”。同期，深度学习算法内在原因的随机性会引起输出结果的千变万化。这种结果上的千变万化倘若能够被人类协作者耐心地筛出，那样这种可变性将非常适合创造性应用。不仅如此，深度算法还能相对容易地创立可处理区别类型数据的模型，包含文本、语音、文字和视频等。

一首诗是怎样被写出来的?

关于自然语言处理模型

十四行诗最重点有两个特点：14行的长度，和由两部分构成的“论证”结构。后者指的是诗人通常会在诗歌的前半部分提出一个问题，而后用结尾的部分来解答这个疑惑。在十六世纪，英国诗人采用“五步抑扬格”（iambia pentameter）的节奏方式来创作诗歌，即一行诗歌持有10个音节（5个音步）的轻重音节奏。一般，一首十四行诗由三个用来提出“问题”的四行诗（quatrain）和末尾的对偶句（couplet）形成，诗歌的韵律常为「ABAB CDCD EFEF GG」。在莎士比亚手里，此种韵律形式运用到了最纯熟的地步，以至于今天咱们都叫作其为“莎士比亚体之十四行诗”。

在Deep-speare项目组中，咱们试图生成莎士比亚十四行诗前半部分的“发问”段落中的一段四行诗。因此呢，相比于简单复制诗歌的十四行形式或结尾的两行“论证”的诗句，咱们更专注于生成遵循“五步抑扬格”和韵律的文本。咱们亦许会在将来的某天继续解决这个更难的挑战，但日前咱们更必须证明的是AI诗人具备产生一段单独的四行诗的能力。

Deep-speare采用了三种自然语言处理模型进行创作，它们分别是经过评定备选单词的概率选取合适单词的语言模型、评定每行诗歌的节奏的节奏模型，以及保证每行诗歌都遵循韵律的韵律模型。

AI诗人会随机选取一种经典韵律来创作诗节。例如下图这个例子，它就采用了“ABBA”的押韵方式，即在一个四行的诗节其中，首尾两行押韵，中间两行押韵。在把握这个模版之后，它以一个令人惊讶的方式起始生成这首诗歌——从最后一行的最后一个单词起始，从右到左生成符合规律的文本。

1. 在上图的例子“from pardon to him, who will stand and wait”中，Deep-speare首要从句末的“wait”这个单词起始生成文本，利用以上说到的概率处理模型，针对词语的选取，它先思虑了所有英文词汇出此刻该位置的可能性，选出其中排名前五的候选单词。然而，模型并不会直接运用概率最大的单词，而是从五个单词里面随机选取一个。

2. 以退为进，AI诗人经过对每一个词倒推来进行文本生成，而每一个候选单词的概率得分表示了单词之间相邻关系和出此刻同一句子中的概率（如下图所示）。

3. 利用这般的办法，AI诗人生产了许多候选诗句，接下来节奏模型会给它们打分，找出符合“五步抑扬格”节奏规律的诗句。

Shall I behold him in his cloudy state

for just but tempteth me to stay and pray

a cry: if it will drag me, find no way

怎么忍心看他愁云惨雾伤悲

耿耿于怀的我驻足祈祷安慰

只怕眼泪来袭我没法应对

4. 以退为进、从后往前，AI诗人持续重复这般的过程，以从最后一句到第1句的方式，继续生成文本。

5. 在寻找合适的单词来给第二句和第1句诗结尾时(“pray” 和 “state”)，AI诗人会给候选单词的“押韵度”评分，找到与“way”和 “wait”押韵的辞藻。

总的来讲，咱们的系统由三个部分构成：一个学会了“五步抑扬格”的节奏模型，一个学会了词汇押韵的模型，以及一个学会了词与词之间的经典搭配的语言模型，其中语言模型是能够逐字生成十四行诗的最重点部分。

-Vera Molnar -

语言模型会经过概率评分的办法，对任意语句进行排名，判断那些语句在某种语言之中是正确的（在咱们的例子中是英语）。经过适当训练的语言模型会赋予流利的句子较高的概率分，给无道理的句子较低的概率分。思虑到语言生产和理解方式通常是逐词进行，这个原理实质上准许咱们把更繁杂的、句子层面上的问题分解成单词层面的简单问题。因此呢，语言模型的工作便是经过部分句子预测下一个单词是什么。为了进行这种预测，模型会查询所有可能的单词并给予它们概率分数，而这些分数取决于日前句子中已有的词汇。

语料库

一般，自然语言模型会经过语料库的单词和句子判断文本的显现概率，而语料库的内容能够来自维基百科词条，Reddit中的讨论，或者专门用于训练语言处理的语料库。从文字库中，人工智能能够学习那些单词是最常一块显现的。而在咱们的Deep-speare项目中，AI诗人先是从在线图书馆Project Gutenberg收录的所有诗歌中学会了语言运用的基本课程，而后再经过包括了36.7万个单词的2700首莎士比亚十四行诗来进一步打磨它的十四行诗写作能力。

人们对下一个单词的“惊奇”程度能够被用于衡量一个语言模型的质量。倘若下一个单词被赋予了很高的概率分数，这说明这个单词的显现比较符合规律，因此并不会让人感到惊讶；但倘若被赋予了很低的概率分数，那样人们在读到这个单词的时候，会感到非常不自然。这种惊奇程度在训练模型的过程中被当成重要的信号。因此呢，当咱们每次都经过海量文本来处理每一个词汇，况且模型不会对连在一块的词汇感到惊讶，那样咱们便能够认为，这个模型已然很大程度上把握了语言的繁杂性了。而这就包含能够正确运用“San Francisco”这般由多单词形成的词组而不拆开它们、遵循必定句式和语法结构，以及判断较为繁杂的语义和规律信息（例如，咖啡常常用“浓”和“淡”，而不会用“强壮”和“轻便”来修饰）等原则。

一旦语言模型被训练好了，无中生有地生成单句或多条诗句就再也不是难事了。

- Tom Phillips -

接下来，咱们让节奏模型遵守每行诗歌要有10个以轻音重音的模式结合音节的规律，而后，它会检测每一个单词的字母和句子的标点符号，经过字母决定音节该怎样分配，哪一个音节要归类为重音。例如“summer”一词有两个音节，“sum”是重音，“mer”是轻音，当Deep-speare在写四行诗时，语言模型会生成候选诗句，节奏模型会从中选出符合“五步抑扬格”的一句，而后再重复这一过程，生成下一行诗句。

韵律模型亦是从过去的十四行诗集中含英咀华学会的，但它只会看每行最后一个单词的字母。在训练过程中，咱们告诉模型，在四行诗中的每句诗的最后一个词都必须押韵，而后咱们让它找出哪些词中最类似的词，越是类似的单词，就越有可能押韵。以莎士比亚的诗歌为例子，“day”和“May”的押韵分数很高，“temperate”和“date”亦是如此。

一旦Deep-speare被训练好并准备创作，咱们会给它供给莎士比亚十四行诗中三个最经典的韵律模版来从中选取：AABB, ABBA, ABAB。在写作过程中，语言模型会先随机选择其中一个模板，再逐词地产生诗句，当写到了应该押韵的单词时，它会为押韵模型供给多个候选单词。

下面有两个例子能够很好地解释Deep-speare生产文本的过程。第1篇文本是由于稍微训练过的模型所创作的，它初步把握了韵律，但尚未找到节奏，且诗歌读起来并不是很通顺。

by complex grief’s petty nurse. had wise upon

along

came all me’s beauty, except a nymph of song

to be in the prospect, he th of forms i join

and long in the hears and must can god to run

由繁杂的哀痛的漂亮小护士

来吧我所有的漂亮，除了一首歌

在光明的将来里，我加入的形式

长期聆听，必要让上帝奔跑

第二篇文本则是由于训练臻于完善的模型生成的，相较第1篇能够看出，它取得了很大的进步。它ABBA的韵律是正确的，遵循了“五步抑扬格”，语言不仅流畅，还颇有诗意！

shall i behold him in his cloudy state

for just but tempteth me to stop and pray

a cry: if it will drag me, find no way

from pardon to him, who will stand and wait

怎么忍心看他愁云惨雾伤悲

耿耿于怀的我驻足祈祷安慰

只怕眼泪，来袭我没法应对

谁得宽恕，谁又将驻足等待

AI诗人写的诗到底好欠好？

在检验Deep-speare的输出结果时，咱们首要要保证它无复制语料库里的原句。咱们发掘，它作品中的诗句并未和训练数据有很大重叠，因此呢，咱们相信AI诗人不是单靠复制粘贴产生作品的，它的诗歌能够说都是原创的。

不外，原创并不是质量好的代名词，为了检验作品质量，咱们请了人类评委进行分析，她们来自两个区别的背景。第1组评委是亚马逊Mechanical Turk平台雇佣的众包工人，她们只会基本的英语，无诗歌方面的专业知识。咱们向她们同期展示AI诗人和人类诗人写的十四行诗，并让她们指出哪一首是人类写的。

- Camilo Huinca -

但第1次的检验结果令咱们感到大失所望，由于工人们能够近乎完美指出哪首是人类诗歌！看上去设备学习的结果显然不符合人们的鉴赏标准。那这么一来，咱们AI诗人的科研之路是不是就到此为止了？

接着，咱们思考了这近乎百分百识别率背面的原由或许是——第1组评委作坏处了。咱们的语料库来自古腾堡工程在线图书馆，因而文本都是能够被搜到的，于是咱们在想，会不会是她们复制了待判断的诗歌，再到网上去搜是谁写的？抱着这种猜测，咱们的科研人员亦依葫芦画瓢，测试了一番，事实证明咱们是对的——人类诗歌作品总是能够搜到有些结果，达到百分百鉴别率是轻而易举的事情。

为了防止评委们耍小技巧作坏处，咱们把所有的待鉴别诗歌都转换为图像，再让她们指出哪首是人类诗歌作品。看！这次她们的正确率从近乎百分百下降到了百分之五十，这说明她们没法准确地区分人类和设备人的诗歌作品。尽管咱们还是没法阻止所有人不去手动输入诗歌再谷歌一下结果，但手动查询确实必须花费不少时间。总的来讲，这次正确率的下降说明了AI诗人的作品在某种程度上，确实能够以假乱真。

咱们的第二位评委是多伦多大学文学助理教授亚当·哈蒙德（Adam Hammond）。与第1组评委的测试过程区别，第二次质量检验再也不是猜测游戏。相反，哈蒙德将会收到混合着人工和设备创作的诗歌，并从韵律、节奏、可读性和情感影响力这四个维度对它们进行打分。

他给了Deep-speare十四行诗很高的韵律分和节奏分，实质上，与人类写作的十四行诗相比，它们在韵律和节奏上的评分更高。对这个结果，哈蒙德亦并不感到惊讶，他认为人类诗人经常打破规律来取得有些诗歌效果。反倒是在可读性和情感影响力上，AI诗人则显著逊色了不少，文学专家能够轻易经过这两个方面指出哪首是设备的创作。

AI写诗的能力是幻想？

Deep-speare项目最有趣的地区之一是它导致的轰动。咱们在2018年计算语言学学术会议上做完报告之后，世界各地的资讯媒介报告了这个成果。非常多文案都引用了以下的诗节，以证明AI诗人Deep-speare能够创造像人类创造的诗歌：

With joyous gambols gay and still array,

no longer when he ’twas, while in his day

at first to pass in all delightful ways

around him, charming, and of all his days.

当哈蒙德在BBC广播电台接受采访的时候，主持人朗读了这个段落并问他的看法，哈蒙德则反问主持人是不是有重视到诗歌中显著的语法错误“he ’twas”来做为“he it was”（不成立的表达）的缩写，主持人暗示她并没重视到。

社会专家雪莉·特克尔（Sherry Turkle）把人们忽略人工智能的显著错误，却依然感慨其成就的现象叫作为“伊莉莎效应”（the Eliza effect）。换句话说，人们能够过度诠释设备产生的结果，乃至读出来本来不存在的意义。这个现象最早能够追溯到十九世纪六十年代，在麻省理工大学，计算机专家约瑟夫·维森鲍姆（Joseph Weizenbaum）研发了第1个聊天设备人伊莉莎（Eliza），它会模仿心理治疗师的说话方式。尽管这个程序相当粗糙，还有很大的局限性，但维森鲍姆惊讶地发掘用户轻易地就被设备人“诈骗”了。在七十年代，做为维森鲍姆同事的特克尔发掘，乃至哪些明知伊莉莎程序有缺陷的科研生亦会向设备抛出问题，并期待它以近似正一般人类的方式去回答。

特克尔把伊莉莎效应叫作为“数字幻想中的人类同谋”，而这看起来亦能够解答人们对Deep-speare诗歌作品的赞叹反应。公众太期盼这些十四行诗能够用于证明人工智能的力量，以至于忽略了哪些与之相悖的证据。

这种蓄意的误解可能会对AI诗人真正的能力发展导致阻碍。咱们还在连续进行AI诗人的项目，目的之一便是提高咱们AI诗人作品的可读性和情感影响力。而想要提高整体的流畅度，其中一个策略是利用大范围的语料库（例如全部维基百科）去“预训练”语言模型，让它能够在一段较长的叙述中更好把握词汇显现的规律。在这个基本上，咱们再进一步对它进行十四行诗文本生成的训练。

- Tomasz Woźniakowski -

咱们一样亦在思考，人类诗人是怎样创作诗歌的：她们总不会在桌子旁正襟危坐，思考着“我第1个单词应该是什么”，而后冥思苦想，思考下一个单词该接什么好。相反，她们都是心中先构思出一个主题或一段故事，再经过单词和句子表达所思所想。其实在Deep-speare项目中，咱们已然做到了让AI诗人按照给定的主题来生成关联的文本，例如让它创作主题是“爱”或“失去”的诗句。让设备根据必定的主题，亦许会提高诗歌的流畅度，但与此同期，它的词汇选取将不会那样丰富，由于它总要先学习那些词汇符合某些主题。之后，咱们计划运用更加多分层的语言模型进行实验，先为诗歌生成高级叙事，再在这个框架下生成每一个词汇——就如人类思考的路径同样。