AI作词随记

esc0rp · 发表于 2024-7-1 11:48:49

AI作词研发是一个繁杂的过程，必须运用许多区别的技术和办法。简单做下随记，下面是有些常用的过程：

一数据预处理：首要必须准备海量的歌词数据，并对数据进行预处理，以便为模型供给输入。预处理可能包含删除停用词、标记词性、分词等。

二模型训练：接下来必须训练一个模型来生成歌词。常用的模型包含循环神经网络（RNN）、长短时记忆网络（LSTM）和变分自编码器（VAE）。

三模型评定调节：在训练模型之后，必须评定模型的性能，并调节参数以加强生成的歌词的质量。

四生成歌词：最后，能够运用训练好的模型来生成新的歌词。能够经过输入一段音乐或一段歌词来起步生成过程。

关于第1大点，数据预处理是其中非常要紧的一个过程，决定了数据质量，而数据质量又直接影响模型生成质量。优秀的数据能使模型更好的学习，咱们有以下几个方面能够去做：

1数据收集：首要必须收集海量的歌词数据，这些数据能够从网络上收集或从音乐数据库中获取。例如爬虫：运用爬虫技术从网络上抓取歌词数据。能够运用 Python 的爬虫库，如 Scrapy，来编写爬虫程序。API：运用数据供给商供给的 API 来获取数据。例如，能够运用 Genius API 来获取歌词数据。数据库：从音乐数据库中获取歌词数据。例如，能够从 Million Song Dataset 中获取数据。手动收集：手动收集歌词数据。例如，能够手动将歌词输入到文本文件中，乃至GITHUB上能够直接下载中文歌词数据库来直接运用亦行。其它：亦能够经过其它方式收集数据，如购买数据集或运用公共数据集。

不管数据源自怎样，要紧的是收集的数据越多越好，由于这般模型会更有可能学习到更广泛的语言知识，从而更好地生成歌词，但必须重视的最好是同一语种。

2数据清洗：接下来，必须对数据进行清洗，以删除重复的、没用的或缺失的数据。

a删除停用词：为了使模型能够更好地学习，必须删除歌词中的停用词，如 "a"，"an"，"the"。

b标记词性：标记词性能够帮忙模型识别单词在句子中的道理，如名词，动词，形容词等。

c分词：将歌词根据单词分割成独立的词汇单元，便于模型学习。

3数据标准化：最后，必须将数据标准化，便于模型处理。例如，将所有字母转换为小写，将所有数字转换为相同的数字符号。

这些过程可能会按照详细的项目和模型进行调节。在数据预处理之后，就能够运用清洗后的数据来训练模型了。能够采用：

a文本生成模型：运用语言模型来生成新的歌词。常用的模型有 RNN (LSTM, GRU)，Transformer等

b文本归类模型：运用文本归类模型来识别歌词的情感。常用的模型有CNN,RNN,Transformer等

c数据加强：运用数据加强技术来增多数据集的体积，从而加强模型的泛化能力。

d模型融合:运用多种区别的模型结合来加强模型的准确率

e超参数调节：调节模型的超参数，以得到最佳性能。

f模型评定：运用评定指标如 BLEU, METEOR, ROUGE等来评定模型的性能。

训练歌词模型必须思虑非常多原因，如数据量，模型类型，超参数调节等。一般必须多次迭代和调节才可得到最佳性能的模型。在训练模型时，能够运用区别的数据集和模型类型来得到最佳性能。例如，能够运用区别的语言模型，如 RNN, LSTM, GRU等来训练模型。亦可以运用区别的优化器，如 Adam, Adagrad等来优化模型。

另一，在训练模型时能够运用数据加强技术来增多数据集的体积，从而加强模型的泛化能力。数据加强常用的办法包含：随机翻转、旋转、平移等。

最后,在生成歌词时能够运用模型融合的办法来加强模型的准确率,例如运用若干种区别的模型结合来生成歌词.

总之, AI作词是一个繁杂的过程，必须思虑许多原因，如数据量，模型类型，超参数调节等。经过持续迭代和调节，能够得到高质量的歌词生成模型。

接下来模型有了，怎样进行歌词模型评定呢？

a BLEU 指标是自然语言处理行业中常用的评定指标之一。它测绘生成的歌词与参考歌词之间的类似度。

b METEOR 指标

b1gc8v · 发表于 2024-10-29 11:58:55

对于这个问题，我有不同的看法...

qzmjef · 发表于 2024-11-3 06:56:15

太棒了、厉害、为你打call、点赞、非常精彩等。

wrjc1hod · 发表于 2024-11-5 17:32:42

楼主的文章深得我心，表示由衷的感谢！

nqkk58 · 发表于昨天 09:43

我完全同意你的观点，说得太对了。

		自动登录	找回密码
密码			立即注册