外链论坛

 找回密码
 立即注册
搜索
查看: 75|回复: 0

AI作词随记

[复制链接]

2909

主题

119

回帖

9915万

积分

论坛元老

Rank: 8Rank: 8

积分
99159560
发表于 2024-7-1 11:48:49 | 显示全部楼层 |阅读模式

AI作词研发是一个繁杂的过程,必须运用许多区别的技术和办法。简单做下随记,下面是有些常用的过程

一 数据预处理:首要必须准备海量的歌词数据,并对数据进行预处理,以便为模型供给输入。预处理可能包含删除停用词、标记词性、分词等。

二 模型训练:接下来必须训练一个模型来生成歌词。常用的模型包含循环神经网络(RNN)、长短时记忆网络(LSTM)和变分自编码器(VAE)。

三 模型评定调节:在训练模型之后,必须评定模型的性能,并调节参数以加强生成的歌词的质量。

四 生成歌词:最后,能够运用训练好的模型来生成新的歌词。能够经过输入一段音乐或一段歌词来起步生成过程。

关于第1大点,数据预处理是其中非常要紧的一个过程,决定了数据质量,而数据质量又直接影响模型生成质量。优秀的数据能使模型更好的学习,咱们有以下几个方面能够去做:

1数据收集:首要必须收集海量的歌词数据,这些数据能够从网络上收集或从音乐数据库中获取。例如爬虫:运用爬虫技术从网络上抓取歌词数据。能够运用 Python 的爬虫库,如 Scrapy,来编写爬虫程序。API:运用数据供给供给的 API 来获取数据。例如,能够运用 Genius API 来获取歌词数据。数据库:从音乐数据库中获取歌词数据。例如,能够从 Million Song Dataset 中获取数据。手动收集:手动收集歌词数据。例如,能够手动将歌词输入到文本文件中,乃至GITHUB上能够直接下载中文歌词数据库来直接运用行。其它:能够经过其它方式收集数据,如购买数据集或运用公共数据集。

不管数据源自怎样要紧的是收集的数据越多越好,由于这般模型会更有可能学习到更广泛的语言知识,从而更好地生成歌词,但必须重视的最好是同一语种。

2数据清洗:接下来,必须对数据进行清洗,以删除重复的、用的或缺失的数据。

a删除停用词:为了使模型能够更好地学习,必须删除歌词中的停用词,如 "a","an","the"。

b标记词性:标记词性能够帮忙模型识别单词在句子中的道理,如名词,动词,形容词等。

c分词:将歌词根据单词分割成独立的词汇单元,便于模型学习。

3数据标准化:最后,必须将数据标准化,便于模型处理。例如,将所有字母转换为小写,将所有数字转换为相同的数字符号。

这些过程可能会按照详细的项目和模型进行调节。在数据预处理之后,就能够运用清洗后的数据来训练模型了。能够采用:

a文本生成模型:运用语言模型来生成新的歌词。常用的模型有 RNN (LSTM, GRU),Transformer等

b文本归类模型:运用文本归类模型来识别歌词的情感。常用的模型有CNN,RNN,Transformer等

c数据加强运用数据加强技术来增多数据集的体积,从而加强模型的泛化能力。

d模型融合:运用多种区别的模型结合来加强模型的准确率

e超参数调节调节模型的超参数,以得到最佳性能。

f模型评定运用评定指标如 BLEU, METEOR, ROUGE等来评定模型的性能。

训练歌词模型必须思虑非常多原因,如数据量,模型类型,超参数调节等。一般必须多次迭代和调节才可得到最佳性能的模型。在训练模型时,能够运用区别的数据集和模型类型来得到最佳性能。例如,能够运用区别的语言模型,如 RNN, LSTM, GRU等来训练模型。可以运用区别的优化器,如 Adam, Adagrad等来优化模型。

另一,在训练模型时能够运用数据加强技术来增多数据集的体积,从而加强模型的泛化能力。数据加强常用的办法包含:随机翻转、旋转、平移等。

最后,在生成歌词时能够运用模型融合的办法加强模型的准确率,例如运用若干种区别的模型结合来生成歌词.

总之, AI作词是一个繁杂的过程,必须思虑许多原因,如数据量,模型类型,超参数调节等。经过持续迭代和调节能够得到高质量的歌词生成模型。

接下来模型有了,怎样进行歌词模型评定呢?

a BLEU 指标是自然语言处理行业中常用的评定指标之一。它测绘生成的歌词与参考歌词之间的类似度。

b METEOR 指标

回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

站点统计|Archiver|手机版|小黑屋|外链论坛 ( 非经营性网站 )|网站地图

GMT+8, 2024-10-19 06:23 , Processed in 1.421359 second(s), 37 queries .

Powered by Discuz! X3.4

Copyright © 2001-2023, Tencent Cloud.