esc0rp 发表于 2024-7-1 11:48:49

AI作词随记


    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">AI作词<span style="color: black;">研发</span>是一个<span style="color: black;">繁杂</span>的过程,<span style="color: black;">必须</span><span style="color: black;">运用</span>许多<span style="color: black;">区别</span>的技术和<span style="color: black;">办法</span>。简单做下随记,下面是<span style="color: black;">有些</span>常用的<span style="color: black;">过程</span>:</p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">一 数据预处理:<span style="color: black;">首要</span><span style="color: black;">必须</span>准备<span style="color: black;">海量</span>的歌词数据,并对数据进行预处理,以便为模型<span style="color: black;">供给</span>输入。预处理可能<span style="color: black;">包含</span>删除停用词、标记词性、分词等。</p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">二 模型训练:接下来<span style="color: black;">必须</span>训练一个模型来生成歌词。常用的模型<span style="color: black;">包含</span>循环神经网络(RNN)、长短时记忆网络(LSTM)和变分自编码器(VAE)。</p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">三 模型<span style="color: black;">评定</span><span style="color: black;">调节</span>:在训练模型之后,<span style="color: black;">必须</span><span style="color: black;">评定</span>模型的性能,并<span style="color: black;">调节</span>参数以<span style="color: black;">加强</span>生成的歌词的质量。</p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">四 生成歌词:最后,<span style="color: black;">能够</span><span style="color: black;">运用</span>训练好的模型来生成新的歌词。<span style="color: black;">能够</span><span style="color: black;">经过</span>输入一段音乐或一段歌词来<span style="color: black;">起步</span>生成过程。</p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">关于<span style="color: black;">第1</span>大点,数据预处理是其中非常<span style="color: black;">要紧</span>的一个<span style="color: black;">过程</span>,决定了数据质量,而数据质量又直接影响模型生成质量。<span style="color: black;">优秀</span>的数据能使模型更好的学习,<span style="color: black;">咱们</span>有以下几个方面<span style="color: black;">能够</span>去做:</p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">1数据收集:<span style="color: black;">首要</span><span style="color: black;">必须</span>收集<span style="color: black;">海量</span>的歌词数据,这些数据<span style="color: black;">能够</span>从网络上收集或从音乐数据库中获取。<span style="color: black;">例如</span>爬虫:<span style="color: black;">运用</span>爬虫技术从网络上抓取歌词数据。<span style="color: black;">能够</span><span style="color: black;">运用</span> Python 的爬虫库,如 Scrapy,来编写爬虫程序。API:<span style="color: black;">运用</span>数据<span style="color: black;">供给</span>商<span style="color: black;">供给</span>的 API 来获取数据。例如,<span style="color: black;">能够</span><span style="color: black;">运用</span> Genius API 来获取歌词数据。数据库:从音乐数据库中获取歌词数据。例如,<span style="color: black;">能够</span>从 Million Song Dataset 中获取数据。手动收集:手动收集歌词数据。例如,<span style="color: black;">能够</span>手动将歌词输入到文本文件中,<span style="color: black;">乃至</span>GITHUB上<span style="color: black;">能够</span>直接下载中文歌词数据库来直接<span style="color: black;">运用</span><span style="color: black;">亦</span>行。其它:<span style="color: black;">亦</span><span style="color: black;">能够</span><span style="color: black;">经过</span>其它方式收集数据,如购买数据集或<span style="color: black;">运用</span>公共数据集。</p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">不管数据<span style="color: black;">源自</span><span style="color: black;">怎样</span>,<span style="color: black;">要紧</span>的是收集的数据越多越好,<span style="color: black;">由于</span><span style="color: black;">这般</span>模型会更有可能学习到更广泛的语言知识,从而更好地生成歌词,但<span style="color: black;">必须</span><span style="color: black;">重视</span>的最好是同一语种。</p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">2数据清洗:接下来,<span style="color: black;">必须</span>对数据进行清洗,以删除重复的、<span style="color: black;">没</span>用的或缺失的数据。</p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"> a删除停用词:为了使模型能够更好地学习,<span style="color: black;">必须</span>删除歌词中的停用词,如 "a","an","the"。</p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"> b标记词性:标记词性<span style="color: black;">能够</span><span style="color: black;">帮忙</span>模型识别单词在句子中的<span style="color: black;">道理</span>,如名词,动词,形容词等。</p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"> c分词:将歌词<span style="color: black;">根据</span>单词分割成独立的词汇单元,便于模型学习。</p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">3数据标准化:最后,<span style="color: black;">必须</span>将数据标准化,便于模型处理。例如,将所有字母转换为小写,将所有数字转换为相同的数字符号。</p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">这些<span style="color: black;">过程</span>可能会<span style="color: black;">按照</span><span style="color: black;">详细</span>的项目和模型进行<span style="color: black;">调节</span>。在数据预处理之后,就<span style="color: black;">能够</span><span style="color: black;">运用</span>清洗后的数据来训练模型了。<span style="color: black;">能够</span>采用:</p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"> a文本生成模型:<span style="color: black;">运用</span>语言模型来生成新的歌词。常用的模型有 RNN (LSTM, GRU),Transformer等</p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">b文本<span style="color: black;">归类</span>模型:<span style="color: black;">运用</span>文本<span style="color: black;">归类</span>模型来识别歌词的情感。常用的模型有CNN,RNN,Transformer等</p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"> c数据<span style="color: black;">加强</span>:<span style="color: black;">运用</span>数据<span style="color: black;">加强</span>技术来<span style="color: black;">增多</span>数据集的<span style="color: black;">体积</span>,从而<span style="color: black;">加强</span>模型的泛化能力。</p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"> d模型融合:<span style="color: black;">运用</span>多种<span style="color: black;">区别</span>的模型结合来<span style="color: black;">加强</span>模型的准确率</p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"> e超参数<span style="color: black;">调节</span>:<span style="color: black;">调节</span>模型的超参数,以<span style="color: black;">得到</span>最佳性能。</p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">f模型<span style="color: black;">评定</span>:<span style="color: black;">运用</span><span style="color: black;">评定</span>指标如 BLEU, METEOR, ROUGE等来<span style="color: black;">评定</span>模型的性能。</p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">训练歌词模型<span style="color: black;">必须</span><span style="color: black;">思虑</span><span style="color: black;">非常多</span><span style="color: black;">原因</span>,如数据量,模型类型,超参数<span style="color: black;">调节</span>等。<span style="color: black;">一般</span><span style="color: black;">必须</span>多次迭代和<span style="color: black;">调节</span><span style="color: black;">才可</span>得到最佳性能的模型。在训练模型时,<span style="color: black;">能够</span><span style="color: black;">运用</span><span style="color: black;">区别</span>的数据集和模型类型来<span style="color: black;">得到</span>最佳性能。例如,<span style="color: black;">能够</span><span style="color: black;">运用</span><span style="color: black;">区别</span>的语言模型,如 RNN, LSTM, GRU等来训练模型。<span style="color: black;">亦</span>可以<span style="color: black;">运用</span><span style="color: black;">区别</span>的优化器,如 Adam, Adagrad等来优化模型。</p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">另一</span>,在训练模型时<span style="color: black;">能够</span><span style="color: black;">运用</span>数据<span style="color: black;">加强</span>技术来<span style="color: black;">增多</span>数据集的<span style="color: black;">体积</span>,从而<span style="color: black;">加强</span>模型的泛化能力。数据<span style="color: black;">加强</span>常用的<span style="color: black;">办法</span><span style="color: black;">包含</span>:随机翻转、旋转、平移等。</p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">最后,在生成歌词时<span style="color: black;">能够</span><span style="color: black;">运用</span>模型融合的<span style="color: black;">办法</span>来<span style="color: black;">加强</span>模型的准确率,<span style="color: black;">例如</span><span style="color: black;">运用</span>若干种<span style="color: black;">区别</span>的模型结合来生成歌词.</p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">总之, AI作词是一个<span style="color: black;">繁杂</span>的过程,<span style="color: black;">必须</span><span style="color: black;">思虑</span>许多<span style="color: black;">原因</span>,如数据量,模型类型,超参数<span style="color: black;">调节</span>等。<span style="color: black;">经过</span><span style="color: black;">持续</span>迭代和<span style="color: black;">调节</span>,<span style="color: black;">能够</span>得到高质量的歌词生成模型。</p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">接下来模型有了,<span style="color: black;">怎样</span>进行歌词模型<span style="color: black;">评定</span>呢?</p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"> a BLEU 指标是自然语言处理<span style="color: black;">行业</span>中常用的<span style="color: black;">评定</span>指标之一。它<span style="color: black;">测绘</span>生成的歌词与参考歌词之间的<span style="color: black;">类似</span>度。</p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">b METEOR 指标</p>




页: [1]
查看完整版本: AI作词随记