nykek5i 发表于 2024-7-1 00:40:11

大道至简:这一轮人工智能(AI)突破的原由其实很「简单」


    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">大道至简,本文用通俗易懂的语言解释了Transformer的核心原理,<span style="color: black;">针对</span><span style="color: black;">咱们</span>这种<span style="color: black;">无</span><span style="color: black;">基本</span>的普通人,<span style="color: black;">亦</span>是能快速理解的,<span style="color: black;">亦</span>能对当前的大模型有更深入的认识。</p>

    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><img src="https://q9.itc.cn/q_70/images03/20240501/2c35560c45044deda6472540cc2e70bc.jpeg" style="width: 50%; margin-bottom: 20px;"></p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">过去几年中,人工智能(AI)技术的澎湃发展引领了一场前所未有的工业和科技革命。在这场革命的前沿,以OpenAI的GPT系列为<span style="color: black;">表率</span>的大型语言模型(LLM)<span style="color: black;">作为</span>了<span style="color: black;">科研</span>和应用的热点。</p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">IDC<span style="color: black;">近期</span><span style="color: black;">颁布</span><span style="color: black;">颁布</span>的《<span style="color: black;">全世界</span>人工智能和生成式人工智能支出指南》<span style="color: black;">表示</span>,2022年<span style="color: black;">全世界</span>人工智能(AI)IT总投资规模为1324.9亿美元,并有望在2027年增至5124.2亿美元,年复合增长率(CAGR)为31.1%。</p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">而带来这一轮人工智能科技革命的技术突破是来自2017年的一篇论文《Attention is All You Need》,在这篇论文中,首次提出了Transformer架构,这个架构是<span style="color: black;">日前</span>大语言模型的核心技术<span style="color: black;">基本</span>。GPT中的T<span style="color: black;">便是</span>Transformer的缩写。</p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">下面,我先带<span style="color: black;">大众</span>简明<span style="color: black;">认识</span>下这个突破性架构的核心原理(原文:What Are Transformer Models and How Do They Work?),其实大道至简,原理<span style="color: black;">无</span>很<span style="color: black;">繁杂</span>,<span style="color: black;">针对</span><span style="color: black;">咱们</span>这种<span style="color: black;">无</span><span style="color: black;">基本</span>的普通人,<span style="color: black;">亦</span>是能快速理解的,<span style="color: black;">亦</span>能对当前的大模型有更深入的认识。</p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">顺便抛出一个问题,<span style="color: black;">为何</span>这轮技术变革不是来自Google、Meta、百度阿里<span style="color: black;">这般</span>的「传统」AI强势<span style="color: black;">机构</span>,而是初创<span style="color: black;">机构</span>OpenAI引领的呢?</p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">Transformer是<span style="color: black;">设备</span>学习中最令人兴奋的新<span style="color: black;">发展</span>之一。它们首次在论文《Attention is All You Need》中被介绍。Transformer<span style="color: black;">能够</span>用来写故事、论文、诗歌,回答问题,进行语言翻译,与人聊天,<span style="color: black;">乃至</span>能<span style="color: black;">经过</span><span style="color: black;">有些</span>对人类<span style="color: black;">来讲</span>很难的考试!但它们<span style="color: black;">到底</span>是什么呢?你会高兴地<span style="color: black;">发掘</span>,Transformer模型的架构并不<span style="color: black;">繁杂</span>,它<span style="color: black;">实质</span>上是<span style="color: black;">有些</span>非常有用的组件的组合,<span style="color: black;">每一个</span>组件都有其特定的功能。在这篇博客<span style="color: black;">文案</span>中,你将<span style="color: black;">认识</span>所有这些组件。</p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">这篇<span style="color: black;">文案</span><span style="color: black;">包括</span>了一个简单的概念性介绍。<span style="color: black;">倘若</span>你想<span style="color: black;">认识</span><span style="color: black;">更加多</span>关于Transformer模型及其工作原理的<span style="color: black;">仔细</span>描述,请查看Jay Alammar在Cohere<span style="color: black;">颁布</span>的两篇出色的<span style="color: black;">文案</span>:</p>

    The illustrated transformer 《图解Transformer》
    How GPT3 works 《GPT3是<span style="color: black;">怎样</span>工作的》

    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">简单<span style="color: black;">来讲</span>,Transformer都做些什么呢?</p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">想象一下你在手机上写短信。每打一个词,手机可能会<span style="color: black;">举荐</span>给你三个词。例如,<span style="color: black;">倘若</span>你输入“Hello, how are”,手机可能会<span style="color: black;">举荐</span>“you”<span style="color: black;">或</span>“your”<span style="color: black;">做为</span>下一个词。当然,<span style="color: black;">倘若</span>你继续<span style="color: black;">选取</span>手机<span style="color: black;">举荐</span>的词语,你会<span style="color: black;">火速</span><span style="color: black;">发掘</span>这些词语<span style="color: black;">构成</span>的信息毫<span style="color: black;">没</span><span style="color: black;">道理</span>。<span style="color: black;">倘若</span>你<span style="color: black;">瞧瞧</span>每组连续的三四个词,它们可能听起来有点道理,但这些词并<span style="color: black;">无</span>连贯地<span style="color: black;">构成</span>有<span style="color: black;">道理</span>的句子。这是<span style="color: black;">由于</span>手机中的模型不会携带<span style="color: black;">全部</span>信息的上下文,它只是预测在<span style="color: black;">近期</span>的几个词之后,哪个词更可能<span style="color: black;">显现</span>。而Transformer则<span style="color: black;">区别</span>,它们能够<span style="color: black;">跟踪</span>正在写的内容的上下文,这<span style="color: black;">便是</span><span style="color: black;">为何</span>它们写出的文本<span style="color: black;">一般</span>都是有<span style="color: black;">道理</span>的。</p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><img src="https://q1.itc.cn/q_70/images03/20240501/e316375645c24613ac7522027775a8d0.png" style="width: 50%; margin-bottom: 20px;"></p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">手机<span style="color: black;">能够</span>对短信中<span style="color: black;">运用</span>的下一个单词给出<span style="color: black;">意见</span>,但<span style="color: black;">无</span>生成连贯文本的能力</p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">我<span style="color: black;">必要</span>得说,当我<span style="color: black;">第1</span>次<span style="color: black;">发掘</span>Transformer是一次生成一个词来构建文本的时候,我简直不敢相信。<span style="color: black;">首要</span>,这不是人类形成句子和思想的方式。<span style="color: black;">咱们</span><span style="color: black;">一般</span>先形成一个基本的思想,<span style="color: black;">而后</span><span style="color: black;">起始</span>细化它,添加词汇。这<span style="color: black;">亦</span>不是<span style="color: black;">设备</span>学习模型处理其他事情的方式。例如,图像的生成就不是<span style="color: black;">这般</span>的。大<span style="color: black;">都数</span>基于神经网络的图形模型会先形成图像的粗略版本,<span style="color: black;">而后</span>慢慢细化或<span style="color: black;">增多</span>细节,直到完美。<span style="color: black;">那样</span>,<span style="color: black;">为何</span>Transformer模型要一词一词地构建文本呢?一个答案是,<span style="color: black;">由于</span><span style="color: black;">这般</span>做效果非常好。更令人满意的答案是,<span style="color: black;">由于</span>Transformer在跟踪上下文方面实在是太厉害了,<span style="color: black;">因此</span>它<span style="color: black;">选取</span>的下一个词正是继续推进一个想法所<span style="color: black;">必须</span>的。</p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">那样</span>,Transformer是<span style="color: black;">怎样</span>被训练的呢?<span style="color: black;">必须</span><span style="color: black;">海量</span>的数据,<span style="color: black;">实质</span>上是互联网上的所有数据。<span style="color: black;">因此</span>,当你在Transformer输入句子“Hello, how are”时,它就<span style="color: black;">晓得</span>,基于互联网上的所有文本,最好的下一个词是“you”。<span style="color: black;">倘若</span>你给它一个更<span style="color: black;">繁杂</span>的命令,<span style="color: black;">例如</span>说,“write a story.”,它可能会想出来下一个合适的词是“Once”。<span style="color: black;">而后</span>它将这个词添加到命令中,<span style="color: black;">发掘</span>下一个合适的词是“upon”,依此类推。一词一词地,它将继续写下去,直到写出一个故事。</p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">命令:Write a story.</p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">回复</span>:Once</p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">下一个命令:Write a story. Once</p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">回复</span>:upon</p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">下一个命令:Write a story. Once upon</p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">回复</span>:a</p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">下一个命令:Write a story. Once upon a</p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">回复</span>:time</p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">下一个命令:Write a story. Once upon a time</p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">回复</span>:there</p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">等等。</p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">此刻</span><span style="color: black;">咱们</span><span style="color: black;">晓得</span>了Transformer都做些什么,让<span style="color: black;">咱们</span>来<span style="color: black;">瞧瞧</span>它的架构。<span style="color: black;">倘若</span>你见过Transformer模型的架构,你可能像我<span style="color: black;">第1</span>次看到它时<span style="color: black;">同样</span>惊叹,它看起来相当<span style="color: black;">繁杂</span>!然而,当你把它分解成最<span style="color: black;">要紧</span>的部分时,就没<span style="color: black;">那样</span>难了。</p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">Transformer<span style="color: black;">重点</span>有四个部分:</p>

    分词(Tokenization)
    嵌入(Embedding)
    位置编码(Positional encoding)
    Transformer块(好几个<span style="color: black;">这般</span>的块)
    Softmax

    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">其中,第4个部分,即Transformer块,是所有部分中最<span style="color: black;">繁杂</span>的。这些块<span style="color: black;">能够</span>被连在<span style="color: black;">一块</span>,<span style="color: black;">每一个</span>块<span style="color: black;">包括</span>两个<span style="color: black;">重点</span>部分:<span style="color: black;">重视</span>力机制和前馈组件。</p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><img src="https://q3.itc.cn/q_70/images03/20240501/f17b1fbafab740f6b73d31a5203b62b3.png" style="width: 50%; margin-bottom: 20px;"></p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">让<span style="color: black;">咱们</span>逐个学习这些部分。</p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">1、</span>Tokenization(分词) </p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">分词是最基本的<span style="color: black;">过程</span>。它涵盖了一个庞大的词汇库,<span style="color: black;">包含</span>所有的单词、标点符号等。分词<span style="color: black;">过程</span>会处理每一个单词、前缀、后缀以及标点符号,并将它们转换为词库中已知的词汇。</p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">举例<span style="color: black;">来讲</span>,<span style="color: black;">倘若</span>句子是“Write a story.”,<span style="color: black;">那样</span>对应的4个token将是,<a style="color: black;"><span style="color: black;">返回<span style="color: black;">外链论坛:http://www.fok120.com/</span>,查看<span style="color: black;">更加多</span></span></a></p>

    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">责任编辑:网友投稿</span></p>




4zhvml8 发表于 2024-8-22 08:58:02

seo常来的论坛,希望我的网站快点收录。

dhfgh 发表于 2024-9-8 07:45:14

外链发布论坛学习网络优化SEO。
页: [1]
查看完整版本: 大道至简:这一轮人工智能(AI)突破的原由其实很「简单」