#长文创作激励计划#
2022年11月,OpenAI推出了人工智能聊天设备人:ChatGPT。该应用发布后,火速就作为学术界、工业界、商场界、产业界...方面关注的焦点,咱们起始广泛讨论、科研及操作应用ChatGPT,那样到底什么是ChatGPT呢?
ChatGPT最直观的感知便是:它是一个“聪明”的聊天设备人(工具);除了聊天工具,它实质是一个人工智能模型,亦是一种自然语言处理工具,英文全叫作为:“Chat Generative Pre-trained Transformer”。
ChatGPT的本质是:经过海量的文本数据训练,ChatGPT“学会”了理解和生成人类的语言。咱们能够经过聊天(问答)的方式,与它展开如科学、哲学、艺术、美术、体育、音乐、电影等等多方面、深层次的关联专题交流。咱们亦能够向它提出请求,例如让它对对联、编一个笑话、画一幅画等等。ChatGPT能够回复咱们的任何问题或请求,并且能够给出一个相对完整、准确的回复。
需要尤其重视的是,一般咱们说到ChatGPT时,可能指的便是2022年11月发布的那个最初导致全世界各界关注的GPT-3.5版本。而OpenAI机构已然在2023年3月发布了更“聪明”、更强大的GPT-4,因此咱们在谈ChatGPT时,虽然这两个版本的性质和用法是同样的,但在详细的功能和效果方面会有差异。
说到ChatGPT,咱们首要要理解和认知“语言模型”。语言是咱们人类最重要的沟通工具。咱们每日都在运用语言(不仅指说话)——无论是聊天、阅读、写作,还是思考。而经过让计算机进行学习、理解和运用语言,这般的过程和方式,咱们叫作之为“语言模型”。而ChatGPT便是这般一种语言模型(亦便是语言模型能够有非常多,ChatGPT只是其中之一)。
那样,语言模型到底是什么呢?看这般说明是不是能够理解:它是一种预测下一个token(自然语言处理的单位,能够简单地理解为词)的统计模型。举一个例子:倘若咱们输入“我爱”,语言模型会预测“你”是接下来特别有可能显现的词。由于按照它训练过(统计出)的海量数据资料表示,“我爱你”是一个很平常的短语,在数据资料中显现“我爱你”的短语频率远高于“我爱笑”、“我爱吃”、“我爱说”等等其他短语。
再例如说,咱们输入“生日快”,语言模型会“精细地”预测出“乐”这个词。由于语言模型在训练过程中,在前面这个短语显现的状况下,后面这个词显现的概率几乎是百分之百。
因此,最简单的理解,语言模型便是会按照咱们输入词的序列排布状况(短语),结合它“见过”的所有词序列组合(长句),再按照这般的词序列组合显现的频率,来预测下一个最有可能显现的词是哪个词。按照这般的语言样本进行概率统计解析,便是语言模型。
那样,语言模型长什么样子呢?为了帮忙理解,这儿简单打个比方,咱们能够想象有这般一张巨大的表格,这张表格列出了所有词的序列组合以及这个词序列组合显现的频率。当咱们输出某个词序列时,语言模型会在这张表格中找出与之最匹配的词序列,并给出(叫作之为预测)其后面最平常的那个词。
当然,真实的语言模型远比表格繁杂得多。它运用“神经网络”和“深度学习”算法来构建这般的“表格”,触及成千上百万个词及其词序列,还思虑了上下文语义等要素。但本质上,语言模型它所做的事情便是预测下一个最有可能显现的词。
因此,咱们用计算机(设备)来“预测下一个词”的行径或动作,说起来有点无聊、无趣、无道理,可结果却产生了ChatGPT这个划时代的人工智能制品。
严格来讲,ChatGPT属于语言模型中的大语言模型(Large Language Model,LLM)。
中文名叫作
英文名叫作
说明
语言模型
Language
Model
对词序列的生成可能性进行建模,以预测下一个token(自然语言处理单位)的概率
统计语言
模型
Statistical
Language
Model
自然语言模型的基本模型,从概率统计方向出发,处理自然语言上下文关联的特性,如按照近期的上下文预测下一个词
神经语言
模型
Neural
Language
Model
经过神经网络(如递归神经网络RNN)表征词序列的概率
预训练
语言模型
Pre-trained
Language
Model
模型参数再也不是随机初始化的,而是经过有些任务进行了预先训练,得到一套模型参数,经过这些参数再对模型进行训练
大语言
模型
Large
Language
Model
在预训练语言模型的科研过程中,科研人员发掘增多模型大上和数据量能够加强下游任务的完成质量,并且随着规模增大,模型展现出了有些让人意想不到的能力(如ChatGPT)
表:语言模型与说明
理解和认知好“语言模型”,咱们再来进一步认识ChatGPT。“Chat”(聊天)非常好理解,咱们把焦点放在“GPT”这三个字母上。GPT是Generative Pre-trained Transformer的缩写,中文是“生成式预训练变换模型”。
Generative(生成式)
GPT是一种生成式人工智能。它经过计算海量数据中的概论和分布,最后能够从分布中生成新的数据。因此,GPT能够用于各样任务,如写作、翻译、回答问题等等。
Pre-trained(预训练)
Pre-trained即预训练,指的是GPT这个模型的训练方式。预训练指的是在训练特定任务的模型之前,先在海量的数据上进行训练,以学习有些基本的、通用的特征或模式。用于预训练的数据一般是未标注过的,这寓意着模型需要自我发掘数据中的规律和结构,而不是依赖已标注的信息进行学习。运用无标注数据的训练方式一般被叫作为“无监督学习”。
这个预训练过程使得GPT能够学习到语言的通常模式和结构。而后,GPT能够经过在有标签的数据上进行微调,来适应各样任务场景。
Transformer(变换模型)
Transformer这个词,直译成中文能够是“改变者”、“变换器”,在GPT这个语境中,我们理解为变换模型,这是GPT的基本架构。Transformer是设备学习算法中的一种深度学习模型,它运用自重视力机制来处理序列数据。这使得GPT能够有效地处理长文本,并捉捕到文本中的繁杂模式。
而自重视力机制(self-Attention)又是 Transformer的核心构成部分。这种机制的重点规律是在处理序列的每一个元素时,不仅思虑该元素本身,还思虑与其关联的其他元素。
亦便是说,Transformer能够为语言模型供给一种“找到目的”的能力,它能够对输入的文本中的每一个词进行多维度、精细化的权重分配,而后进行权重比较,从而帮忙模型理解文本中各词之间的依赖和相关关系,使其再也不机械化、固定地对待每一个词,而是能够像人类同样有选取性地关注与理解信息。
因此,当咱们说“GPT”时,其实指的是一种能够生成新的连贯文本(能够回答问题、写作、聊天等),在高质量的海量数据上进行预训练(论文、书籍、文献等,天文地理,知识百科),并运用Transformer架构(能够捉捕文本中各词之间的依赖和相关关系)的深度学习模型。
综上,咱们回答“什么是ChatGPT”,它是一种基于人工智能的自然语言处理(NLP)模型;由OpenAI研发,运用深度学习技术,应用变换器(Transformer)架构,来理解和生成人类语言。
以下是近年来ChatGPT关联的重要节点:
2017年,谷歌发布了关于Transformer的论文;
2018年,OpenAI发布了GPT-1;
2020年,OpenAI发布了GPT-3;
此后,OpenAI在GPT-3的基本上进行人类反馈强化学习(Reinforcement Learning from Human Feedback,RLHF)和监督精调(Supervised Fine-tuning);经数次迭代之后,ChatGPT(GPT-3.5)横空出世,于2022年11月发布,作为全世界的焦点。
2023年3月,OpenAI发布GPT-4。
ChatGPT是一个强大、灵活且聪明的人工智能助手,咱们能够经过对话式的聊天与其沟通。它有能力回答咱们的各样问题,帮助咱们提炼、写作与思考。然而,倘若仅将ChatGPT看作一个聊天设备人,那就远远低估了它的能力,其实质的应用潜能远超咱们的想象。
随着ChatGPT等大语言模型能力的提高和应用的拓展,它们将会在不久的将来,颠覆咱们 日当前平常工作、学习、生活的流程和方式。这不是科幻,而是正在逐步出现的现实改变。
|