什么是ChatGPT

j8typz · 发表于 2024-8-22 08:58:36

2022年11月，OpenAI推出了人工智能聊天设备人：ChatGPT。该应用发布后，火速就作为学术界、工业界、商场界、产业界...方面关注的焦点，咱们起始广泛讨论、科研及操作应用ChatGPT，那样到底什么是ChatGPT呢？

ChatGPT最直观的感知便是：它是一个“聪明”的聊天设备人（工具）；除了聊天工具，它实质是一个人工智能模型，亦是一种自然语言处理工具，英文全叫作为：“Chat Generative Pre-trained Transformer”。

ChatGPT的本质是：经过海量的文本数据训练，ChatGPT“学会”了理解和生成人类的语言。咱们能够经过聊天（问答）的方式，与它展开如科学、哲学、艺术、美术、体育、音乐、电影等等多方面、深层次的关联专题交流。咱们亦能够向它提出请求，例如让它对对联、编一个笑话、画一幅画等等。ChatGPT能够回复咱们的任何问题或请求，并且能够给出一个相对完整、准确的回复。

需要尤其重视的是，一般咱们说到ChatGPT时，可能指的便是2022年11月发布的那个最初导致全世界各界关注的GPT-3.5版本。而OpenAI机构已然在2023年3月发布了更“聪明”、更强大的GPT-4，因此咱们在谈ChatGPT时，虽然这两个版本的性质和用法是同样的，但在详细的功能和效果方面会有差异。

说到ChatGPT，咱们首要要理解和认知“语言模型”。语言是咱们人类最重要的沟通工具。咱们每日都在运用语言（不仅指说话）——无论是聊天、阅读、写作，还是思考。而经过让计算机进行学习、理解和运用语言，这般的过程和方式，咱们叫作之为“语言模型”。而ChatGPT便是这般一种语言模型（亦便是语言模型能够有非常多，ChatGPT只是其中之一）。

那样，语言模型到底是什么呢？看这般说明是不是能够理解：它是一种预测下一个token（自然语言处理的单位，能够简单地理解为词）的统计模型。举一个例子：倘若咱们输入“我爱”，语言模型会预测“你”是接下来特别有可能显现的词。由于按照它训练过（统计出）的海量数据资料表示，“我爱你”是一个很平常的短语，在数据资料中显现“我爱你”的短语频率远高于“我爱笑”、“我爱吃”、“我爱说”等等其他短语。

再例如说，咱们输入“生日快”，语言模型会“精细地”预测出“乐”这个词。由于语言模型在训练过程中，在前面这个短语显现的状况下，后面这个词显现的概率几乎是百分之百。

因此，最简单的理解，语言模型便是会按照咱们输入词的序列排布状况（短语），结合它“见过”的所有词序列组合（长句），再按照这般的词序列组合显现的频率，来预测下一个最有可能显现的词是哪个词。按照这般的语言样本进行概率统计解析，便是语言模型。

那样，语言模型长什么样子呢？为了帮忙理解，这儿简单打个比方，咱们能够想象有这般一张巨大的表格，这张表格列出了所有词的序列组合以及这个词序列组合显现的频率。当咱们输出某个词序列时，语言模型会在这张表格中找出与之最匹配的词序列，并给出（叫作之为预测）其后面最平常的那个词。

当然，真实的语言模型远比表格繁杂得多。它运用“神经网络”和“深度学习”算法来构建这般的“表格”，触及成千上百万个词及其词序列，还思虑了上下文语义等要素。但本质上，语言模型它所做的事情便是预测下一个最有可能显现的词。

因此，咱们用计算机（设备）来“预测下一个词”的行径或动作，说起来有点无聊、无趣、无道理，可结果却产生了ChatGPT这个划时代的人工智能制品。

严格来讲，ChatGPT属于语言模型中的大语言模型（Large Language Model，LLM）。

中文名叫作

英文名叫作

说明

语言模型

Language

Model

对词序列的生成可能性进行建模，以预测下一个token（自然语言处理单位）的概率

统计语言

模型

Statistical

Language

Model

自然语言模型的基本模型，从概率统计方向出发，处理自然语言上下文关联的特性，如按照近期的上下文预测下一个词

神经语言

模型

Neural

Language

Model

经过神经网络（如递归神经网络RNN）表征词序列的概率

预训练

语言模型

Pre-trained

Language

Model

模型参数再也不是随机初始化的，而是经过有些任务进行了预先训练，得到一套模型参数，经过这些参数再对模型进行训练

大语言

模型

Large

Language

Model

在预训练语言模型的科研过程中，科研人员发掘增多模型大上和数据量能够加强下游任务的完成质量，并且随着规模增大，模型展现出了有些让人意想不到的能力（如ChatGPT）

表：语言模型与说明

理解和认知好“语言模型”，咱们再来进一步认识ChatGPT。“Chat”（聊天）非常好理解，咱们把焦点放在“GPT”这三个字母上。GPT是Generative Pre-trained Transformer的缩写，中文是“生成式预训练变换模型”。

Generative（生成式）

GPT是一种生成式人工智能。它经过计算海量数据中的概论和分布，最后能够从分布中生成新的数据。因此，GPT能够用于各样任务，如写作、翻译、回答问题等等。

Pre-trained（预训练）

Pre-trained即预训练，指的是GPT这个模型的训练方式。预训练指的是在训练特定任务的模型之前，先在海量的数据上进行训练，以学习有些基本的、通用的特征或模式。用于预训练的数据一般是未标注过的，这寓意着模型需要自我发掘数据中的规律和结构，而不是依赖已标注的信息进行学习。运用无标注数据的训练方式一般被叫作为“无监督学习”。

这个预训练过程使得GPT能够学习到语言的通常模式和结构。而后，GPT能够经过在有标签的数据上进行微调，来适应各样任务场景。

Transformer（变换模型）

Transformer这个词，直译成中文能够是“改变者”、“变换器”，在GPT这个语境中，我们理解为变换模型，这是GPT的基本架构。Transformer是设备学习算法中的一种深度学习模型，它运用自重视力机制来处理序列数据。这使得GPT能够有效地处理长文本，并捉捕到文本中的繁杂模式。

而自重视力机制（self-Attention）又是 Transformer的核心构成部分。这种机制的重点规律是在处理序列的每一个元素时，不仅思虑该元素本身，还思虑与其关联的其他元素。

亦便是说，Transformer能够为语言模型供给一种“找到目的”的能力，它能够对输入的文本中的每一个词进行多维度、精细化的权重分配，而后进行权重比较，从而帮忙模型理解文本中各词之间的依赖和相关关系，使其再也不机械化、固定地对待每一个词，而是能够像人类同样有选取性地关注与理解信息。

因此，当咱们说“GPT”时，其实指的是一种能够生成新的连贯文本（能够回答问题、写作、聊天等），在高质量的海量数据上进行预训练（论文、书籍、文献等，天文地理，知识百科），并运用Transformer架构（能够捉捕文本中各词之间的依赖和相关关系）的深度学习模型。

综上，咱们回答“什么是ChatGPT”，它是一种基于人工智能的自然语言处理（NLP）模型；由OpenAI研发，运用深度学习技术，应用变换器（Transformer）架构，来理解和生成人类语言。

以下是近年来ChatGPT关联的重要节点：

2017年，谷歌发布了关于Transformer的论文；

2018年，OpenAI发布了GPT-1；

2020年，OpenAI发布了GPT-3；

此后，OpenAI在GPT-3的基本上进行人类反馈强化学习（Reinforcement Learning from Human Feedback，RLHF）和监督精调（Supervised Fine-tuning）；经数次迭代之后，ChatGPT(GPT-3.5）横空出世，于2022年11月发布，作为全世界的焦点。

2023年3月，OpenAI发布GPT-4。

ChatGPT是一个强大、灵活且聪明的人工智能助手，咱们能够经过对话式的聊天与其沟通。它有能力回答咱们的各样问题，帮助咱们提炼、写作与思考。然而，倘若仅将ChatGPT看作一个聊天设备人，那就远远低估了它的能力，其实质的应用潜能远超咱们的想象。

随着ChatGPT等大语言模型能力的提高和应用的拓展，它们将会在不久的将来，颠覆咱们日当前平常工作、学习、生活的流程和方式。这不是科幻，而是正在逐步出现的现实改变。

		自动登录	找回密码
密码			立即注册