ChatGPT的工作原理，看这一篇就够了，小白入门！-华威派

> 自媒体 > AI人工智能 > ChatGPT的工作原理，看这一篇就够了，小白入门！

ChatGPT的工作原理，看这一篇就够了，小白入门！

来源：云华商业频道

2023-05-20

204

管理

例如，OpenAI的GPT模型，所给的语料库是不断增加的。

在预训练期间，模型学习了语言的结构和规律，并且能够理解单词之间的关系和上下文信息。这使得模型能够生成连贯且自然的文本，并在各种自然语言处理任务中表现出色，如文本分类、问答系统等等。

不同版本的GPT的预训练数据量都在惊人地增长，看下面的数据，到了GPT-3的时候预训练的数据量就达到了45TB。

TB什么概念，10的12次方字节,约为1000000000000字节或1024GB。而一个TB又可以储存1000GB的数据。可见，数据量之大。

第三个字母-T，在 ChatGPT 中，T 指的是“Transformer”，是一种广泛应用于自然语言处理任务的深度学习模型。

Transformer 最初是由 Google 在 2017 年提出的，其主要目的是用于机器翻译任务，但很快被证明在许多其他 NLP 任务上也非常有效。

Transformer 的主要特点是能够在处理长序列数据时保持较好的效果，Transformer 采用了一种名为“自注意力机制”(self-attention mechanism)的方法，通过对输入序列中每个元素进行加权聚合，来计算出输出序列的表示。

举个例子：假设我们要训练一个语言模型，给定一段文本中的前几个单词，模型需要预测下一个单词是什么。

为了训练这个模型，我们需要将文本转换成数字形式。比如，将每个单词表示为一个one-hot向量。

如果我们使用传统的神经网络模型，例如全连接神经网络或递归神经网络(RNN)，则需要将每个one-hot向量映射到一个低维向量表示，通常称为词嵌入(word embedding)。

然而，这种方法有一些缺点。

首先，由于one-hot向量是高维的，所以矩阵乘法可能会非常昂贵，特别是在处理大量词汇表时。

其次，传统的神经网络模型可能难以处理长序列，因为它们需要在每个时间步骤上进行计算，而计算的复杂度会随着序列长度的增加而增加。

Transformer模型通过使用自注意力机制来解决这些问题。

自注意力机制允许模型在计算嵌入向量时考虑所有其他单词的信息，而不是只考虑输入序列中的前几个单词。这使得模型可以更好地处理长序列，并且不需要像传统模型一样进行矩阵乘法。

举个例子：当我们要做一道数学题时，通常需要进行多步计算。

如果只使用纸和笔来计算，我们需要反复写下计算过程，将中间结果记录下来，并在最后将它们汇总在一起。而使用计算器，就可以让我们更加方便地完成这些计算步骤。

在这个例子中，我们可以把纸笔比作传统的机器学习算法，而计算器就类似于使用Transformer的机器学习模型。

使用Transformer的机器学习模型，就像使用计算器一样，它可以更快速地完成计算，并且不需要像纸笔一样记录中间结果。

这就是Transformer模型的优势所在，它可以更高效地处理数据，从而提高模型的准确性和效率。

讲完了GPT这三个英文字母，你可能大概会了解一些GPT的工作的底层原理，也就是，它是：

√海量数据预先训练的-Pre-Training

√是采用了Transformer模型的自注意力机制

√它是生成式的。

这时，通过GPT(Generative Pre-trained Transformer)方式，其实Chatgpt就可以生成结果了，核心的方法有点类似于我们所说的文字接龙的游戏。

比如，你在ChatGPT中输入：“中国的首都”，它就会生成相关的词，但可能根据它的数据，会有不同的答案。比如，很漂亮、在北方、有天安门、是北京等不同的答案。

具体而言，奖励模型的工作流程如下：

▼「收集数据」：首先需要收集大量的人工标注数据，包括模型生成的对话响应以及一些其他备选响应。

▼「构建比较模型」：接下来需要构建一个用于比较不同对话响应质量的模型。比较模型可以是基于规则的，也可以是基于机器学习的。

▼「进行比较」：在模型生成对话响应的过程中，从备选响应中随机挑选一些响应，并使用比较模型对它们进行评估，然后将评分返回给ChatGPT。

▼「训练代理器」：ChatGPT会根据比较模型的反馈，利用强化学习的方式训练一个代理器。

代理器会在每次生成对话响应时选择一个响应，并通过比较模型的反馈来优化自己的策略，以便获得更高的回报。

▼「调整生成策略」：通过不断地训练代理器，ChatGPT可以不断调整自己的生成策略，从而提高生成对话的质量和自然度。

比如在前面的例子中，如果AI机器人选择了北京，它就会被给予更高的评分奖励。

ChatGPT的强化学习模型基于上下文生成模型和奖励模型进行训练，主要包括以下几个步骤：

▼「收集对话数据」

首先，ChatGPT需要收集大量的对话数据，包括用户和机器人之间的对话，以及机器人自己与自己对话的数据。

▼「训练上下文生成模型」

使用收集到的对话数据，ChatGPT通过有监督学习的方法对上下文生成模型进行训练。

在训练过程中，ChatGPT会将机器人的回复作为输出，前面的对话历史作为输入，从而使模型能够预测出机器人应该如何回复。

▼「构建奖励模型」

ChatGPT需要一个奖励模型来衡量机器人回复的质量。

为此，ChatGPT首先从训练数据中选择一些对话，然后随机生成一些可能的回复，然后将这些回复交给人类评审，让他们对这些回复进行打分。

然后，ChatGPT使用这些打分结果来训练奖励模型，使得模型能够根据当前对话情境评估出机器人回复的好坏程度。

▼「训练强化学习模型」

使用上下文生成模型和奖励模型，ChatGPT开始使用强化学习来训练机器人。

具体而言，ChatGPT使用一种叫做Proximal Policy Optimization(PPO)的算法来训练机器人。

PPO是一种基于策略梯度的强化学习算法，它会通过不断地试错和优化机器人的策略，来最大化机器人的累积奖励。

▼「不断优化」

最后，ChatGPT会不断地优化机器人的强化学习模型，通过不断地试错和反馈来进一步提高机器人的性能。

综上所述，ChatGPT的强化学习模型通过使用上下文生成模型和奖励模型来训练机器人，以最大化机器人的累积奖励。

这种方法使机器人能够根据当前的对话情境自主地做出最佳回复，从而提高了机器人的交互质量和用户体验。

0

点赞

赏钱

0

收藏

免责声明：本文仅代表作者个人观点，与华威派无关。其原创性以及文中陈述文字和内容未经本网证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。
凡本网注明 “来源：XXX（非华威派）”的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。
如因作品内容、版权和其它问题需要同本网联系的，请在一周内进行，以便我们及时处理。
QQ：2443165046 邮箱：info@goodmaoning.com

ChatGPT应用正加速登陆苹果iOS、安卓系统国内大模型产业链加速“抢滩”

2023-05-20 17:10

转载-努力搬砖的小刘-记录的——ChatGPT

2023-05-20 17:07

相关文章

ChatGPT的这几个回答，让人细思极恐……

ChatGPT之父传奇故事：想用通用人工智能打破资本主义

ChatAI与动画艺术家：共同塑造动画创作的新时代

Chatgpt，新的iPhone时代来临！

GPT-4来了，但不要担心：你还不会失业

从OpenAI VPT，看视频预训练

ChatGPT被指不靠谱遭封杀，人类面临新问题：AIGC的事实核查..

又一封“警惕AI”公开信！这次ChatGPT之父也签名了

当这种功能更加强大的ChatGPT-n出现后，人类又会...

关于作者

呼唤(普通会员)

点击领取今天的签到奖励!

猜你喜欢

01

抛妻弃女31年，李连杰再次遇到前妻黄秋燕，泪点却在合影的位置上..

2022/09/12

02

豆瓣评分9.0以上的国产剧排行榜豆瓣评分9.0以上的国产剧前十..

2022/09/24

03

盘古和女娲（中国神话故事）

2022/08/27

04

2022离世的11位名人：有人患癌，有人突发意外，有人元旦当天离世..

2022/09/11

05

巨蟹座：一生最旺的颜色，能旺你一生，可以不喜欢，但必须爱上它..

8个月前

06

30个暖心睡前小故事，很甜很撩的睡前小故事

2022/08/26

07

香蕉是如何种出来的？从育苗到收获，揭秘香蕉种植的全过程..

2022/06/02

08

“没有好奇心，人就死了”！喜马拉雅鬼王——杨湃的鬼故事哲学..

2022/08/27

标签云

0

0

分享

请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索