> 自媒体 > AI人工智能 > ChatGPT的工作原理,看这一篇就够了,小白入门!
ChatGPT的工作原理,看这一篇就够了,小白入门!
来源:云华商业频道
2023-05-20
105
管理

例如,OpenAI的GPT模型,所给的语料库是不断增加的。

在预训练期间,模型学习了语言的结构和规律,并且能够理解单词之间的关系和上下文信息。这使得模型能够生成连贯且自然的文本,并在各种自然语言处理任务中表现出色,如文本分类、问答系统等等。

不同版本的GPT的预训练数据量都在惊人地增长,看下面的数据,到了GPT-3的时候预训练的数据量就达到了45TB。

TB什么概念,10的12次方字节,约为1000000000000字节或1024GB。而一个TB又可以储存1000GB的数据。可见,数据量之大。

第三个字母-T,在 ChatGPT 中,T 指的是“Transformer”,是一种广泛应用于自然语言处理任务的深度学习模型。

Transformer 最初是由 Google 在 2017 年提出的,其主要目的是用于机器翻译任务,但很快被证明在许多其他 NLP 任务上也非常有效。

Transformer 的主要特点是能够在处理长序列数据时保持较好的效果,Transformer 采用了一种名为“自注意力机制”(self-attention mechanism)的方法,通过对输入序列中每个元素进行加权聚合,来计算出输出序列的表示。

举个例子:假设我们要训练一个语言模型,给定一段文本中的前几个单词,模型需要预测下一个单词是什么。

为了训练这个模型,我们需要将文本转换成数字形式。比如,将每个单词表示为一个one-hot向量。

如果我们使用传统的神经网络模型,例如全连接神经网络或递归神经网络(RNN),则需要将每个one-hot向量映射到一个低维向量表示,通常称为词嵌入(word embedding)。

然而,这种方法有一些缺点。

首先,由于one-hot向量是高维的,所以矩阵乘法可能会非常昂贵,特别是在处理大量词汇表时。

其次,传统的神经网络模型可能难以处理长序列,因为它们需要在每个时间步骤上进行计算,而计算的复杂度会随着序列长度的增加而增加。

Transformer模型通过使用自注意力机制来解决这些问题。

自注意力机制允许模型在计算嵌入向量时考虑所有其他单词的信息,而不是只考虑输入序列中的前几个单词。这使得模型可以更好地处理长序列,并且不需要像传统模型一样进行矩阵乘法。

举个例子:当我们要做一道数学题时,通常需要进行多步计算。

如果只使用纸和笔来计算,我们需要反复写下计算过程,将中间结果记录下来,并在最后将它们汇总在一起。而使用计算器,就可以让我们更加方便地完成这些计算步骤。

在这个例子中,我们可以把纸笔比作传统的机器学习算法,而计算器就类似于使用Transformer的机器学习模型。

使用Transformer的机器学习模型,就像使用计算器一样,它可以更快速地完成计算,并且不需要像纸笔一样记录中间结果。

这就是Transformer模型的优势所在,它可以更高效地处理数据,从而提高模型的准确性和效率。

讲完了GPT这三个英文字母,你可能大概会了解一些GPT的工作的底层原理,也就是,它是:

√海量数据预先训练的-Pre-Training

√是采用了Transformer模型的自注意力机制

√它是生成式的。

这时,通过GPT(Generative Pre-trained Transformer)方式,其实Chatgpt就可以生成结果了,核心的方法有点类似于我们所说的文字接龙的游戏。

比如,你在ChatGPT中输入:“中国的首都”,它就会生成相关的词,但可能根据它的数据,会有不同的答案。比如,很漂亮、在北方、有天安门、是北京等不同的答案。

具体而言,奖励模型的工作流程如下:

▼「收集数据」:首先需要收集大量的人工标注数据,包括模型生成的对话响应以及一些其他备选响应。

▼「构建比较模型」:接下来需要构建一个用于比较不同对话响应质量的模型。比较模型可以是基于规则的,也可以是基于机器学习的。

▼「进行比较」:在模型生成对话响应的过程中,从备选响应中随机挑选一些响应,并使用比较模型对它们进行评估,然后将评分返回给ChatGPT。

▼「训练代理器」:ChatGPT会根据比较模型的反馈,利用强化学习的方式训练一个代理器。

代理器会在每次生成对话响应时选择一个响应,并通过比较模型的反馈来优化自己的策略,以便获得更高的回报。

▼「调整生成策略」:通过不断地训练代理器,ChatGPT可以不断调整自己的生成策略,从而提高生成对话的质量和自然度。

比如在前面的例子中,如果AI机器人选择了北京,它就会被给予更高的评分奖励。

ChatGPT的强化学习模型基于上下文生成模型和奖励模型进行训练,主要包括以下几个步骤:

▼「收集对话数据」

首先,ChatGPT需要收集大量的对话数据,包括用户和机器人之间的对话,以及机器人自己与自己对话的数据。

▼「训练上下文生成模型」

使用收集到的对话数据,ChatGPT通过有监督学习的方法对上下文生成模型进行训练。

在训练过程中,ChatGPT会将机器人的回复作为输出,前面的对话历史作为输入,从而使模型能够预测出机器人应该如何回复。

▼「构建奖励模型」

ChatGPT需要一个奖励模型来衡量机器人回复的质量。

为此,ChatGPT首先从训练数据中选择一些对话,然后随机生成一些可能的回复,然后将这些回复交给人类评审,让他们对这些回复进行打分。

然后,ChatGPT使用这些打分结果来训练奖励模型,使得模型能够根据当前对话情境评估出机器人回复的好坏程度。

▼「训练强化学习模型」

使用上下文生成模型和奖励模型,ChatGPT开始使用强化学习来训练机器人。

具体而言,ChatGPT使用一种叫做Proximal Policy Optimization(PPO)的算法来训练机器人。

PPO是一种基于策略梯度的强化学习算法,它会通过不断地试错和优化机器人的策略,来最大化机器人的累积奖励。

▼「不断优化」

最后,ChatGPT会不断地优化机器人的强化学习模型,通过不断地试错和反馈来进一步提高机器人的性能。

综上所述,ChatGPT的强化学习模型通过使用上下文生成模型和奖励模型来训练机器人,以最大化机器人的累积奖励。

这种方法使机器人能够根据当前的对话情境自主地做出最佳回复,从而提高了机器人的交互质量和用户体验。

0
点赞
赏钱
0
收藏
免责声明:本文仅代表作者个人观点,与华威派无关。其原创性以及文中陈述文字和内容未经本网证实,对本文以及其中全部或者 部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。
凡本网注明 “来源:XXX(非华威派)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对 其真实性负责。
如因作品内容、版权和其它问题需要同本网联系的,请在一周内进行,以便我们及时处理。
QQ:2443165046 邮箱:info@goodmaoning.com
关于作者
呼唤(普通会员)
点击领取今天的签到奖励!
签到排行
0
0
分享
请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索