Wolfram 首先解释说:“ChatGPT 始终并且从根本上试图做的是创建我们迄今为止获得的文本的'合理延续'。” 在这种情况下,“理性延续”是指一个人在阅读句子时期望某人接下来写什么。 通过扫描网络上数十亿个文本,ChatGPT 预测下一个句子被写出的概率。
例如,如果您想写“The best thing about AI is its ability to…(AI最优秀的地方是…的能力)”这篇文章,ChatGPT会从扫描的文本中寻找与之相关的内容,并根据“概率”对符合含义的内容进行排名。
通过反复执行此操作,将在句子中添加很有可能的单词。 通过改变单词选择的随机程度,它并不总是选择选择排名最高的单词,而是输出不同的文本。
Wolfram 给出了一个更详细的例子来说明“选择下一个可能出现的字母”是如何工作的。 如果你得到维基百科关于“猫”和“狗”的文章中使用的英语样本,你可以计算字母出现的频率,如下图所示。
因此,在这里我们添加了典型英语文本中“字母配对”的概率。 例如,如果字母“q”出现,则除“u”外,配对字母的概率为零。 如果你像这样一次看两个字母并生成一个单词,你根本看不懂的句子将包含实际存在的单词。
而且,以同样的方式,不仅仅是“配对”,长文本的情况下的“组合概率”,如果有足够量的文本,也可以得到推定值。这样的话,即使生成了随机的单词,句子也会变得更加逼真。
同样,ChatGPT 根据大型文本数据(而不是字母)推测“单词的频率”,并生成每个单词分别随机选择的句子。 然而,就像我们在这里从字母中生成单词一样,概率本身并不能生成有意义的句子。 因此,与字母一样,要考虑“单词对”或多种组合的概率,以更接近更可能的句子。
Wolfram 解释了“ChatGPT 的做了什么”,但表示很难解释“它是如何工作的”。 例如,如果神经网络识别出猫的图像,那么它的难度是可以理解的,但是没有办法具体描述网络中实际发生的过程,因为它在一个计算上的黑匣子中处理这个不可见过程。
根据 Wolfram 的说法,ChatGPT 是一个权重为 1750 亿的庞大神经网络,其最大的特点是谷歌的擅长语言理解任务的“Transformer”神经网络架构。 Transformer是作为翻译模型开发的,但由于图像等参数可以在翻译过程中以与语言相同的方式映射,因此可以通过引入诸如“注意”序列的一部分等概念来“模块化”事物。 您可以在以下文章中了解有关 Transformer 如何在机器学习方面取得突破的更多信息:
The generative AI revolution has begun—how did we get here? | Ars Technicahttps://arstechnica.com/gadgets/2023/01/the-generative-ai-revolution-has-begun-how-did-we-get-here/
根据以上内容,Wolfram 将ChatGPT的实际工作分为3个阶段进行说明。 首先,我们获取一组与传统文本对应的标记,并找到相应的规则作为数字数组。 然后,通过以“标准神经网络方式”操作规则并让值在网络中的连续层中“传播”来生成新规则。 并采用此规则并从中生成一个包含大约5万个值的数组。 由于此数组是显示各种标记可能性的概率,因此得出组合单词的概率。
根据 Wolfram 的说法,所有这些都是由神经网络实现的,一切都只是从训练数据中学习的,所以除了整个架构之外,没有明确设计任何东西。 但是,整个架构的设计反映了神经网络的各种经验和知识。
该架构的工作原理是首先将输入的无数标记转换为“嵌入向量”,而“注意”功能是 Transformer 的主要功能,可让您“仔细回顾”一系列文本以理解单词组合并营造整体统一感。 在经历了这些注意过程之后,Transformer将一系列标记转换为最终集合,因此 ChatGPT 获取集合,对其进行解码,并将其创建为下一个单词的概率列表。 正如 Wolfram 所解释的那样,以下是 ChatGPT 的工作原理,“它可能看起来很复杂,但它实际上由简单的元素组成,其中神经网络接受数字输入的集合,并将它们与特定权重组合以创建一个列表。”
最后,Wolfram说:“最终值得注意的是,所有这些操作都可以以某种方式协同工作,以完成生成文本这一优秀的人性化任务。 这可以被视为一项科学发现,像ChatGPT这样的神经网络可能能够捕捉到人类大脑为生成语言所做的事情的本质。”
相关文章
猜你喜欢