ChatGPT是构建在大语言模型GPT上的会话机器人(可以参看直观解读 2023 年顶级大型语言模型(ChatGPT的大脑)),因此ChatGPT的表现主要取决于大语言模型GPT的能力,而GPT的能力取决于自身的参数量,以及通过足够多的数据训练让这些参数之间高效、准确的合作。就如同一个好的运动员,既要有天赋(参数量)又要后天刻苦、科学的训练。
虽然增加模型的参数量可以帮助模型学习更复杂的模式,提高其表现,但同时也会带来计算资源、数据量、训练时间和储存需求的增加。因此,在实际应用中,通常需要在模型大小(参数量)和以上限制之间找到一个合适的平衡。一味的追求大语言模型的参数量,而不能很好的训练这些参数构成的神经网络,反而会让整个模型能力低下,变成一团乱麻。
最初ChatGPT构建在GPT3上,经过大规模数据训练后(也称做“预训练”),GPT-3(Generative Pre-trained Transformer 3)在生成连贯文本、理解代码和处理常规文本任务上表现出了一些能力,但它在遵循人类指令,如“写一个故事”或“调试这段代码”时,还存在一些困难。
训练数据示例
训练数据示例
为了解决这些问题,OpenAI使用大量的代码和一种叫做“指令数据集”的特殊数据集对GPT-3进行了微调。
指令数据集是一种特殊类型的数据,由人类注释员生成。例如,它可能包括“翻译句子Y”和“解释如何制作X”这样的输入模板,配对正确的输出语句。这种方法大大提高了模型遵循人类指令的能力,并使得模型可以很好地泛化到未见过的任务,例如写一个连贯的短篇故事或者一个软件程序。
然而,即使是经过指令微调的模型,有时也会给出简短的、有偏见的或者错误的答案。
为了应对这个新问题,OpenAI又应用了一种称为人类反馈的强化学习的方法(RLHF, Reinforcement Learning from Human Feedback)来进一步调优。这种方法的基本思想是训练一个额外的奖励模型,这个模型会从人的角度评价一个模型的响应是否足够好,然后使用这个奖励模型引导GPT模型持续改进。这样,模型就可以通过强化学习持续的进行微调,并快速的改善其在处理各种任务时的表现。
奖励训练模型
模型能力迭代进化
如今的ChatGPT已经构建在了更加强大的GPT4大语言模型上,成为了人工智能领域的风向标。
基于Google Colab notebook 的投票数据
注:Elo rating是一种评估技能水平的工具,它可以协助技能相近的对手进行公平的对比。
相关文章
猜你喜欢