> 自媒体 > AI人工智能 > 轻松看懂 ChatGPT 的快速进化
轻松看懂 ChatGPT 的快速进化
来源:AI新动力
2023-06-01
140
管理

ChatGPT是构建在大语言模型GPT上的会话机器人(可以参看直观解读 2023 年顶级大型语言模型(ChatGPT的大脑)),因此ChatGPT的表现主要取决于大语言模型GPT的能力,而GPT的能力取决于自身的参数量,以及通过足够多的数据训练让这些参数之间高效、准确的合作。就如同一个好的运动员,既要有天赋(参数量)又要后天刻苦、科学的训练。

虽然增加模型的参数量可以帮助模型学习更复杂的模式,提高其表现,但同时也会带来计算资源、数据量、训练时间和储存需求的增加。因此,在实际应用中,通常需要在模型大小(参数量)和以上限制之间找到一个合适的平衡。一味的追求大语言模型的参数量,而不能很好的训练这些参数构成的神经网络,反而会让整个模型能力低下,变成一团乱麻。

最初ChatGPT构建在GPT3上,经过大规模数据训练后(也称做“预训练”),GPT-3(Generative Pre-trained Transformer 3)在生成连贯文本、理解代码和处理常规文本任务上表现出了一些能力,但它在遵循人类指令,如“写一个故事”或“调试这段代码”时,还存在一些困难。

训练数据示例

训练数据示例

为了解决这些问题,OpenAI使用大量的代码和一种叫做“指令数据集”的特殊数据集对GPT-3进行了微调。

指令数据集是一种特殊类型的数据,由人类注释员生成。例如,它可能包括“翻译句子Y”和“解释如何制作X”这样的输入模板,配对正确的输出语句。这种方法大大提高了模型遵循人类指令的能力,并使得模型可以很好地泛化到未见过的任务,例如写一个连贯的短篇故事或者一个软件程序。

然而,即使是经过指令微调的模型,有时也会给出简短的、有偏见的或者错误的答案。

为了应对这个新问题,OpenAI又应用了一种称为人类反馈的强化学习的方法(RLHF, Reinforcement Learning from Human Feedback)来进一步调优。这种方法的基本思想是训练一个额外的奖励模型,这个模型会从人的角度评价一个模型的响应是否足够好,然后使用这个奖励模型引导GPT模型持续改进。这样,模型就可以通过强化学习持续的进行微调,并快速的改善其在处理各种任务时的表现。

奖励训练模型

模型能力迭代进化

如今的ChatGPT已经构建在了更加强大的GPT4大语言模型上,成为了人工智能领域的风向标。

基于Google Colab notebook 的投票数据

注:Elo rating是一种评估技能水平的工具,它可以协助技能相近的对手进行公平的对比。

1
点赞
赏钱
0
收藏
免责声明:本文仅代表作者个人观点,与华威派无关。其原创性以及文中陈述文字和内容未经本网证实,对本文以及其中全部或者 部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。
凡本网注明 “来源:XXX(非华威派)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对 其真实性负责。
如因作品内容、版权和其它问题需要同本网联系的,请在一周内进行,以便我们及时处理。
QQ:2443165046 邮箱:info@goodmaoning.com
关于作者
雷振杍(普通会员)
点击领取今天的签到奖励!
签到排行
1
0
分享
请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索