> 自媒体 > AI人工智能 > 人工智能聊天机器人——ChatGPT
人工智能聊天机器人——ChatGPT
来源:Xzxxxxxx
2023-06-19
272
管理

ChatGPT是一个人工智能聊天机器人,由OpenAI开发并于2022年11月发布。它是基于OpenAI的GPT-3.5模型(一种改进的GPT-3模型)进行微调的任务专用GPT。它可以以对话的方式与用户交互,回答后续问题,承认自己的错误,挑战错误的前提,拒绝不恰当的请求。它是InstructGPT的兄弟模型,InstructGPT是一种能够根据提示中的指令提供详细回答的模型。

ChatGPT使用了人类反馈强化学习(RLHF)的方法进行训练,与InstructGPT的方法相同,但在数据收集方面有些许不同。首先,使用监督式微调训练了一个初始模型:人工智能训练师提供了他们扮演用户和AI助手双方的对话。训练师可以使用模型生成的建议来帮助他们编写回答。然后,将这个新的对话数据集与转换为对话格式的InstructGPT数据集混合在一起。为了创建强化学习的奖励模型,需要收集比较数据,即由质量排序的两个或多个模型回答。为了收集这些数据,取出AI训练师与聊天机器人进行的对话。随机选择一个模型生成的消息,采样几个替代完成,并让AI训练师对它们进行排名。使用这些奖励模型,可以使用近端策略优化(PPO)对模型进行微调。这个过程进行了几次迭代。

ChatGPT是从2022年初完成训练的GPT-3.5系列中的一个模型进行微调的。ChatGPT和GPT-3.5都是在Azure AI超级计算基础设施上进行训练的。

ChatGPT局限性:ChatGPT有时会写出看似合理但错误或无意义的回答。修复这个问题很困难,因为:(1)在RL训练期间,目前没有真实来源;(2)训练模型变得更加谨慎会导致它拒绝可以正确回答的问题;(3)监督式训练会误导模型,因为理想的答案取决于模型知道什么,而不是人类演示者知道什么。ChatGPT对输入措辞或多次尝试相同提示非常敏感。例如,在给定一个问题的一种措辞时,模型可能会声称不知道答案,但在稍微改变措辞后,就可以正确回答2。模型经常过度冗长,并过度使用某些短语,例如重申它是由OpenAI训练的语言模型。这些问题源于训练数据中的偏差(训练者更喜欢看起来更全面的较长答案)和众所周知的过度优化问题
1
点赞
赏钱
0
收藏
免责声明:本文仅代表作者个人观点,与华威派无关。其原创性以及文中陈述文字和内容未经本网证实,对本文以及其中全部或者 部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。
凡本网注明 “来源:XXX(非华威派)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对 其真实性负责。
如因作品内容、版权和其它问题需要同本网联系的,请在一周内进行,以便我们及时处理。
QQ:2443165046 邮箱:info@goodmaoning.com
关于作者
清水大树(普通会员)
点击领取今天的签到奖励!
签到排行
1
0
分享
请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索