人工智能聊天机器人—

> 自媒体 > AI人工智能 > 人工智能聊天机器人——ChatGPT

人工智能聊天机器人——ChatGPT

来源：Xzxxxxxx

2023-06-19

272

管理

ChatGPT是一个人工智能聊天机器人，由OpenAI开发并于2022年11月发布。它是基于OpenAI的GPT-3.5模型（一种改进的GPT-3模型）进行微调的任务专用GPT。它可以以对话的方式与用户交互，回答后续问题，承认自己的错误，挑战错误的前提，拒绝不恰当的请求。它是InstructGPT的兄弟模型，InstructGPT是一种能够根据提示中的指令提供详细回答的模型。

ChatGPT使用了人类反馈强化学习（RLHF）的方法进行训练，与InstructGPT的方法相同，但在数据收集方面有些许不同。首先，使用监督式微调训练了一个初始模型：人工智能训练师提供了他们扮演用户和AI助手双方的对话。训练师可以使用模型生成的建议来帮助他们编写回答。然后，将这个新的对话数据集与转换为对话格式的InstructGPT数据集混合在一起。为了创建强化学习的奖励模型，需要收集比较数据，即由质量排序的两个或多个模型回答。为了收集这些数据，取出AI训练师与聊天机器人进行的对话。随机选择一个模型生成的消息，采样几个替代完成，并让AI训练师对它们进行排名。使用这些奖励模型，可以使用近端策略优化（PPO）对模型进行微调。这个过程进行了几次迭代。

ChatGPT是从2022年初完成训练的GPT-3.5系列中的一个模型进行微调的。ChatGPT和GPT-3.5都是在Azure AI超级计算基础设施上进行训练的。

ChatGPT局限性：ChatGPT有时会写出看似合理但错误或无意义的回答。修复这个问题很困难，因为：（1）在RL训练期间，目前没有真实来源；（2）训练模型变得更加谨慎会导致它拒绝可以正确回答的问题；（3）监督式训练会误导模型，因为理想的答案取决于模型知道什么，而不是人类演示者知道什么。ChatGPT对输入措辞或多次尝试相同提示非常敏感。例如，在给定一个问题的一种措辞时，模型可能会声称不知道答案，但在稍微改变措辞后，就可以正确回答2。模型经常过度冗长，并过度使用某些短语，例如重申它是由OpenAI训练的语言模型。这些问题源于训练数据中的偏差（训练者更喜欢看起来更全面的较长答案）和众所周知的过度优化问题

赏钱

免责声明：本文仅代表作者个人观点，与华威派无关。其原创性以及文中陈述文字和内容未经本网证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。
凡本网注明 “来源：XXX（非华威派）”的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。
如因作品内容、版权和其它问题需要同本网联系的，请在一周内进行，以便我们及时处理。
QQ：2443165046 邮箱：info@goodmaoning.com

聊天机器人ChatGPT，火爆全球，看看背后的真相？

2023-06-19 22:24

最强AI助手上线，让装上“眼睛”的GPT-4为你解答世间万物！

2023-06-19 22:22