多模态GPT-4被吹爆，但仍会“一本正经胡说八道”-华威派

> 自媒体 > AI人工智能 > 多模态GPT-4被吹爆，但仍会“一本正经胡说八道”

多模态GPT-4被吹爆，但仍会“一本正经胡说八道”

来源：观察者网

2023-04-08

219

管理

（文/贺喜格编辑/吕栋）

今年初以来，以AI大模型GPT3.5为基础的聊天机器人ChatGPT引发大量关注，股市上相关概念遭到热炒。正当ChatGPT的热度有所下降时，微软投资的OpenAI又推出了GPT-4，号称功能比GPT3.5更强大。

北京时间3月15日凌晨，OpenAI正式发布大型多模态模型GPT-4。据介绍，与ChatGPT只能接收文字不同，GPT-4能接收图像和文本输入来输出文本内容；扩写能力得到增强，能处理超过2.5万个单词的文本；更具创造力，回答准确性显著提高；能够生成歌词、创意文本，实现风格变化；并且能够处理更细微的指令。

“这是我们迄今为止功能最强大的模型！”OpenAI的高管和工程师在介绍视频里直言：“GPT-4是世界第一款高体验、强能力的先进AI系统，我们希望很快把它推向所有人。”

新的大模型一经发布，便受到网友们的热捧。但仍然值得的一提的是，虽然GPT-4的功能进一步增强，但仍然不完全可靠。OpenAI坦言，GPT-4仍然会产生幻觉、生成错误答案，并出现推理错误。

自去年11月推出以来，ChatGPT已经能够根据用户提示生成原创文章、故事和歌词，但它也引发了一些担忧。最近几周，人工智能聊天机器人（包括来自微软和谷歌的工具）因情绪反应过激、犯事实错误和完全“幻觉”而受到指责。

除了在文本输入的基础上进一步接受了图像输入外，GPT-4还升级成为了一个“学霸”，基准测试表现远远优于现有模型。OpenAI表示，如果是随意聊天，用户可能不太能感受出GPT-3.5与GPT-4之间的区别。但当任务的复杂性达到足够的阈值时，GPT-4将明显比GPT-3.5更可靠、更有创意，并且能够处理更细微的指令。“在我们的内部评估中，它产生正确回应的可能性比GPT-3.5高40%。”

根据测试，在“美国高考”SAT中，GPT-4的分数增加了150分，现在能拿到1600分中的1410分。它还通过了模拟律师考试，且分数在应试者的前10%左右；相比之下，GPT-3.5的得分在倒数10%左右。

此外，GPT-4对于英语以外的语种支持也得到了大大的优化。许多现有的机器学习基准测试都是用英语编写的。为了初步了解GPT-4在其他语言中的性能，OpenAI使用Azure Translate将MMLU基准测试（一套涵盖57个主题的14000个多项选择题）翻译成各种语言。在测试的26种语言中，有24种语言，GPT-4优于GPT-3.5和其他大语言模型的英语语言性能。

OpenAI请GPT-4模型以苏格拉底风格教学，绝对不能给学生答案；相反地，还要不断提出好问题帮助学生思考。ChatGPT果真循循善诱，以提问代替直接回答。取自OpenAI官网

仍然不完全可靠

在体验ChatGPT之时，不少用户会发现ChatGPT时不时会“一本正经地胡说八道”，而GPT-4尽管号称功能更全面，但会出现幻觉、胡说八道的毛病还是没能完全改掉。

OpenAI介绍，尽管功能已经非常强大，但GPT-4仍与早期的GPT模型具有相似的局限性，其中最重要的一点是它仍然不完全可靠。GPT-4仍然会生成错误答案，并出现推理错误。

也就说，在GPT-4身上依然可以看到之前版本“一本正经地胡说八道”的情形。OpenAI强调，仍然推荐在使用它的时候要附加诸如人工审查、或者附加上下文，甚至在高风险情境中，要避免使用它。

不过OpenAI也提到，该系统已经接受了六个月的安全培训，在内部对抗性真实性评估中，GPT-4的得分比最新的GPT-3.5高：“响应不允许内容的请求的可能性降低了82%，产生真实事实的可能性提高了40%，优于GPT-3.5。”

网传GPT-3和GPT-4参数对比图，但此次OpenAI没有给出GPT-4参数量

“它仍然存在缺陷，仍然有限，但它有明显的改进。它比以前的模型更有创意，它的幻觉明显减少，而且它的偏见也更少。”OpenAI公司CEO奥特曼在Twitter上称，GPT-4是其模型“最有能力且最符合”人类价值观和意图的模型。

这也意味着，相较之前的模型来说，GPT-4虽然仍可能“一本正经地胡说八道”，但频率有所减小。

不过频率的减小还是不能让人们放松警惕。在GPT-4发布后，微软营销主管表示，“如果你在过去六周内的任何时候使用过新的Bing预览版，你就已经提前了解了OpenAI最新模型的强大功能。”

这似乎可以理解为，微软的新必应早就已经用上了GPT-4。而结合前段时间对新必应的争议来看，已经用上了GPT-4的新必应还是出现了不少“发疯”行为。

此外，与前一代一样，GPT-4是基于2021年9月之前的数据训练的，所以GPT-4对于2021年9月之后发生的事件仍然缺乏有效理解，也不会从其经验中进行学习。OpenAI表示：“GPT-4仍有许多已知的局限性，我们正在努力解决，例如社会偏见、幻觉和对抗性提示。”

本文系观察者网独家稿件，未经授权，不得转载。

赏钱

免责声明：本文仅代表作者个人观点，与华威派无关。其原创性以及文中陈述文字和内容未经本网证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。
凡本网注明 “来源：XXX（非华威派）”的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。
如因作品内容、版权和其它问题需要同本网联系的，请在一周内进行，以便我们及时处理。
QQ：2443165046 邮箱：info@goodmaoning.com

ChatGPT使用测评：人工智能机器人是否会代替保险代理人的部分工作？

2023-04-08 15:59

chatgpt：一个能和你聊天的神奇机器人

2023-04-08 15:58