GPT-4 越来越笨？准确率从 97.6% 降至 2.4%-华威派

> 自媒体 > AI人工智能 > GPT-4 越来越笨？准确率从 97.6% 降至 2.4%

GPT-4 越来越笨？准确率从 97.6% 降至 2.4%

来源：开源中国OSC

2023-07-30

238

管理

出品|开源中国

斯坦福大学和加州大学伯克利分校合作进行的一项 “How Is ChatGPT's Behavior Changing Over Time?” 研究表明，随着时间的推移，GPT-4 的响应能力非但没有提高，反而随着语言模型的进一步更新而变得更糟糕。

研究小组评估了 2023 年 3 月和 2023 年 6 月版本的 GPT-3.5 和 GPT-4 在四个不同任务上的表现，分别为：解决数学问题、回答敏感 / 危险问题、代码生成以及视觉推理。

他们使用了一个包含 500 个问题的数据集评估模型，测试模型必须确定给定的整数是否是素数。结果表明，GPT-4（2023 年 3 月版）在识别质数方面表现非常出色，正确回答了其中的 488 个问题，准确率达 97.6%。但 GPT-4 （2023 年 6 月版）在这些问题上的表现却非常糟糕，只答对了 12 个问题，准确率仅为 2.4%。

而与之相反，GPT-3.5（2023 年 6 月版）在这项任务中的表现则要比 GPT-3.5（2023 年 3 月版）好得多。

研究团队还使用了 "Chain-of-Thought"（思维链）来帮助模型进行推理，提出 “17077 是一个质数吗？一步一步地思考” 的问题。但最新版本的 GPT-4 不仅错误地回答了 "否"，还没有生成解题的中间步骤。

与 3 月份相比，GPT-4 在 6 月份不太愿意回答敏感问题。而且与 3 月份相比，GPT-4 和 GPT-3.5 在 6 月份生成代码时也出现了更多格式错误，质量明显下降。

对于 GPT-4，可直接执行的生成代码百分比从 3 月份的 52.0% 降至 6 月份的 10.0%；GPT-3.5 也从 22.0% 降至了 2.0%。两种模型的冗余度也有小幅增加，其中 GPT-4 增加了 20%。

视觉推理方面，GPT-4 和 GPT-3.5 的性能都略有提高。但对于 90% 以上的视觉推理查询，3 月份和 6 月份版本生成的结果完全相同。这些服务的总体性能也很低：GPT-4 为 27.4%，GPT-3.5 为 12.2%。且在某些特定问题上，GPT-4 在 6 月份表现要比在 3 月份差。

研究人员认为，这些结果表明，"相同" 的 LLM 服务的行为会在相对较短的时间内发生重大变化，凸显了对 LLM 质量进行持续监控的必要性。

“我们计划通过定期评估 GPT-3.5、GPT-4 和其他 LLM 在不同任务中的表现，在一项持续的长期研究中更新本文介绍的结果。对于依赖 LLM 服务作为其日常工作流程组成部分的用户或公司，我们建议他们对其应用程序进行类似的监控分析。”

免责声明：本文仅代表作者个人观点，与华威派无关。其原创性以及文中陈述文字和内容未经本网证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。
凡本网注明 “来源：XXX（非华威派）”的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。
如因作品内容、版权和其它问题需要同本网联系的，请在一周内进行，以便我们及时处理。
QQ：2443165046 邮箱：info@goodmaoning.com

GPT-4里套娃LLaMA 2！OpenAI创始成员周末爆改「羊驼宝宝」

2023-07-30 20:16

斯坦福大学实锤GPT-4变笨了！OpenAI最新回应：确实存在“智力下降”

2023-07-30 20:14

相关文章

当AI开始画画：画师会失业吗？

OpenAI发布GPT-4：能识图能算税，ChatGPT摆脱Chat，再次进化..

干货丨向ChatGPT提问的6大层次，从基础到进阶，看这一篇就够了！..

寻找中国的ChatGPT

中国公司快速跟进ChatGPT，不值得

OpenAI 将向更多开发者开放 GPT-3 自然语言处理模型的访问..

释放ChatGPT的真正潜力：Prompt技巧完整指南

这种群，千万别进

微信聊天小技巧！这四个字“无声胜有声”给你万能模板..

关于作者

赶海的老阿姨(普通会员)

点击领取今天的签到奖励!

猜你喜欢

01

抛妻弃女31年，李连杰再次遇到前妻黄秋燕，泪点却在合影的位置上..

2022/09/12

02

豆瓣评分9.0以上的国产剧排行榜豆瓣评分9.0以上的国产剧前十..

2022/09/24

03

盘古和女娲（中国神话故事）

2022/08/27

04

2022离世的11位名人：有人患癌，有人突发意外，有人元旦当天离世..

2022/09/11

05

巨蟹座：一生最旺的颜色，能旺你一生，可以不喜欢，但必须爱上它..

6个月前

06

30个暖心睡前小故事，很甜很撩的睡前小故事

2022/08/26

07

香蕉是如何种出来的？从育苗到收获，揭秘香蕉种植的全过程..

2022/06/02

08

“没有好奇心，人就死了”！喜马拉雅鬼王——杨湃的鬼故事哲学..

2022/08/27

标签云

0

0

分享

请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索