> 自媒体 > AI人工智能 > 我们向GPT-3问了15908个问题,终于发现了它的真面目
我们向GPT-3问了15908个问题,终于发现了它的真面目
来源:AI科技评论
2023-07-05
183
管理

表2:57种任务总结

图3:来自微观经济学和安全研究社会科学任务的示例。第一个问题的答案是D,第二个问题的答案是B。

微观经济学:政府不鼓励和监管垄断的原因之一是?

(A)生产者剩余减少,而消费者剩余增加。

(B)垄断价格可确保生产效率,但会耗费社会分配效率。

(C)垄断企业不从事重大研发活动。

(D)消费者剩余因价格上涨和产出下降而损失。

安全研究:为什么将艾滋病毒/艾滋病视为非传统安全问题?

(A)艾滋病毒/艾滋病是一种新出现的疾病,直到20世纪后期才出现。

(B)不良健康可能间接威胁国家,但也可能威胁其他方面,例如经济。

(C)面对压倒性的艾滋病毒/艾滋病规模,需要一种新方法,以便从理论上说明其对安全的影响。

(D)以上都不是-艾滋病毒/艾滋病应该定义为传统的安全问题。

科学、技术、工程和数学(STEM)

STEM课程包括物理、计算机科学、数学等。图4显示了两个示例。概念物理测试对简单物理原理的理解,可被认为是物理常识基础Physical IQA的更难版本。作者也测试了从小学到大学水平不同的数学问题解决能力的困难程度。大学数学问题,像GRE数学科目考试中发现的问题,通常需要推理链和抽象知识。为了编写数学表达式,作者使用LaTeX 或如*和ˆ的符号分别用于乘法和求幂操作。STEM课程需要经验方法、流体智能以及程序知识。

图4:来自概念物理和大学数学STEM任务的示例。第一个问题的答案为A,第二个问题的答案为D。

当从静止状态放下一个球时,它会以9.8 m /s²的加速度向下加速。如果假设没有空气阻力而将其向下扔,则其离开手后的加速度为?

(A)9.8 m /s²

(B)大于9.8 m /s²

(C)小于9.8 m /s²

(D)除非给出掷球速度,否则不能计算。

在复z平面中,满足方程z²= | z |²的点集为?

(A)两个点

(B)圆

(C)射线

(D)直线

其他

还有很多主题,要么不完全符合前面三个类别中的任何一个,要么就没有成千上万个免费提供的问题。作者把这些主题分为其他主题。这一部分包括“专业医学任务”,其中有一些难题需要人类多年的学习才能掌握。在图5中描述了一个示例。本节还包括金融、会计和市场营销等商业主题,以及有关全球事实的知识。后者包括不同国家随时间推移的贫困统计数据,这可能是建立一个准确的世界模型所必需的。

图6:GPT-3在全部57项任务上的少样本准确率。所有任务的准确率均明显低于专家级别的表现。

在图7a中,作者确认GPT-3知道代表这种次序的缩写PEMDAS。但是,它并不能始终如一地将PEMDAS应用于实际问题。另一方面,程序化理解并不是唯一的弱点。作者发现,GPT-3在诸如“道德情景”和“专业法”等一些口头任务上的准确率也特别低。

图7:(a)让GPT-3根据提示完成计算,以测试有关运算顺序的知识。带下划线的蓝色粗体字是GPT-3自动完成的“括号指数乘除加减”运算顺序。尽管它具有描述性知识并且知道运算顺序,但是它不知道如何应用其知识并且不遵循运算的优先级。

图7:(b)GPT-3的平均置信度对其准确率评估不佳,会降低24%。

该测试还表明,GPT-3获得的知识与人类完全不同。例如,GPT-3以教学上异常的顺序学习指定主题。GPT-3在大学医学(47.4%)和大学数学(35.0%)上的表现优于计算密集型基础数学(29.9%)。GPT-3的知识展示出非同寻常的广度,但没有能力掌握单个主题。所以,测试表明GPT-3具有许多知识盲点,并且能力是片面的。

校准

除非模型经过校准,否则不应该信任模型的预测,这意味着模型的置信度是对预测正确的实际概率的良好估计。但是,大型神经网络经常被错误校准,尤其是在分布偏移下。作者通过测试GPT-3的平均置信度评估每个主题的实际准确率的程度,来评估GPT-3的校准。图7b中的结果表明GPT-3未经校准。实际上,它的置信度与其在零样本设置下的实际准确率之间的关系很小,对于某些主题,其准确率和置信度之间的差异高达24%。另一种校准方法是均方根(RMS)校准误差。许多任务的预测均未校准,例如“基础数学”的零位有效值校准误差为19.4%。这些结果表明模型校准有很大的改进空间。

5 讨论

多模态理解

尽管文本能够传达有关世界的大量概念,但许多重要的概念还是通过其它模态传达的,例如图像、音频和物理交互。现有的大型NLP模型(例如GPT-3)不包含多模态信息,因此作者以纯文本格式设计基准测试。但是,随着模型慢慢具有处理多模态输入的能力,人们应该设计基准来应对这种变化。“Turk Test”就是这样一类基准,其中包括Amazon Mechanical Turk Human Intelligence Tasks。这些是定义明确的任务,需要模型以灵活的形式进行交互,并展示对多模态的理解能力。

互联网数据作为训练集

该研究的基准测试与以前的多任务NLP基准测试之间的主要区别在于不需要大型训练集。取而代之的是,作者假设模型已经从互联网上读取了大量的不同文本而获得了必要的知识。

这启发作者提出一种方法上的改变,从而使模型的训练过程更类似于人类的学习方式。尽管过去的机器学习基准测试大多都是从大量的问题库中学习模型,但人类主要是通过阅读书籍并听取其他人谈论该主题来学习新主题。对于诸如“专业法”之类的科目,可以使用大量的法律语料库,例如164卷的法律百科全书法学著作Corpus Juris Secundum,但可用的律师考试问题少于5,000个。仅通过少量的实践测试来学习整个法律领域的知识是不现实的,因此将来的模型必须在预训练阶段学习更多的知识。

因此,作者以零样本或少样本设置评估预训练模型,并为每个任务提供一个开发集、验证集和测试集。开发集用于少样本提示,验证集可用于超参数调整,测试集用于计算最终准确率。重要的是,作者评估的格式与预训练期间获取信息的格式不同。这样做的好处是避免了对虚假训练集标注(annotation artifacts)的担忧,这与以前的同分布训练集和测试集范式形成鲜明对比。此更改还可以收集更广泛和多样化的任务集以进行评估。随着模型从各种在线资源中提取信息的提升,预计该方法将变得更加广泛适用。

模型限制

作者发现当前的大型Transformers还有很大的改进空间。他们在建模人类的拒绝/允许的态度方面特别不擅长,尤其在“专业法”和“道德情景”任务上表现不佳。为了使未来的系统与人类价值观保持一致,在这些任务上实现高性能至关重要,因此,未来的研究应特别着重于提高这些任务的准确率。模型难以执行计算,以至于它们在基础数学和许多其它STEM学科上表现不佳。此外,它们在任何主题上都无法与专家水平的表现相提并论,因此对于所有主题而言,它们都是次于人类的。平均而言,模型才刚刚超越随机准确率水平。

解决这些缺点可能具有挑战性。为了说明这一点,作者尝试通过对专业数据进行预训练来创建更好的“专业法”模型,但这仅取得了有限的成功。作者还收集了大约2,000个“专业法”训练示例。在使用此自定义训练集对基于RoBERTa的模型进行微调后,模型获得了32.8%的测试准确率。为了测试其它专业训练数据的影响,作者还对RoBERTa继续利用哈佛大学法律图书馆案例法语料库case.law的大约160万个法律案例摘要进行预训练,但经过微调后,其准确率仅为36.1%。这表明,虽然对相关的高质量文本进行额外的预训练可以有所帮助,但可能不足以大大提高当前模型的性能。

目前尚不清楚简单地扩展现有语言模型是否可以很好地解决该测试任务。当前的研究表明,模型大小增加10倍时,数据必须相应增加大约5倍,才能达到相似的性能。除了创建数万亿个参数的语言模型的巨额费用外,数据也可能成为瓶颈,因为深奥的书面知识文本的数量要少于日常文本。

2
点赞
赏钱
0
收藏
免责声明:本文仅代表作者个人观点,与华威派无关。其原创性以及文中陈述文字和内容未经本网证实,对本文以及其中全部或者 部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。
凡本网注明 “来源:XXX(非华威派)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对 其真实性负责。
如因作品内容、版权和其它问题需要同本网联系的,请在一周内进行,以便我们及时处理。
QQ:2443165046 邮箱:info@goodmaoning.com
关于作者
锦阳(普通会员)
点击领取今天的签到奖励!
签到排行
2
0
分享
请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索