> 自媒体 > AI人工智能 > 直面GPT-4的缺陷和风险,OpenAI提出多种安全应对措施
直面GPT-4的缺陷和风险,OpenAI提出多种安全应对措施
来源:大数据文摘
2023-05-02
229
管理

大数据文摘授权转载自将门创投

作者:seven_

深入研究OpenAI官方团队发布的长达99页的技术报告,我们发现在GPT-4光鲜亮丽功能的背后,还隐藏了OpenAI团队付出的的汗水和努力,尤其是在缓解GPT模型自身缺陷和模型安全落地方面。

此外,GPT-4主打的多模态生成模式是否也会进一步带来生成具有政治导向、错误价值观、暴力倾向等内容的风险呢,那么如何灵活的应对这些局限性和风险性,对GPT-4的健康落地也具有非常重要的意义。

GPT-4的局限性

在OpenAI官方发布的GPT-4技术报告中提到,尽管目前发布的GPT-4功能非常强大,但是其仍然存在与先前早期版本GPT模型一样的局限性,GPT-4仍然存在生成”幻觉“的问题,并且会出现推理错误的情况。作者团队也提醒用户,在使用其进行文本生成时需要小心,尤其是需要避免给GPT-4创造具有高风险的上下文环境。

其实生成”幻觉“问题对于几乎所有生成式AI模型都是绕不过去的坎,OpenAI团队已经对GPT-4进行了特殊处理,其相比于上一代模型GPT-3.5已经显著缓解了生成”幻觉“问题。作者团队对其进行了一项内部对抗设计的真实性评估,如上图所示,GPT-4的真实性效果得分比GPT-3.5高出19个百分点。其中y轴代表真实性精度,精度为1时代表模型的回答被判断为与所有人类标准回答一致。

除了内部评估,作者还在一些公开数据集上进行了评估,例如TruthfulQA[1],该数据集可以衡量模型将事实答案与其对应的具有对抗性的错误答案区分开来的能力,如下图所示。

3.2 基于规则的奖励模型RBRMs

与之前的GPT模型一样,GPT-4同样使用人类反馈式强化学习(RLHF)方法来微调模型的输出结果,以产生更符合用户意图的内容。但是作者团队发现,在经过RLHF微调后的模型在接受一些具有风险的输入后会产生错误且有害的内容。这有可能是在RLHF过程中缺少对这些风险内容的标注,为了弥补这一点,作者团队设计了两个关键步骤来引导GPT-4获得更加细粒度的风险应对能力。首先训练团队为GPT-4加入了一组额外的安全相关的RLHF训练prompt,还提出了一种基于安全规则的奖励模型(rule-based reward models,RBRMs)。

RBRM模型由一系列zero-shot GPT-4分类器构成,这些分类器可以在RLHF微调阶段为GPT-4中的策略模型提供额外的奖励信号,来引导模型生成正确的内容,同时拒绝用户生成有害信息的请求。RBRM的输入分为三部分:(1)prompt提示,(2)GPT-4策略模型的输出,(3)人工设计的模型安全规则。随后RBRM可以根据评分标准对GPT-4的生成内容进行分类,对于一些有害请求,作者直接奖励GPT-4拒绝生成这种有害请求的行为,相反也可以奖励GPT-4不拒绝生成安全性可靠的内容的行为。

总结

在这份技术报告中,我们看到了OpenAI团队在GPT-4安全性方面的考虑和做出的努力,但是也要清楚的一点是,没有绝对意义上的模型安全,随着模型能力的不断增强,提高模型安全性的难度也在不断增大。但是只要存在这些安全隐患,就必须在模型部署之前加入一定规模的安全应对措施来进行预防。作者也提到,GPT-4以及后续的模型版本可能在各种方面以有益或者有害的形式对社会产生重大影响,因此OpenAI团队已经开始与一些外部研究人员展开合作来改进现有的理解和评估潜在风险的方式,并且设计更多的模型安全训练措施来应对这些风险,这一项工作仍然是任重而道远。

参考

[1] Stephanie Lin, Jacob Hilton, and Owain Evans. TruthfulQA: Measuring how models mimic human falsehoods. In Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pages 3214–3252, Dublin, Ireland, May 2022. Association for Computational Linguistics. doi: 10.18653/v1/2022.acl-long.229. URL https://aclanthology.org/2022.acl-long.229.

0
点赞
赏钱
0
收藏
免责声明:本文仅代表作者个人观点,与华威派无关。其原创性以及文中陈述文字和内容未经本网证实,对本文以及其中全部或者 部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。
凡本网注明 “来源:XXX(非华威派)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对 其真实性负责。
如因作品内容、版权和其它问题需要同本网联系的,请在一周内进行,以便我们及时处理。
QQ:2443165046 邮箱:info@goodmaoning.com
关于作者
重新开始(普通会员)
点击领取今天的签到奖励!
签到排行
0
0
分享
请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索