除了普通图片,GPT-4还能处理更复杂的图像信息,包括表格、考试题目截图、论文截图、漫画等。
此外,在多语种方面,GPT-4也体现出优越性。在测试的26种语言中,GPT-4在24种语言方面的表现均优于GPT-3.5等其他大语言模型的英语语言性能,其中包括部分低资源语言如拉脱维亚语、威尔士语等。在中文语境中,GPT-4能够达到80.1%的准确性。
GPT-4在 TruthfulQA 等外部基准测试方面也取得了进展,OpenAI 测试了模型将事实与错误陈述的对抗性选择区分开的能力,结果如下图所示。
实验结果表明,GPT-4基本模型在此任务上仅比 GPT-3.5略好;然而,在经过 RLHF 后训练之后,二者的差距就很大了。以下是 GPT-4的测试示例 —— 并不是所有时候它都能做出正确的选择。
该模型在其输出中可能会有各种偏见,OpenAI 在这些方面已经取得了进展,目标是使建立的人工智能系统具有合理的默认行为,以反映广泛的用户价值观。
GPT-4通常缺乏对其绝大部分数据截止后(2021年9月)发生的事件的了解,也不会从其经验中学习。它有时会犯一些简单的推理错误,这似乎与这么多领域的能力不相符,或者过于轻信用户的明显虚假陈述。有时它也会像人类一样在困难的问题上失败,比如在它生成的代码中引入安全漏洞。
GPT-4预测时也可能出错但很自信,意识到可能出错时也不会 double-check。有趣的是,基础预训练模型经过高度校准(其对答案的预测置信度通常与正确概率相匹配)。然而,通过 OpenAI 目前的后训练(post-training)过程,校准减少了。
同时,与早期GPT模型类似,GPT-4也具备局限性。GPT-4依然会形成推理错误,因而在使用语言模型输出时需要非常小心,最好以人工核查、附加上下文或避免高风险使用的方式予以辅助。
“GPT4的模型发布,本身是技术持续升级迭代发展的必然阶段。AI行业每一年都会有些新模型发布,趋势就是大模型、多模态。”
在接受21世纪经济报道记者采访时,IDC中国研究总监卢言霞表示,“多模态肯定是必然趋势,毕竟AI要真正达到人的智慧,需要处理多模数据。且在各行业场景里,大都是涉及多模态数据的处理。”
03 担忧与接受
对于ChatGPT,人类一直担心的是,对于超出安全边界和敏感的问题,怎么去训练和规避以及提升它的安全性能?
OpenAI 表示,与之前的 GPT 模型一样,GPT-4基础模型经过训练可以预测文档中的下一个单词。OpenAI 使用公开可用的数据(例如互联网数据)以及已获得许可的数据进行训练。
训练数据是一个网络规模的数据语料库,包括数学问题的正确和错误解决方案、弱推理和强推理、自相矛盾和一致的陈述,以及各种各样的意识形态和想法。
因此,当提出问题时,基础模型的回应可能与用户的意图相去甚远。为了使其与用户意图保持一致,OpenAI 依然使用强化学习人类反馈 (RLHF) 来微调模型的行为。而该模型的能力似乎主要来自预训练过程 ——RLHF 不会提高考试成绩(甚至可能会降低它)。但是模型的控制来自后训练过程 —— 基础模型甚至需要及时的工程设计来回答问题。
关于风险和安全,OpenAI 研究团队称,一直在对 GPT-4进行迭代,使其从训练开始就更加安全和一致,所做的努力包括预训练数据的选择和过滤、评估和专家参与、模型安全改进以及监测和执行。
GPT-4有着与以前的模型类似的风险,如产生有害的建议、错误的代码或不准确的信息。
同时,GPT-4的额外能力导致了新的风险面。为了了解这些风险的程度,团队聘请了50多位来自人工智能对齐风险、网络安全、生物风险、信任和安全以及国际安全等领域的专家,对该模型在高风险领域的行为进行对抗性测试。这些领域需要专业知识来评估,来自这些专家的反馈和数据为缓解措施和模型的改进提供了依据。
或许更值得关注的问题是,人类的很多领域继续会被人工智能颠覆。在机器面前,人类似乎又渺小了不少。
《人类简史》的作者赫拉利总是在强调一项事实:人类并不是多么了不起的物种;人类之有今天,缘于各种生物和进化上的巧合,纯属狗屎运。
人类虽已拥有改变世界的技术能力,心智却严重落伍,他们在生理上与两万年前的祖先没有本质区别。甚至在全书结尾,赫拉利给人类下的判词是:“拥有神的能力,但是不负责任、贪得无厌,而且连想要什么都不知道。天下危险,恐怕莫此为甚。”
在不断迭代的新技术面前,无论人类有多少惊叹和担忧,首先都必须先选择:去接受,去拥抱,然后才是创造和改变。
「参考资料」
01 OpenAI 官网
02 GPT-4震撼发布:多模态大模型,直接升级ChatGPT、必应,开放API 来源:机器之心03 逐浪AIGC①丨OpenAI正式发布GPT-4 向超级AI进发? 来源:21世纪经济报道
04 刚刚,ChatGPT-4发布,全方位碾压老版本 来源:知危
相关文章
猜你喜欢