AI模型研究：LLAMA-2与GPT-4对比，探析两大技术优势与应用前景-华威派

> 自媒体 > AI人工智能 > AI模型研究：LLAMA-2与GPT-4对比，探析两大技术优势与应用前景

AI模型研究：LLAMA-2与GPT-4对比，探析两大技术优势与应用前景

来源：远瞻行业报告

2023-09-20

380

管理

（报告作者：中信建投分析师王宏、徐建华、陈添奕）

本篇报告比较了 LLAMA2 和 GPT-4 这两个模型。LLAMA2 采用了预规范化和 SwiGLU 激活函数等优化措施，在常识推理和知识面方面表现出优异的性能。GPT-4 是一个规模更大的混合专家模型，具备多语言多模态输入能力。它的代码解释器为解决模型在数学和语言方面的固有弱点提供了有效的方法，使其在数据分析和处理中展现出高超的能力。尽管两者在性能和安全性方面都有改进，但仍存在一定局限性。随着技术的进步，自然语言处理领域有望迎来更多突破和创新，为人工智能的应用带来更广阔的前景。

在训练细节方面，Meta团队在LLAMA-2 项目中保留了一部分先前的预训练设置和模型架构，并进行了一些创新。研究人员继续采用标准的Transformer架构，并使用RMSNorm进行预规范化，同时引入了SwiGLU激活函数和旋转位置嵌入。

对于LLAMA-2 系列不同规模的模型，研究人员进行了训练损耗的比较。值得注意的是，他们在预训练过程中使用了 2T数量的token，并观察到在该训练规模下，模型并未出现任何饱和的迹象。这表明模型在此规模下仍有潜力进一步提升性能，而不会因为数据规模的增加而导致性能收敛。

在训练硬件方面，Meta 团队分别在其研究超级集群（Research Super Cluster, RSC）和内部生产集群上进行了 LLAMA2 模型的预训练。这两个集群均配备了 NVIDIA A100 GPU，这是高性能计算设备，为模型训练提供了强大的计算能力。

3.5 LLAMA2 模型奖励结果

在基于 LLAMA2-Chat 收集的内部测试集上，Meta 团队自行开发的奖励模型表现出色。具体而言，有用性奖励模型在元有用性（Mega Helpful）测试集上取得了最佳表现，而安全性奖励模型在元安全性（Mega Safety）测试集上也表现最佳。

综上所述，Meta 团队的奖励模型在多个测试集上均表现优异，甚至包括 GPT-4 在内的所有模型都被超越。

这些结果证明了 Meta 团队在奖励模型的开发和优化方面取得的显著成果，为 LLAMA2-Chat 在对话式指令相关任务中的成功表现提供了有力支持。这种自主开发的奖励模型为 LLAMA2 在多领域任务中的应用奠定了坚实的基础，并在进一步提高模型性能上展现出巨大的潜力。

根据上图的结果，我们可以看到，在最大的 LLAMA2-Chat 模型与 ChatGPT 进行对比时，70B 版本的胜率为36%，平局率为 31.5%。这意味着在一定数量的测试样本中，LLAMA2-Chat 在某些任务上取得了胜利，并与ChatGPT 平局。然而，仍有一部分任务在 LLAMA2-Chat 的表现上相对较弱。这些结果对于评估 LLAMA2-Chat 的整体性能和潜力，以及指导后续的优化和改进，具有重要的参考价值。

3.7 LLAMA2 多轮一致性系统消息

在多轮对话中，为了确保系统消息的一致性，即使在不同的对话场景下，某些指令也应该被模型一致地应用，比如简明扼要地做出回应或者扮演某个公众人物等。为了解决这一问题，Meta 团队采用了一种称为"幽灵注意力"（Ghost Attention，GAtt）的简单方法，利用微调数据帮助模型在多轮对话的不同阶段保持注意力的集中。

GAtt 的目标是通过微调数据来约束模型的注意力分布，以使得在特定情况下，模型能够遵循特定的系统指令或规则，从而保持对话的一致性。这种方法的优势在于其简单性和高效性，通过引入额外的微调数据，可以有效地影响模型的行为，使得模型更好地遵循预设的指令和规范。

在下图中，我们可以看到应用幽灵注意力后的结果。通过这种方法，Meta 团队在多轮对话中实现了更好的一致性，使得模型在回应用户时能够更好地遵循特定的系统消息，从而提高了对话的质量和连贯性。这一研究成果为多轮对话系统的优化和应用提供了重要的方法和指导。

上图展示了模型的最大注意力激活情况，每张图的左侧都对应着系统信息。研究人员考虑了整个网络的最大激活度，并将相邻的标记放在一起。为了说明 GAtt 是如何在微调过程中帮助重塑注意力的。在左图中，显示了未安装 GAtt（Ghost Attention）的模型，在对话的不同阶段，模型的注意力分布相对较为分散，没有明显地对系统信息保持较大的注意力激活。

而在右图中，显示了安装了 GAtt 的模型，可以观察到在对话的大部分时间里，该模型能够对系统信息保持较大的注意力激活。GAtt 的引入有效地约束了模型的注意力分布，使其在特定情况下更加集中，从而能够更好地遵循系统指令或规则，增强了对系统信息的关注和理解能力。

这些结果表明，通过引入幽灵注意力机制，模型在多轮对话中能够更加专注和准确地对系统信息进行处理，从而提高了对话的连贯性和一致性。GAtt 的应用为多轮对话系统的设计和优化带来了新的方法和思路，为提升对话质量和用户体验提供了有益的探索。

3.8 GPT-4 代码解释器

3.8.1 旧版本存在问题的解决方式

解决方法一是通过编写 Python 代码来弥补 LLM 在数学和语言方面的固有弱点。借助 code interpreter 功能，人工智能可以进行复杂的数学计算，并更准确地处理文本中的单词，例如在实际计算段落中的单词。通过编写 Python 代码，可以有效地解决大型语言模型在数学和语言方面的自然弱点，并成功利用这一工具，如下图所示。

此后，GPT-4 会阅读文件并展示其发现。

需要注意，使用代码解释器时，可与 GPT-4 进行对话，无需设计精心的提示词。不过，以下两种情况除外：

（1）模型有时可能会忘记能够执行某些任务，例如制作 GIF 或 3D 图形，可鼓励其尝试（例如：“可以制作 GIF，请尝试”）；

（2）若希望模型进一步改进结果时，可以给予相应引导。

根据所呈现的图示，数据已经加载完成，现在可以让 GPT-4 自行完成数据分析中最复杂的数据合并和清理任务。该模型具备自动纠错的功能，并专注于理解提问人的问题方式（再次强调，将其视为一个人，并以相应方式下达指令）。

3.8.6 示例四：清理数据、执行数据分析并生成可视化

代码解释器实际上是一个内置的小型 Python 解释器，因此它可以调用多个 Python 生态库。例如，atplotlib 可以生成各种图表，qrcode 可以生成二维码，PIL 可以编辑图片，Graphviz 可以生成流程图等。

在数据分析和处理方面，Matplotlib 是一个 Python 的 2D 绘图库，能够以高质量的图像生成多种出版物质量级别的图形，它支持各种平台，并提供了许多图形库工具。

在选择图形时，应根据数据的特性和所要表达的信息进行决策。在实际使用中，可能还需要根据具体需求调整图形的参数，以便更好地表达和解释数据。

3.8.7 示例五：用 Python 复制 STATA 代码

用一个表格展现结果并输出成一个 csv 文件。

3.9 任务性能总结

总体而言，LLAMA2 在常识推理、知识面、阅读理解和数学能力等多个任务上表现出强大的性能，比LLAMA1、MPT、Falcon 和多数开源模型都更优。然而，与 GPT-4 和 PaLM-2-L 等模型相比，LLAMA2 在某些编码任务上仍存在一定的性能差距。尽管如此，LLAMA2 的优异表现证明其在各种自然语言处理任务中具有巨大的潜力。GPT-4 代码解释器的引入有效地弥补了 LLAMA 在数学和语言方面的固有弱点，并通过降低幻觉和虚构率，提升模型的表现。同时，LLAMA2 在数据分析和处理中展现出多功能性，为用户提供便捷、高效的解决方案，使其在多样的自然语言处理任务中表现出卓越性能。

左图展示了预训练的 GPT-4 模型在 MMLU 子集上的校准图。从图中可以观察到，该模型对于其生成结果的预测信心与实际正确的概率非常接近，呈现出较好的校准性。虚线对角线代表完美的校准，即模型的预测置信度与实际正确的概率完全一致。

而右图展示了经过 PPO（Proximal Policy Optimization）训练后的 GPT-4 模型在同一 MMLU 子集上的校准图。可见，当前的训练流程对模型的校准性造成了相当大的损害，导致其预测的置信度与实际正确的概率偏离较大。这表明在经过 PPO 训练后，模型的预测结果变得不够可靠和准确，存在一定的校准问题。

需要特别注意的是，校准性是模型评估中的一个重要指标，它反映了模型预测结果的可信度和置信度。理想情况下，一个校准良好的模型在其预测结果的置信度上应该与实际结果的概率相一致，这有助于确保模型在实际应用中能够提供可靠的输出。

5.2 GPT-4 的安全性与合规性

OpenAI 为了提高 GPT-4 的安全性和一致性进行了长达 6 个月的努力。在其内部评估中，GPT-4 相较于 GPT3.5 在对不允许内容的请求进行回应的可能性上降低了 82%。同时，在对真实回应进行生成的可能性方面，GPT-4 相较于 GPT-3.5 提高了 40%。此外，针对政策响应敏感请求（如医疗建议和自我伤害），GPT-4 的回应频率较 GPT-3.5 提高了 29%。

这些结果表明，OpenAI 对 GPT-4 进行了有效的改进，使其能够更好地遵循规定的内容限制，减少了不适当或不当回应的产生。同时，GPT-4 在生成真实回应方面表现更加准确和可靠，有助于提供更有价值的信息和服务。

为了改善 GPT-4 的性能和行为，OpenAI 采取了多种方法进行训练和监控。

首先，OpenAI 积极收集了更多的人工反馈，其中包括 ChatGPT 用户提交的反馈，以及与 50 多位专家合作在人工智能安全和安保等领域获得的早期反馈。这些反馈对于发现和纠正 GPT-4 的潜在问题和缺陷非常重要，有助于进一步改进模型的行为和性能。

其次，OpenAI 将之前模型的实际使用经验应用到 GPT-4 的安全研究和监控系统中。这意味着 OpenAI 从过去模型的应用中吸取教训，不断优化 GPT-4 的性能和安全性。类似于 ChatGPT，随着越来越多的用户使用 GPT4，OpenAI 将定期对其进行更新和改进，以确保模型能够适应实际应用需求。

同时，GPT-4 的先进推理和指令遵循能力为 OpenAI 的安全工作带来了便利。OpenAI 利用 GPT-4 来辅助创建用于模型微调的训练数据，并在训练、评估和监控过程中不断迭代和优化分类器。这样的做法有助于提高模型的鲁棒性和可靠性，加速安全性研究的进程。

5.3 LLAMA2 的安全性与合规性

在对 LLAMA2 的安全性进行评估时，研究团队使用了三个常用基准来评估其在以下三个关键维度上的表现：

 真实性：真实性指语言模型是否会产生错误信息。为了评估这一维度，研究团队采用了 TruthfulQA 基准。该基准旨在检测模型是否能够正确回答问题，避免产生虚假或误导性的答案。

 毒性：毒性指语言模型是否会产生有毒、粗鲁、有害的内容。为了评估这一维度，研究团队采用了ToxiGen 基准。该基准旨在检测模型是否会产生具有攻击性或不当内容，从而帮助识别和减少潜在的有害输出。

 偏见：偏见指语言模型是否会产生存在偏见的内容。为了评估这一维度，研究团队采用了 BOLD 基准。该基准旨在检测模型是否会产生具有种族、性别、地域等方面的偏见内容，以便提高模型的公平性和无偏性。

通过这三个基准的评估，研究团队可以全面了解 LLAMA2 在真实性、毒性和偏见等方面的表现情况。这有助于 OpenAI 进一步优化模型，确保其在各个方面都能够达到高标准的安全性，以满足用户和社会的需求，并促进人工智能的可持续发展。

预训练的安全性方面，预训练的安全性对于模型的健康发展至关重要。Meta 团队进行了一系列实验来评估预训练数据的安全性。其中，他们使用在 ToxiGen 数据集上微调的 HateBERT 分类器，对预训练语料库中的英文数据进行毒性评估。

Meta使用平均奖励模型得分作为模型在安全性和有用性方面的表现结果。他们观察到，通过增加安全数据的比例，模型在处理风险和对抗性提示时的性能有了显著提升。这表明提供更多安全数据示例可以帮助模型更好地处理潜在的风险情况，并产生更加安全和有用的回复。

在测试过程中，LLAMA2 模型出现了一些问题，其中一个主要问题是受到的RLHF训练过于频繁，导致其过于守规矩，对用户的查询做出过于保守的回应。另外，LLAMA2 在安全性方面过度敏感，这可能导致对用户查询的错误解读，比如用户要求写一首诗，但模型回答说不能赞扬暴力。这些问题反映了模型在处理多样化的用户请求时的局限性和不足之处。