家用版GPT-4！微软开源微调指令集效果不输原版，中英双语都能用-华威派

> 自媒体 > AI人工智能 > 家用版GPT-4！微软开源微调指令集效果不输原版，中英双语都能用

家用版GPT-4！微软开源微调指令集效果不输原版，中英双语都能用

来源：新智元

2023-05-14

260

管理

编辑：LRS

【新智元导读】缺数据不是问题，直接用GPT-4生成的指令就够了，标注员恐怕要失业了！

「指令」（Instruction）是ChatGPT模型取得突破性进展的关键因素，可以让语言模型的输出更符合「人类的偏好」。

但指令的标注工作需要耗费大量的人力，即便有了开源的语言模型，资金不足的学术机构、小公司也很难训练出自己ChatGPT.

最近微软的研究人员利用之前提出的Self-Instruct技术，首次尝试使用GPT-4模型来自动生成语言模型所需的微调指令数据。

频率最高的25对动词-名词

文中提出的两个模型分别在GPT-4和GPT-3生成的数据上进行了微调，可以看到LLaMA-GPT4以51.2%的占比在帮助性上要大大优于在GPT-3上微调的Alpaca（19.74%），而在诚实性和无害性标准下，则基本处于平局状态，GPT-3要略胜一筹。

在和原版GPT-4对比时，可以发现二者在三个标准上也是相当一致的，即GPT-4指令调优后的LLaMA表现与原始的GPT-4类似。

GPT-4自动评估

受 Vicuna 的启发，研究人员也选择用GPT-4来评估不同聊天机器人模型对80个未见过的问题所生成回答的质量，从 LLaMA-GPT-4(7B)和 GPT-4模型中收集回复，并从以前的研究中获得其他模型的答案，然后要求GPT-4对两个模型之间的回复质量进行评分，评分范围从1到10，并将结果与其他强竞争模型(ChatGPT 和 GPT-4)进行比较。

评估结果显示，反馈数据和奖励模型对提高 LLaMA 的性能是有效的；用GPT-4对LLaMA进行指令调优，往往比用text-davinci-003调优（即Alpaca）和不调优（即LLaMA）的性能更高；7B LLaMA GPT4的性能超过了13B Alpaca和LLaMA，但和GPT-4等大型商业聊天机器人相比，仍有差距。

从平均ROUGE-L得分来看，Alpaca优于LLaMA-GPT 4和GPT-4，可以注意到，LLaMA-GPT4和GPT4在ground truth回复长度增加时逐渐表现得更好，最终在长度超过4时表现出更高的性能，意味着当场景更具创造性时，可以更好地遵循指令。

在不同的子集中，LLaMA-GPT4跟GPT-4的行为相差无几；当序列长度较短时，LLaMA-GPT4和GPT-4都能生成包含简单的基本事实答案的回复，但会增加额外的词语，使回复更像聊天，可能会导致ROUGE-L得分降低。

参考资料：

https://arxiv.org/pdf/2304.03277.pdf

赏钱

免责声明：本文仅代表作者个人观点，与华威派无关。其原创性以及文中陈述文字和内容未经本网证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。
凡本网注明 “来源：XXX（非华威派）”的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。
如因作品内容、版权和其它问题需要同本网联系的，请在一周内进行，以便我们及时处理。
QQ：2443165046 邮箱：info@goodmaoning.com

第一批公司已采用GPT-4，都用它来做些什么？

2023-05-14 16:34

GPT-4 竟被 CS 学生「开源」了！OpenAI 威胁：不撤下项目就告你！

2023-05-14 16:33