GPT-5将死于GPT-4背刺？牛津剑桥研究警告：AI训AI会让模型崩溃！-华威派

> 自媒体 > AI人工智能 > GPT-5将死于GPT-4背刺？牛津剑桥研究警告：AI训AI会让模型崩溃！

GPT-5将死于GPT-4背刺？牛津剑桥研究警告：AI训AI会让模型崩溃！

来源：新智元

2023-06-25

178

管理

编辑：编辑部

【新智元导读】最差的人类语料，也要胜过AI生成的文本。

随着GPT-4、Stable Diffusion和Midjourney的爆火，越来越多的人开始在工作和生活中引入生成式AI技术。

甚至，有人已经开始尝试用AI生成的数据来训练AI了。难道，这就是传说中的「数据永动机」？

然而，来自牛津、剑桥、帝国理工等机构研究人员发现，如果在训练时大量使用AI内容，会引发模型崩溃（model collapse），造成不可逆的缺陷。

论文地址：https://arxiv.org/abs/2306.07899v1

模型崩溃

而最开始提到的「模型崩溃」，就是在给模型投喂了太多来自AI的数据之后，带来的能够影响多代的退化。

也就是，新一代模型的训练数据会被上一代模型的生成数据所污染，从而对现实世界的感知产生错误的理解。

更进一步，这种崩溃还会引发比如基于性别、种族或其他敏感属性的歧视问题，尤其是如果生成AI随着时间的推移学会在其响应中只生成某个种族，而「忘记」其他种族的存在。

而且，除了大语言模型，模型崩溃还会出现在变分自编码器（VAE）、高斯混合模型上。

需要注意的是，模型崩溃的过程与灾难性遗忘（catastrophic forgetting）不同，模型不会忘记以前学过的数据，而是开始把模型的错误想法曲解为现实，并且还会强化自己对错误想法的信念。

举个例子，比如模型在一个包含100张猫图片的数据集上进行训练，其中有10张蓝毛猫，90张黄毛猫。

模型学到的结论是，黄毛猫更普遍，同时会倾向于把蓝毛猫想象的比实际更偏黄，所以在被要求生成新数据时可能会返回一些类似绿毛猫的结果。

而随着时间的推移，蓝毛的原始特征在多个训练epoch中逐渐被侵蚀，直接从蓝色变成了绿色，最终再演变为黄色，这种渐进的扭曲和丢失少数特征的现象就是模型崩溃。

然而，在一些特殊的文本中，这些方法并不能有效执行。比如，在EPFL研究中有ChatGPT合成的10个总结，而GPTZero只检测到6个是合成的。

对此，研究人员通过微调自己的模型来检测AI的使用，发现ChatGPT在编写本文时是最常用的LLM。

对于构建的检测AI数据的方法，研究人员利用原始研究中的答案和用ChatGPT合成的数据，训练了一个定制的「合成-真实分类器」。

然后用这个分类器来估计重新进行的任务中合成答案的普遍性。

具体来讲，研究人员首先使用真正由人类撰写的MTurk回应，和合成LLM生成的回应，来训练特定任务的「合成-真实分类器」。

其次，将这个分类器用于MTurk的真实回应（其中众包人可能使用，也可能没有依赖LLM），以估计LLM使用的普遍性。

最后，研究者确认了结果的有效性，在事后比较分析击键数据与MTurk的回应。

实验结果显示，这个模型在正确识别人工智能文本方面高达99%的准确率。

此外，研究人员用击键数据验证了结果，发现：

- 完全在MTurk文本框中写的总结（不太可能是合成的）都被归类为真实的；

- 在粘贴的总结中，提取式总结和LLM的使用有明显区别。

具体来讲，人工智能生成的文本通常与原始总结几乎没有相似之处。这表明AI模型正在生成新文本，而不是复制和粘贴原始内容的一部分。

「人类数据」很重要

现在，人们普遍担心LLM将塑造人类的「信息生态系统」，也就是说，在线可获得的大部分信息都是由LLM生成的。

使用综合生成数据训练的LLM的性能明显降低，就像Ilia Shumailov所称会让模型患上「痴呆症」。

而这个问题将会变得更加严重，因为随着LLM的普及，众包工作者们已经广泛使用ChatGPT等各种LLM。

但对于人类内容创作者来说，这是一个好消息，提高工作效率的同时，还赚到了钱。

但是，若想挽救LLM不陷于崩溃的边缘，还是需要真实的「人类数据」。

1. 人类数据在科学中仍然是至关重要的

2. 在合成数据上训练模型可能会带来偏见和意识形态永久化

3. 随着模型变得流行和更好/多模态，采用率只会增加

总的来说，由人类生成的原始数据可以更好地表示世界，虽然也可能包含某些劣质、概率较低的数据；而生成式模型往往只会过度拟合流行数据，并对概率更低的数据产生误解。

那么，在充斥着生成式AI工具和相关内容的未来，人类制作的内容或许会比今天更有价值，尤其是作为AI原始训练数据的来源。

参考资料：

https://arxiv.org/abs/2306.07899v1

https://arxiv.org/abs/2305.17493v2

0

点赞

赏钱

0

收藏

免责声明：本文仅代表作者个人观点，与华威派无关。其原创性以及文中陈述文字和内容未经本网证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。
凡本网注明 “来源：XXX（非华威派）”的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。
如因作品内容、版权和其它问题需要同本网联系的，请在一周内进行，以便我们及时处理。
QQ：2443165046 邮箱：info@goodmaoning.com

万人联名封杀GPT-4背后：有一个神秘组织，马斯克等大佬都是信徒

2023-06-25 17:00

把GPT-4接入《我的世界》，科学家正在发掘AI的新潜力

2023-06-25 16:58

相关文章

2023大火的ChatGPT到底是什么？

GPT-4 泄露的细节揭示了其庞大的规模和令人印象深刻的架构..

ChatGPT等人工智能机器人，能否替代心理咨询师的工作呢？..

不会跟女生聊天？掌握这3个技巧，让她对你掏心掏肺

对比火爆全网的ChatGPT，聊天机器人有什么其他功能？-沃丰科技..

幽默聊天：学会这些，才叫会聊天！30年社交经验一次性全告诉你..

ChatGPT到底有多利害

聊天的技巧#人际交往

ChatGPT太火，这些人却给它泼冷水

关于作者

清水大树(普通会员)

点击领取今天的签到奖励!

猜你喜欢

01

抛妻弃女31年，李连杰再次遇到前妻黄秋燕，泪点却在合影的位置上..

2022/09/12

02

豆瓣评分9.0以上的国产剧排行榜豆瓣评分9.0以上的国产剧前十..

2022/09/24

03

盘古和女娲（中国神话故事）

2022/08/27

04

2022离世的11位名人：有人患癌，有人突发意外，有人元旦当天离世..

2022/09/11

05

巨蟹座：一生最旺的颜色，能旺你一生，可以不喜欢，但必须爱上它..

5个月前

06

30个暖心睡前小故事，很甜很撩的睡前小故事

2022/08/26

07

香蕉是如何种出来的？从育苗到收获，揭秘香蕉种植的全过程..

2022/06/02

08

“没有好奇心，人就死了”！喜马拉雅鬼王——杨湃的鬼故事哲学..

2022/08/27

标签云

0

0

分享

请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索