> 自媒体 > AI人工智能 > 推特被马斯克“限流”后,GPT-4等大模型的训练数据没了?
推特被马斯克“限流”后,GPT-4等大模型的训练数据没了?
来源:自在星空wW
2023-07-04
249
管理

截至 2019 年,Reddit 每月拥有超过 4.3 亿活跃用户,覆盖超过 120 万个特殊兴趣社区,其中活跃用户达 13.8 万人。由于Reddit的数据更新非常频繁,更适合进行真实的对话,甚至某些内容是用户绝不会公开表达的,因此这些数据被认为具有特别的价值,而Reddit也希望通过这种方式防止将这些价值免费提供给全球最大的一些公司。如今,Reddit 正在寻找方法将其大量用户生成的内容货币化,这些内容已经越来越多地用于训练各类文本生成机器学习模型,例如 OpenAI 的 ChatGPT 和 GPT-4,甚至未来的 GPT-5。大模型狂奔之下,数据“枯竭”隐忧显现一直以来,人工智能的发展都离不开大量的数据。无论是图像识别、自然语言处理,还是复杂的决策制定,数据都是研究人员训练这些模型的基石。然而,随着模型的规模越来越大,训练它们所需的数据也在增加,而数据的来源、数据的质量以及数据的使用权限等问题也都在慢慢浮现。如今,推特阻止未注册用户查看推文的政策很可能会对大模型的训练数据产生影响。无论用户用哪种方式尝试访问网站,通过主页或是直接链接到一条推文或个人资料,都会立即遇到一个登录提示,完全遮挡了用户的视线。马斯克在推特上表示,这些变化是为了“解决数据抓取和系统操纵的极端程度”。他也曾表达过对OpenAI等人工智能公司使用推特的数据来训练他们的大模型的不满。而现在,由于推特的新政策,这些公司可能会发现获取训练数据更加困难。这一变化的背后,可能正是对数据枯竭的担忧。推特的这一改变不仅对AI领域的开发者带来了挑战,也提出了一个更大的问题:未来的数据从哪里来?根据Data Reportal公布的数据,2021年全球互联网人均单日使用时长为6小时58分钟,较2020年增加4分钟,同比上升0.97%。用户更多的行为才会在互联网上产生更多的数据,但从使用时长来看,继续大幅度增加已经不再可能。但对于大模型来说,虽然短期内参数量的指数级增长也希望渺茫,但是十倍甚至百倍的扩张依然可以做到。根据模型的缩放定律——模型规模的大小取决于数据的量级,因此,在最近几年里,大部分大模型是通过扩大训练使用的数据量来提升性能的。去年,一项来自 Epoch AI Research 团队的研究指出了一个残酷的事实:模型还要继续做大,但数据却可能不够用了。研究人员预测了 2022 年至 2100 年间可用的图像和语言数据总量,并据此估计了未来大模型训练数据集规模的增长趋势。在该团队的实验中,要预测数据累积率,就需要先确定哪些因素会导致数据的增长。由于大部分数据是用户生成的并被存储在互联网上,所以决定某一时期产生多少数据的因素就包括人口数量、互联网普及率和每个互联网用户产生的平均数据量,这些因素相乘并稍加调整后就可以得到一个用户生成内容累积率的模型。

结果表明,高质量的语言数据存量将在 2026 年耗尽,低质量的语言数据和图像数据的存量将分别在 2030 年至 2050 年、2030 年至 2060 年枯竭。这意味着,如果数据效率没有显著提高或有新的数据源可用,那么到 2040 年,模型规模的增长将会放缓。

写在最后虽然数据增长放缓的长期趋势是不可避免的,但数据使用效率的提升可能成为解决问题的最佳途径,未来大模型有可能并不需要更多数据就能实现同等的性能,单纯拼参数量的时代也终将结束。近年来,无监督学习取得了一定的突破,允许模型使用少量标注数据和大量未标注数据来针对多项任务进行微调,无监督模型也被证明能够为未标注数据生成有价值的伪标签。而多模态模型的快速发展更是让模型能够对同一数据从不同角度进行考虑,实现了比单一模态更好的性能。同时,随着科技的进一步发展,物联网、自动驾驶等以前未曾有过数据积累的行业也在产生新的数据种类,各类传感器的使用也在让数据的获取变得更加简单,这些行业有望实现数据量的指数级增长,也将为大模型训练提供更多的数据来源。
0
点赞
赏钱
0
收藏
免责声明:本文仅代表作者个人观点,与华威派无关。其原创性以及文中陈述文字和内容未经本网证实,对本文以及其中全部或者 部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。
凡本网注明 “来源:XXX(非华威派)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对 其真实性负责。
如因作品内容、版权和其它问题需要同本网联系的,请在一周内进行,以便我们及时处理。
QQ:2443165046 邮箱:info@goodmaoning.com
关于作者
帝王之星(普通会员)
点击领取今天的签到奖励!
签到排行
0
0
分享
请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索