> 自媒体 > AI人工智能 > OpenAI 被曝用17万本盗版书训练 AI
OpenAI 被曝用17万本盗版书训练 AI
来源:防脱勾艺术家
2023-08-30
279
管理

传记作家 Sarah Silverman(也是笑星)、Christopher Golden 和 Richard Kadrey 在7月份的时候起诉 OpenAI 和 Meta,指控这两家公司未经作者同意,将他们的书籍用作训练大型语言模型的材料。现在证据来了。

最新证据表明 ChatGPT 能够根据输入的提示词摘要整本书。对于 Meta 的证据则来源于 LLaMA 论文,其中提到训练数据包括 EleutherAI 整理的 "The Pile" 数据,而 "The Pile" 又包含了 "Books3" 数据库,而这些内容正是来自盗版图书库 Bibliotik 的数据。Books3 数据库是一个包含数万本图书的资源,其中大约三分之一是虚构作品,三分之二是非虚构作品,来自不同出版社。

作家和工程师 Alex Reisner 揭露了 Meta 大模型背后使用的盗版书籍列表,其中包括多位知名作家的作品。虽然 Books3 数据库并不是很知名,但在 AI 社区内广受欢迎,被认为是确保生成式 AI 开发不被大公司垄断的重要资源。

Sarah Silverman 传记

1
点赞
赏钱
0
收藏
免责声明:本文仅代表作者个人观点,与华威派无关。其原创性以及文中陈述文字和内容未经本网证实,对本文以及其中全部或者 部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。
凡本网注明 “来源:XXX(非华威派)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对 其真实性负责。
如因作品内容、版权和其它问题需要同本网联系的,请在一周内进行,以便我们及时处理。
QQ:2443165046 邮箱:info@goodmaoning.com
关于作者
天泰悠然(普通会员)
点击领取今天的签到奖励!
签到排行
1
0
分享
请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索