> 自媒体 > AI人工智能 > 17 万本盗版书,是「ChatGPT 们」变聪明的秘密
17 万本盗版书,是「ChatGPT 们」变聪明的秘密
来源:爱范儿
2023-08-26
142
管理

▲ 图片来自 Unsplash

没想到的是,提取出来的信息里,并没有任何带有「书名」「作者名」等标签的数据,一切都只是「文本」。

于是,Reisner 又另外写了一个程序去提取数据中的 ISBN 编号(国际标准书号),并将这些数据和其他线上图书数据库进行比对,以辨别出「Books3」中被收录的具体书籍。

最后,这一步找出了 19 万个 ISBN 编码,识别出 17 万个对应书名(实际书数量可能会略少于这个数,因为其中存在同一本书的不同版本),另外 2 万个编码则无法找到对应书名。

这些书里,大约有 1/3 是虚构作品,2/3 是非虚构作品,来自于大大小小不同的出版社。

是的,在这些被识别出的书里,也包括了文章开篇提到对 OpenAI 和 Meta 提出诉讼的三位作家的书籍,所以可以说是 Meta 的 LLaMA 以盗版书作为训练素材非常直接的证据的了。

此外,我们还能在其中看到《我的天才女友》作者埃莱娜·费兰特、《女仆的故事》作者玛格丽特·阿特伍德、史蒂芬 · 金、村上春树、著名饮食类作家迈克尔·波伦、惊悚小说作家詹姆斯·帕特森等人的众多作品。

▲ 玛格丽特·阿特伍德等八千多名作家也写了联名信,要求 AI 公司需要获得作家授权才可将书籍用作训练材料,图片来自《独立报》

除了著名作家的书籍以外,Reisner 还在「Books3」里找到了「科学教」创始人罗恩·哈伯德的 102 本低俗小说、90 本信奉「年轻地球创造论」的牧师约翰·F·迈克阿瑟的书,以及「外星人创造论」支持者埃里希·冯·丹尼肯的多部作品。

Reisner 在《大西洋月刊》的文章中指出,虽然「Books3」数据集在 AI 社区以外认知度不高,但在圈里挺受欢迎的,「可以下载,但要找到有点难度,想要浏览和分析也同样具有挑战性」。

像 Reisner 这样大费周章写程序来分析比对,并且还精心撰文在大众媒体上发布,还是首次。

与此同时,AI 圈对「Books3」也有心照不宣的维护,因为,以「Books3」创造者的话来说 —— 它是确保生成式 AI 发展不会被大公司垄断的重要资源。

「盗火者」还是「盗贼」?

▲ OpenAI 不再「Open」也不透明,图片来自 Politico

明星作家发起的官司也许引来更多关注,但拥有把 ChatGPT 告到「重造」的潜力的,却是传统新闻媒体。

上周,NPR 报道援引知情人士消息称《纽约时报》正在考虑起诉 OpenAI。

在过去几周里,《纽约时报》都在和 OpenAI 就授权协议谈判。然而,谈判进展似乎不太顺利,以至于《纽约时报》都开始考虑就侵权告 OpenAI 了。

报道称,联邦版权法规定,违法者每项「蓄意」侵权行为最高可罚 15 万美元,再结合《纽约时报》的文章数量,这个金额叠加起来「对于一家公司来说可能是致命的」。

除此以外,如果法官判定 OpenAI 的确非法拿了《纽约时报》的文章来训练大模型,法院也可以命令 OpenAI 销毁 ChatGPT 的数据集,强制它仅用已获得授权的作品来重新训练和创造 ChatGPT。

▲ 图片来自 BrookField

无论是原告是《纽约时报》还是书籍作家,这些官司(或潜在官司)能否胜诉,关键都在于 AI 巨头们是否能把这些信息的使用说成「合理使用」 —— 即在特定情况下,可允许不经许可去使用特定作品,譬如教学、评论、研究和报道等。

支持「合理使用」的人有两个论点:

生成式 AI 并不会重现它们用于训练的书籍本身,而是创造新内容;那些新内容并不会损害原本作品的市场。

纽约大学科技法律与政策诊所的负责人 Jason Schultz 称,在图书被盗用方面,这个论据还挺有力的。

但《纽约时报》的律师则坚持,OpenAI 对报纸文章的使用并不合乎「合理使用」。

假如用户能通过 AI 聊天机器人,获取文章中提及的新闻事件描述,用户可能就不会再去找文章阅读了,因此有可能会成为新闻文章的替代品,影响了原有市场。

法律博主樊百乐指出,知识产权法并非一成不变,但其核心却很坚定 —— 繁荣创作市场。

如果连估值数百亿美元的 AI 公司,都可以不付一分版权费,免费把作家耗费数年心血创作的作品拿去牟利,甚至盗用这些书去训练出意图替代作家的工具,这对创作者而言无疑是致命打击。

Presser 谈论到的「数据不公平」问题,也不应是侵犯创作者权利的借口。

版权问题终究会是决定 AI 能走多远的其中一个关键因素。

范德堡大学知识产权项目联席主任 Daniel Gervais 认为:

版权法是一把悬在 AI 公司头上的利剑,除非它们想出如何协商解决方案,否则这把剑未来几年都会悬在它们头上。

这一切只是新阶段的开始。

✍ ✍ ✍

最后,我们整理了部分仍在进行中的 AI 公司侵权诉讼,以供参考

0
点赞
赏钱
0
收藏
免责声明:本文仅代表作者个人观点,与华威派无关。其原创性以及文中陈述文字和内容未经本网证实,对本文以及其中全部或者 部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。
凡本网注明 “来源:XXX(非华威派)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对 其真实性负责。
如因作品内容、版权和其它问题需要同本网联系的,请在一周内进行,以便我们及时处理。
QQ:2443165046 邮箱:info@goodmaoning.com
关于作者
帝王之星(普通会员)
点击领取今天的签到奖励!
签到排行
0
0
分享
请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索