▲ 图片来自 Unsplash
没想到的是,提取出来的信息里,并没有任何带有「书名」「作者名」等标签的数据,一切都只是「文本」。
于是,Reisner 又另外写了一个程序去提取数据中的 ISBN 编号(国际标准书号),并将这些数据和其他线上图书数据库进行比对,以辨别出「Books3」中被收录的具体书籍。
最后,这一步找出了 19 万个 ISBN 编码,识别出 17 万个对应书名(实际书数量可能会略少于这个数,因为其中存在同一本书的不同版本),另外 2 万个编码则无法找到对应书名。
这些书里,大约有 1/3 是虚构作品,2/3 是非虚构作品,来自于大大小小不同的出版社。
是的,在这些被识别出的书里,也包括了文章开篇提到对 OpenAI 和 Meta 提出诉讼的三位作家的书籍,所以可以说是 Meta 的 LLaMA 以盗版书作为训练素材非常直接的证据的了。
此外,我们还能在其中看到《我的天才女友》作者埃莱娜·费兰特、《女仆的故事》作者玛格丽特·阿特伍德、史蒂芬 · 金、村上春树、著名饮食类作家迈克尔·波伦、惊悚小说作家詹姆斯·帕特森等人的众多作品。
▲ 玛格丽特·阿特伍德等八千多名作家也写了联名信,要求 AI 公司需要获得作家授权才可将书籍用作训练材料,图片来自《独立报》
除了著名作家的书籍以外,Reisner 还在「Books3」里找到了「科学教」创始人罗恩·哈伯德的 102 本低俗小说、90 本信奉「年轻地球创造论」的牧师约翰·F·迈克阿瑟的书,以及「外星人创造论」支持者埃里希·冯·丹尼肯的多部作品。
Reisner 在《大西洋月刊》的文章中指出,虽然「Books3」数据集在 AI 社区以外认知度不高,但在圈里挺受欢迎的,「可以下载,但要找到有点难度,想要浏览和分析也同样具有挑战性」。
像 Reisner 这样大费周章写程序来分析比对,并且还精心撰文在大众媒体上发布,还是首次。
与此同时,AI 圈对「Books3」也有心照不宣的维护,因为,以「Books3」创造者的话来说 —— 它是确保生成式 AI 发展不会被大公司垄断的重要资源。
「盗火者」还是「盗贼」?▲ OpenAI 不再「Open」也不透明,图片来自 Politico
明星作家发起的官司也许引来更多关注,但拥有把 ChatGPT 告到「重造」的潜力的,却是传统新闻媒体。
上周,NPR 报道援引知情人士消息称《纽约时报》正在考虑起诉 OpenAI。
在过去几周里,《纽约时报》都在和 OpenAI 就授权协议谈判。然而,谈判进展似乎不太顺利,以至于《纽约时报》都开始考虑就侵权告 OpenAI 了。
报道称,联邦版权法规定,违法者每项「蓄意」侵权行为最高可罚 15 万美元,再结合《纽约时报》的文章数量,这个金额叠加起来「对于一家公司来说可能是致命的」。
除此以外,如果法官判定 OpenAI 的确非法拿了《纽约时报》的文章来训练大模型,法院也可以命令 OpenAI 销毁 ChatGPT 的数据集,强制它仅用已获得授权的作品来重新训练和创造 ChatGPT。
▲ 图片来自 BrookField
无论是原告是《纽约时报》还是书籍作家,这些官司(或潜在官司)能否胜诉,关键都在于 AI 巨头们是否能把这些信息的使用说成「合理使用」 —— 即在特定情况下,可允许不经许可去使用特定作品,譬如教学、评论、研究和报道等。
支持「合理使用」的人有两个论点:
生成式 AI 并不会重现它们用于训练的书籍本身,而是创造新内容;那些新内容并不会损害原本作品的市场。纽约大学科技法律与政策诊所的负责人 Jason Schultz 称,在图书被盗用方面,这个论据还挺有力的。
但《纽约时报》的律师则坚持,OpenAI 对报纸文章的使用并不合乎「合理使用」。
假如用户能通过 AI 聊天机器人,获取文章中提及的新闻事件描述,用户可能就不会再去找文章阅读了,因此有可能会成为新闻文章的替代品,影响了原有市场。
法律博主樊百乐指出,知识产权法并非一成不变,但其核心却很坚定 —— 繁荣创作市场。
如果连估值数百亿美元的 AI 公司,都可以不付一分版权费,免费把作家耗费数年心血创作的作品拿去牟利,甚至盗用这些书去训练出意图替代作家的工具,这对创作者而言无疑是致命打击。
Presser 谈论到的「数据不公平」问题,也不应是侵犯创作者权利的借口。
版权问题终究会是决定 AI 能走多远的其中一个关键因素。
范德堡大学知识产权项目联席主任 Daniel Gervais 认为:
版权法是一把悬在 AI 公司头上的利剑,除非它们想出如何协商解决方案,否则这把剑未来几年都会悬在它们头上。
这一切只是新阶段的开始。
✍ ✍ ✍
最后,我们整理了部分仍在进行中的 AI 公司侵权诉讼,以供参考
相关文章
猜你喜欢