17 万本盗版书，是「ChatGPT 们」变聪明的秘密-华威派

> 自媒体 > AI人工智能 > 17 万本盗版书，是「ChatGPT 们」变聪明的秘密

17 万本盗版书，是「ChatGPT 们」变聪明的秘密

来源：爱范儿

2023-08-26

196

管理

▲ 图片来自 Unsplash

没想到的是，提取出来的信息里，并没有任何带有「书名」「作者名」等标签的数据，一切都只是「文本」。

于是，Reisner 又另外写了一个程序去提取数据中的 ISBN 编号（国际标准书号），并将这些数据和其他线上图书数据库进行比对，以辨别出「Books3」中被收录的具体书籍。

最后，这一步找出了 19 万个 ISBN 编码，识别出 17 万个对应书名（实际书数量可能会略少于这个数，因为其中存在同一本书的不同版本），另外 2 万个编码则无法找到对应书名。

这些书里，大约有 1/3 是虚构作品，2/3 是非虚构作品，来自于大大小小不同的出版社。

是的，在这些被识别出的书里，也包括了文章开篇提到对 OpenAI 和 Meta 提出诉讼的三位作家的书籍，所以可以说是 Meta 的 LLaMA 以盗版书作为训练素材非常直接的证据的了。

此外，我们还能在其中看到《我的天才女友》作者埃莱娜·费兰特、《女仆的故事》作者玛格丽特·阿特伍德、史蒂芬 · 金、村上春树、著名饮食类作家迈克尔·波伦、惊悚小说作家詹姆斯·帕特森等人的众多作品。

▲ 玛格丽特·阿特伍德等八千多名作家也写了联名信，要求 AI 公司需要获得作家授权才可将书籍用作训练材料，图片来自《独立报》

除了著名作家的书籍以外，Reisner 还在「Books3」里找到了「科学教」创始人罗恩·哈伯德的 102 本低俗小说、90 本信奉「年轻地球创造论」的牧师约翰·F·迈克阿瑟的书，以及「外星人创造论」支持者埃里希·冯·丹尼肯的多部作品。

Reisner 在《大西洋月刊》的文章中指出，虽然「Books3」数据集在 AI 社区以外认知度不高，但在圈里挺受欢迎的，「可以下载，但要找到有点难度，想要浏览和分析也同样具有挑战性」。

像 Reisner 这样大费周章写程序来分析比对，并且还精心撰文在大众媒体上发布，还是首次。

与此同时，AI 圈对「Books3」也有心照不宣的维护，因为，以「Books3」创造者的话来说 —— 它是确保生成式 AI 发展不会被大公司垄断的重要资源。

「盗火者」还是「盗贼」？

▲ OpenAI 不再「Open」也不透明，图片来自 Politico

明星作家发起的官司也许引来更多关注，但拥有把 ChatGPT 告到「重造」的潜力的，却是传统新闻媒体。

上周，NPR 报道援引知情人士消息称《纽约时报》正在考虑起诉 OpenAI。

在过去几周里，《纽约时报》都在和 OpenAI 就授权协议谈判。然而，谈判进展似乎不太顺利，以至于《纽约时报》都开始考虑就侵权告 OpenAI 了。

报道称，联邦版权法规定，违法者每项「蓄意」侵权行为最高可罚 15 万美元，再结合《纽约时报》的文章数量，这个金额叠加起来「对于一家公司来说可能是致命的」。

除此以外，如果法官判定 OpenAI 的确非法拿了《纽约时报》的文章来训练大模型，法院也可以命令 OpenAI 销毁 ChatGPT 的数据集，强制它仅用已获得授权的作品来重新训练和创造 ChatGPT。

▲ 图片来自 BrookField

无论是原告是《纽约时报》还是书籍作家，这些官司（或潜在官司）能否胜诉，关键都在于 AI 巨头们是否能把这些信息的使用说成「合理使用」 —— 即在特定情况下，可允许不经许可去使用特定作品，譬如教学、评论、研究和报道等。

支持「合理使用」的人有两个论点：

生成式 AI 并不会重现它们用于训练的书籍本身，而是创造新内容；那些新内容并不会损害原本作品的市场。

纽约大学科技法律与政策诊所的负责人 Jason Schultz 称，在图书被盗用方面，这个论据还挺有力的。

但《纽约时报》的律师则坚持，OpenAI 对报纸文章的使用并不合乎「合理使用」。

假如用户能通过 AI 聊天机器人，获取文章中提及的新闻事件描述，用户可能就不会再去找文章阅读了，因此有可能会成为新闻文章的替代品，影响了原有市场。

法律博主樊百乐指出，知识产权法并非一成不变，但其核心却很坚定 —— 繁荣创作市场。

如果连估值数百亿美元的 AI 公司，都可以不付一分版权费，免费把作家耗费数年心血创作的作品拿去牟利，甚至盗用这些书去训练出意图替代作家的工具，这对创作者而言无疑是致命打击。

Presser 谈论到的「数据不公平」问题，也不应是侵犯创作者权利的借口。

版权问题终究会是决定 AI 能走多远的其中一个关键因素。

范德堡大学知识产权项目联席主任 Daniel Gervais 认为：

版权法是一把悬在 AI 公司头上的利剑，除非它们想出如何协商解决方案，否则这把剑未来几年都会悬在它们头上。

这一切只是新阶段的开始。

✍ ✍ ✍

最后，我们整理了部分仍在进行中的 AI 公司侵权诉讼，以供参考

0

点赞

赏钱

0

收藏

免责声明：本文仅代表作者个人观点，与华威派无关。其原创性以及文中陈述文字和内容未经本网证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。
凡本网注明 “来源：XXX（非华威派）”的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。
如因作品内容、版权和其它问题需要同本网联系的，请在一周内进行，以便我们及时处理。
QQ：2443165046 邮箱：info@goodmaoning.com

杭州警方侦破利用ChatGPT盗刷企业账户资金案

2023-08-26 17:17

Chatgpt神级对答——能力与能量

2023-08-26 17:01

相关文章

大火的ChatGPT究竟有多会聊天？

ChatGPT冲击下，中国教育的优势会荡然无存吗？

ChatGPT：开创对话式AI新时代

ChatGPT很强？中国也有！集度汽车机器人就将搭载，来围观一下？..

学会选课，一次过面试，90分公考面试大牛教你如何选择培训课程..

ChatGPT唤醒AI游戏？

ChatGPT非常危险，中国该禁了ChatGPT，否则全民将被洗脑？..

OpenAI官宣将在11月6日举办首次DevDay开发者大会：申请即将开放..

研究发现：ChatGPT能够准确预测股票走势，未来有望取代分析师..

关于作者

帝王之星(普通会员)

点击领取今天的签到奖励!

猜你喜欢

01

抛妻弃女31年，李连杰再次遇到前妻黄秋燕，泪点却在合影的位置上..

2022/09/12

02

豆瓣评分9.0以上的国产剧排行榜豆瓣评分9.0以上的国产剧前十..

2022/09/24

03

盘古和女娲（中国神话故事）

2022/08/27

04

2022离世的11位名人：有人患癌，有人突发意外，有人元旦当天离世..

2022/09/11

05

巨蟹座：一生最旺的颜色，能旺你一生，可以不喜欢，但必须爱上它..

8个月前

06

30个暖心睡前小故事，很甜很撩的睡前小故事

2022/08/26

07

香蕉是如何种出来的？从育苗到收获，揭秘香蕉种植的全过程..

2022/06/02

08

“没有好奇心，人就死了”！喜马拉雅鬼王——杨湃的鬼故事哲学..

2022/08/27

标签云

0

0

分享

请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索