科幻纪录片《我们需要谈谈》(AI We Need To Talk About A.I.,2020)画面。
OpenAI公司的ChatGPT这类的大型语言模型需要消耗大量的文本,然后这些生成式人工智能开始“自我训练”,以便于使用模仿人类自然的回应方式来回答用户的提示或问题。它们可以编写代码、创作粉丝小说、代拟求职申请信,或者帮助完成学校作业。另外,Meta公司的生成式人工智能语言模型LLaMA(一种语言模型)与ChatGPT有所不同,它不是一个问答系统,而是一个旨在为人工智能领域内的研究人员提供工具的研究工具。然而,这几起诉讼对这类模型接收信息的方式和数据来源提出了控诉。
人工智能模型的资料通常来自于电子图书馆,其中的一部分是合法的,比如Project Gutenberg(数据库),这是一个收集版权已过期的电子书的数据库。另外一些来源常被称为“影子图书馆”,其中充斥着一些读者可以获得的电子书,但通常缺乏作者和出版商的版权许可。诉讼指责Meta和OpenAI公司向其人工智能模型提供了包括来自“影子图书馆”收集的书籍在内的数据,并称这种做法是“公然违法”。
这项诉讼中附有与ChatGPT的对话副本来支持原告的主张,这份对话内容显示,这些人工智能模型能够准确地概括莎拉·西尔弗曼、理查德·凯德里和克里斯托弗·戈登等人所写的书籍,比如ChatGPT可以为西尔弗曼的回忆录《尿床者》、凯德里的畅销书系列“沙人斯利姆系列”(Sandman SlimSeries)以及戈登的超自然惊悚小说《亚拉致命峡谷》(Ararat)等书籍生成摘要。
在这项发起的诉讼中,被视为涉及侵权的几本书籍。
这项诉讼还引用了公开发表的评论,该评论者声称收集了Meta公司用于“训练”人工智能的图书数据,并确认其中包括了知名影子图书馆“Bibliotik”的全部图书,总共超过19万6640本的侵权图书。几位原告也指控OpenAI公司向其ChatGPT软件提供了未经授权的图书来“获得丰厚的利润”。据《洛杉矶时报》的报道,生成式人工智能引发的担忧也扩散到了音乐、银行、电影业在内的其他行业,比如美国编剧工会发起罢工的理由之一,就是好莱坞的制作工作室正在使用人工智能软件取代编剧和演员的工作。
参考资料:
(1)Sarah Silverman Sues OpenAI and Meta Over Copyright Infringement
https://www.nytimes.com/2023/07/10/arts/sarah-silverman-lawsuit-openai-meta.html
(2)Sarah Silverman and other bestselling authors sue Meta and OpenAI for copyright infringement
编译/李永博
编辑/罗东
校对/陈荻雁
相关文章
猜你喜欢