简介
生成式人工智能(Generative AI)是当今版权法的热门话题之一。人工智能生成的人声在音乐行业引起了轰动,各平台已纷纷采取删除侵权内容的行动。作者和版权所有人担心,生成式人工智能工具建立在未经授权和无偿使用其作品的基础上,同时会对他们的生计产生负面的影响。但是,一些评论家指出,这些工具能使许多艺术家和内容创作者受益,因此在规范版权法如何处理这些技术时,应考虑他们的利益。另一些人则担心,现阶段的法律干预会导致市场集中,使创意世界更加同质化。
在欧盟和美国,最大的版权法问题可能是,使用版权作品来训练生成式人工智能模型是侵犯版权还是属于短暂和临时复制以及文本数据挖掘(TDM)例外(在欧盟)或合理使用(在美国)。在欧盟,生成式人工智能的出现扰乱了拟议的《人工智能法》的立法进程,并迫使立法者重新考虑如何对人工智能系统的提供者和使用者进行分类和分配责任。虽然《人工智能法》不是专门针对版权法的,但欧盟立法者目前正在考虑要求生成式人工智能系统的提供者“公开一份摘要,以披露受版权法保护的训练数据的使用情况”。
输入和输出:如何处理生成式人工智能的版权问题
从输入的角度来看,主要问题涉及构建人工智能系统所需的活动。特别是,人工智能工具在训练阶段需要从基础数据集中收集和提取相关信息,这些数据集往往包含受版权保护的作品。在欧盟,这些活动大多由《2019年数字单一市场版权指令(CDSM指令)》中的两个TDM例外规定来管理,其中包括出于科学目的的TDM(第3条)以及有时被称为“商业性的”TDM(第4条)。对于像Midjourney、Dalle-E或Firefly这样的模型,相关条款将是商业性的TDM例外。Stable Diffusion的训练活动的定性比较棘手,因为其公司StabilityAI向一个德国非营利组织LAION付费,以便为其生成式人工智能工具制作训练数据集(LAION-5B)等。鉴于CDSM指令第3条对科学性TDM例外情况的严格要求,Stable Diffusion的TDM活动至少有一部分可能属于CDSM指令第4条的范畴。
美国没有具体的TDM例外,相关法律问题是这些活动是否符合合理使用的条件。在Authors Guild诉HathiTrust和Authors Guild诉Google等案件之后,人们认为美国的合理使用原则允许对版权作品进行大量的TDM活动。美国的版权法可以说是世界上对TDM活动最宽容的法律之一,特别是与那些依靠更严格的例外和限制的法律相比,例如欧盟。
从输出的角度而言,一系列版权问题都需要解决。生成式人工智能系统的输出是否受版权保护?这种输出是否侵犯第三方的版权作品,特别是那些在人工智能系统训练阶段所“摄取”的作品?在美国法律中,输出是“摄取”的版权作品的“衍生作品”吗?是否有任何版权例外情况适用于可能侵犯版权的输出?
一些输入和输出问题已经在美国和英国进行了诉讼,最引人注目的是针对Stable Diffusion提供者的集体诉讼,以及盖蒂图片社(Getty Images)提起的诉讼。
欧盟版权法关于输入的法律制度
欧盟TDM例外
CDSM指令将TDM定义为“任何旨在分析数字形式的文本和数据的自动分析技术,以产生包括但不限于模式、趋势和关联的信息”。这样一个广泛的定义涵盖开发人工智能系统所需的许多训练活动,特别是机器学习类型的系统,包括生成式人工智能系统。
CDSM指令第3条和第4条包含2个与TDM有关的强制性例外。第3条规定了研究机构和文化遗产机构为科学研究(包括自然科学和人文科学)目的而进行TDM的例外情况,他们可以合法获取一些受附加条件限制的作品/客体。
第4条规定了为TDM目的对合法获取的作品/客体进行复制和摘录的例外。这是为了给那些可能不符合《信息社会指令(InfoSoc指令)》第5(1)条规定的临时和短暂复制例外条件的行为增加法律确定性。
在欧盟,已经有大量的学者对这些例外情况提出了批评意见。正如多位批评家所指出的,这2种TDM例外都具有限制性,可能会排除许多重要的应用,特别是在人工智能技术的发展方面。然而,生成式人工智能的出现及其与版权界的冲突,再加上有利的政治环境和时机,似乎给商业性TDM例外带来了新的风向,让其成为可行的处理生成式人工智能的政策选择。
商业性TDM的选择退出机制
商业性TDM例外为权利人提供了一个选择退出的机制。一些创作者已经在实践中使用这一条款,例如Spawning AI公司推出的HaveIBeenTrained网站,该网站“允许创作者选择退出艺术生成式人工智能模型——Stable Diffusion v3,该模型将在未来几个月内发布”。根据Spawning AI提供的数据,到今年4月下旬,已经有超过10亿件艺术品从Stable Diffusion训练集中删除。
评论家们对这是否是一个理想的发展存在分歧。一方面,像保罗.凯勒(Paul Keller)这样的评论家认为,这种方法有可能增加权利人的讨价还价能力,并导致与人工智能提供者的许可交易。同样,Communia最近的一份政策文件认为,选择退出的方法“是一个前瞻性的框架,旨在解决大规模使用版权作品进行机器学习所引起的问题。它确保了权利人与研究人员和机器学习开发者之间的利益平衡”。
另一方面,崔德科斯塔(Trendacosta)和多克托罗(Doctorow)提出了批评。他们认为,这种方法将导致市场集中和大公司对创作者进行剥削。因为创意劳动力市场已经严重集中,占主导地位的公司有很大的讨价还价能力,他们能够把合同条款强加给艺术家,要求他们以更少的报酬签字转让他们的“训练权”。中长期的结果将是大公司的权利更加集中,留给艺术家的控制权和报酬更少。
无论人们同意还是不同意,事实是,退出选择的方法已经写入法律,而且在实践中和欧盟的政策制定中似乎都展现出了强劲势头。
版权与人工智能法案的交集
在遭泄露的《人工智能法案》中,“一般目的人工智能系统”(GPAI)与“基础模型”有所区分。GPAI是一个能用于和适应广泛应用的人工智能系统,但GPAI并不是为这些应用特意设计的。基础模型是用大量数据进行训练,旨在输出并适用于广泛特殊任务的人工智能系统模型。重要的是,生成式人工智能系统属于基础模型的种类,旨在自主生成复杂的文本、图片、音频或视频。
《人工智能法案》第28b条第5a款对生成式人工智能模型的提供者施加了2项特别的具有版权影响的义务。第一个义务关于透明度和披露。第二个涉及保障措施,被视为内容审核义务。关键是,提供者必须确保在向市场提供基础模型之前或将其投入服务之前满足这2个要求。
透明度与披露
针对生成式人工智能模型的提供者的透明度要求有2个方面。首先,他们必须遵守第52条第(1)款中概述的透明度或信息义务。该条款要求,旨在与自然人互动的人工智能系统在设计和开发时,要及时、清晰、易懂地告知接触人工智能系统的自然人,他们正在与人工智能系统互动,除非从环境和使用背景中可以看出这一点。然后,该条款增加了一些关于这种人类与人工智能系统互动的额外信息要求。
其次,与版权有关的是,生成式人工智能模型的提供者应“记录并公开提供受版权法保护的训练数据的使用摘要”(第28b条第5a款)。这是最明确地旨在实现CDSM指令第4条规定的退出选择的条款。
显然,如果目标是让生成式人工智能供应商逐项列出训练数据集中包含的所有或大部分受版权保护的材料,并明确指出权利所有权信息,那么这项规定就无法遵守。
如果是这样的话,那么澄清这一义务的含义和范围就显得极为重要。在立法程序剩下的时间里,欧洲议会以及理事会和委员会在三边对话期间应该仔细考虑需要什么样的透明度来实现商业性TDM的选择退出机制。
可以说,有用的透明度类型允许版权所有人访问数据集以行使其退出权。不清楚目前的文本将如何实现这一点,因为它规定了一个在实践中无法满足的要求。此外,生成式人工智能提供者应该在这一过程中与版权所有人合作,例如制定可行的标准,使权利保留有效。
对人工智能生成的内容进行审查的保障措施
除了透明度规定,第28b条第5a款还增加了一项义务,即“在设计和开发基础模型时,应确保有足够的保障措施,以防止内容的生成违反欧盟法律的内容,并符合公认的技术水平,且不损害包括言论自由在内的基本权利”。此外,基础模型的提供者“应协助此类人工智能系统的下游提供者建立本款中提到的充分保障措施”。虽然这些要求不是专门针对版权的,但似乎也能抑制侵犯版权的人工智能系统生成的输出。
某些人工智能生成的输出有可能侵犯模型训练期间使用的作品的创作者的权利。生成式模型能够“记忆”它们所训练的内容,即在输出和输入作品之间产生同一性。虽然理论上有可能产生同一性,而且也有报道,但这种情况很少。即使在Stability AI的集体诉讼中,起诉书也承认,为响应特定的文本提示(Text Prompt)而提供的Stable Diffusion输出图像中,没有一个与训练数据中的任何特定图像密切匹配。(编译自copyrightblog.kluweriplaw.com)
翻译:罗先群 校对:刘鹏
杭州君度专利代理事务所版权所有 浙ICP备12043267号-1