作者:叶胜男 浙江省杭州市中级人民法院四级高级法官
目录
一、问题的提出:训练数据使用的困境
(一)数据产权规则尚未形成共识
(二)训练数据采购成本较高
(三)数据合规负担较重
二、人工智能训练数据版权问题的学理争议及澄清
(一)著作权排除
(二)许可模式
(三)合理使用
三、域外法律实践的比较与镜鉴
(一)美国:“转换性使用”在司法实践中的演进与挑战
(二)欧盟:从“文本与数据挖掘”(TDM)例外看规则路径
(三)日本:灵活的“非享受”目的例外条款
四、人工智能训练数据合理使用的制度完善构想
(一)构建中国人工智能训练数据合理使用制度的核心原则
(二)构建中国人工智能训练数据合理使用制度的路径
内容提要:我国数据要素市场的爆发式增长与生成式人工智能的“数据依赖”特性,凸显出传统著作权保护体系与人工智能训练需求的深层矛盾。本文以产业实践为基础,剖析模型训练数据面临的核心困境,包括数据产权规则模糊、采购成本过高、版权与个人信息保护的双重合规压力等。随后从比较法视角出发,系统梳理训练数据版权问题的三种解决路径及其学理争议,深入剖析美国、欧盟、日本三种立法司法模式的利弊得失。在此基础上,重点论证“合理使用制度”作为核心解决方案的可行性与必要性,对现有框架进行反思,最终提出以技术中立与发展为导向、以利益平衡为原则,采用分类规制,设立版权人保护机制,引入透明度义务,探索合理使用与许可制度相结合等对策,以构建符合中国国情且兼顾各方利益的训练数据合理使用制度。
关键词:人工智能生成内容 训练数据 数据产权 合理使用 著作权保护
我国数据要素市场正经历高速扩张期,2024年全国数据生产总量达41.06泽字节,同比增长25%,数据领域的从业企业突破19万家,产业规模超过2万亿元。上海数据交易所预测,至2030年全球数据交易市场规模将达3708亿美元,我国数据产业规模有望增至7.5万亿元,形成支撑人工智能产业发展的强大数据基础。然而,生成式人工智能(Generative Artificial Intelligence,以下简称“GAI”)的“数据饥饿”与传统著作权法体系仍然存在亟待缓解的内在张力:一方面,高质量训练数据大量来源于受著作权保护的文学作品、数据库等,如OpenAI训练模型时可能使用了互联网上的海量文本与图像资源;另一方面,著作权法遵循“作者中心主义”,强调著作权利人对作品的专有控制,作品使用行为需要获得权利人的“一对一”授权,但此模式难以满足机器训练对海量数据的需求。
这种矛盾本质上是技术创新与制度相对滞后的不协调。著作权是大众传播技术的产物,其权利配置模式以“传播控制”为核心,新技术对传统传播媒介的改变或超脱,可能打破使用者和权利人之间的平衡。要解决上述问题,必须结合我国数字经济发展实际,在借鉴国际经验的基础上,保障GAI创新发展与恪守社会价值之间的制度性平衡,推动数据要素价值释放与著作权保护的动态平衡。
一、问题的提出:训练数据使用的困境
GAI在模型训练阶段,需要大量高质量、多样化的数据。数据材料的质量和多样性,直接影响到人工智能生成内容(Artificial Intelligence Generative Content,以下简称“AIGC”)的质量。而模型训练阶段虽然主要使用的是以“版权素材”为代表的语料,但此类语料可能同时包含有个人信息与隐私、作品、经营信息等多种数据,训练数据自身涉及的法律关系较为复杂,这也导致了数据使用的困境。
(一)数据产权规则尚未形成共识
人工智能在整个发展过程中面临诸多法律风险和问题,其中最突出的就是数据产权问题。从赋权保护学说的证成来看,数据产权完美地衔接了洛克提出的“人类共有—劳动—财产权”的财产确权过程,劳动赋权理论成为该学说得以成型的基石:在数据生产加工、流通的过程中花费了大量精力和财产,赋权保护也反过来推动生产研发,从而使整个市场环境受益。这是劳动赋权理论的制度功能,但依据劳动因素确定产权归属也存在一定的制度盲区。劳动赋权理论是确定权利归属的重要因素,但并非唯一根据。该理论的底层逻辑(基于有形财产的“排他性占有”)与数据的“非竞争性”特质存在冲突。数据的使用权争议核心,往往不是“谁拥有它”,而是“谁能以何种方式使用它”。例如,权利人是否有权阻止机器对其作品进行非表达性的“学习”和“分析”?这涉及对权利的具体划分,而如何界分数据使用、收益、处分行为的边界,已经超出了“劳动创造权利”这一原则性命题的解释范围。若仅以劳动赋权理论作为衡量权益的标准,可能因赋予数据处理者过于宽泛的权利造成利益失衡,导致不公正的结果。
与传统生产生活相配套的财产权规则体系也难以直接适用于数据这一新型生产要素,数据的特征与财产权规则的逻辑存在一定的不适配情况。用于模型训练的电子数据是信息技术发展应用的产物,具有虚拟性、低成本复制性和主体多元性等特点,这些技术特点影响着数据在经济活动中的性质,使数据具备了非竞争性、潜在的非排他性和异质性。而这些特性明显区别于土地、资本、劳动等传统生产要素。如果将数据作为财产权的客体,因数据背后的信息常来自大量不同行为人或事件,各方参与数据形成的角度各异,在构建产权框架时可能存在一系列技术性难点,如权利客体内涵与外延确定困难,产权边界难以描述,权利归属难确定等。如何在法律属性仍处争议的背景下建立适合产业发展的数据使用规则,成为目前必须回应的问题。
(二)训练数据采购成本较高
从当下的市场环境看,优质训练数据采购成本偏高。在GAI顶尖模型中,GPT-4的训练成本大约为7800万美元,谷歌的Gemini Ultra模型更是高达1.91亿美元。这些惊人的数字包含了算力、人力和数据在内的综合成本。尽管由于顶尖大模型的闭源特性,外界难以精确分析其成本构成,也难以评估其中是否存在算力资源的浪费,但成本支出的主要方面已成业界共识。例如,版权诉讼的高额和解费用、版权合法授权的巨额支出以及碎片化授权的交易成本。如果采购的数据涉及版权问题,需要获得版权方的许可,支付版权费用。版权纠纷可能导致采购成本的增加,甚至影响数据的使用。隐私合规成本的攀升则体现在全流程管控压力。数据采购后需投入高额技术成本实现本地化存储、采用联邦学习等前沿技术进行匿名化处理以符合《个人信息保护法》的要求,并持续承担合规审计及监管响应的资源消耗。这些都需要高额的合规成本,也是制约中小企业获取数据资源的重要瓶颈。
这种多维成本叠加的现实困境,本质上折射出GAI产业在数据要素市场化进程中的深层矛盾。从技术演进规律看,数据标注与质量验证作为模型训练的核心环节,其成本结构正经历从劳动密集型向技术密集型的转换。然而,这种技术转型并非简单的成本优化,反而凸显出技术路径选择上的内在矛盾与新的成本压力。例如,自动化标注工具虽能降低基础标注的人力消耗,但复杂场景下的准确性仍依赖人工校验,而半监督学习技术对初始标注数据的质量要求,相应推高了前期投入门槛。这种技术路径的内在矛盾,使得企业在追求效率与控制成本之间陷入两难:完全依赖人工标注,将面临投入海量人力成本的阻碍;而全面转向自动化,又需承担技术不确定性风险带来的问题。
(三)数据合规负担较重
一方面,数据利用受到版权保护规则的制约。AIGC技术的迭代与发展需要海量的训练数据资源支撑,就数据的来源来看,通常源于公共领域的数据集合和受《著作权法》保护的作品数据。在获取后者数据时如未取得权利人的授权,则不可避免地存在著作权侵权风险。生成式人工智能训练的基本原理是通过深度学习等算法,将海量文本转化为机器可以进行训练的数学模型,然后使用这些模型生成文本、图片、音视频等内容。作为机器预训练使用的海量文本中,除了包括公有领域中的作品之外,更包括大量版权作品。在无法确定训练数据行为属于“合理使用”等著作权例外情形的情况下,训练数据的使用需要经过权利人的许可实现,否则可能构成侵犯著作权,这无疑显著提升了数据资源的获取成本。
另一方面,数据利用还受到个人信息保护规则的制约。AIGC模型在训练阶段使用的数据中可能包含各类个人数据及信息,涉及个人信息的直接标识与间接标识数据以及敏感个人信息数据等多种类型。AIGC企业通过抓取社交媒体、论坛等公开平台的用户生成内容,可能直接获取用户姓名、地址、联系方式等个人信息数据,涉及个人信息保护合规,甚至可能导致隐私泄露。在这种情况下,机器训练的数据抓取与使用行为需要符合《个人信息保护法》和《数据安全法》等相关法律法规的规定。
二、人工智能训练数据版权问题的学理争议及澄清
从著作权法的角度审视,AI模型开发者在上述各个环节中的具体操作,都有可能落入专有权利的控制范围。在语料库建立阶段,开发者将从各种来源获取的数据下载并保存在自己的服务器上,以形成一个可供长期、反复使用的训练数据集。这一“下载并存储”的行为,构成对原始作品的永久复制,直接触及著作权保护体系中最核心的复制权。此外,开发者对海量数据进行筛选、分类和编排,以构建具有特定结构的数据库,该行为可能涉及汇编权的侵害。在数据预处理阶段,为了让数据更适合模型训练,开发者常需要进行数据清洗,如统一格式、修正错误、删除无关信息等。如果这些处理行为对作品的原始内容进行了实质性的修改或转换,则可能触及改编权。在具体的机器学习阶段,算法在运算时,需要将存储在硬盘语料库中的数据加载到计算机的高速临时内存(RAM)中。这个过程会产生数据的临时复制。尽管这些复制件是短暂且功能性的,但在许多国家的法律框架下,复制无论是永久还是临时,形式上都属于复制权的控制范围。
综上分析,未经授权的训练行为表面上构成侵犯著作权的行为外观。但若基于此结论,直接将这种新兴技术行为一律认定为非法并予以禁止,不仅忽视了其与传统侵权的本质区别,而且可能阻碍创新、损害公共利益。因此,有必要探索一条更为平衡的法律路径。针对如何解决AI训练数据的著作权合规性这一核心难题,当前学界与实务界的探索主要形成了三种思路:一是通过重构权利边界或行为定性,将训练行为排除在著作权法规制之外;二是通过授权或者法定的方式建立事前许可模式;三是在认定侵权的前提下,寻求合理使用等制度的适用与豁免。
(一)著作权排除
在探讨模型训练数据版权制度的构建之前,有必要回到问题的逻辑起点:GAI的训练行为是否必然构成法律上的实质侵权?如前所述,未经授权的训练行为外观上属于侵权行为,但实质上可能并非如此。部分学者顺应这一思路,分析训练行为的独有性质,论证其并未真正落入传统专有权利的控制范围。有学者主张,机器训练中的作品使用行为不应纳入著作权权利范围。首先,这种数据使用具有“非特定性”,不针对任何具体的单个作品。在这一过程中,任何单个作品的贡献都被高度稀释,其价值在于作为庞大数据集中的一个普通样本,而非其独特的艺术表达。在训练过程中对作品进行复制,并非为了将作品的“表达”呈现给公众以供欣赏,而纯粹是算法读取和分析所必需的技术步骤。这些复制件仅在后台为机器服务,与传统的复制行为旨在替代原作品市场的目标截然不同。若从其最终效果来看,这种使用最终体现为算法模型能力的提升。模型通过学习,将作品的独创性表达“消解”为抽象的数学参数和权重。它学习和内化的,是作品背后不受著作权保护的风格、模式、事实与规律。因此,训练的最终成果是一个具备了生成能力的工具,而不是一个存储了海量作品复制件的数据库。基于此,这种独特的利用方式,应被界定为一种“非作品使用行为”,从而将其排除在著作权的控制之外。
训练阶段作品使用的一种特定方式是仅进行实时训练,不建立永久性数据库。其特点是开发者仅允许人工智能实时地将作品加载到内存或临时缓存区,一旦训练终止、关闭计算机,数据即被清除。该过程与用户在线欣赏数字作品时发生的临时复制类似。有观点认为,由于“临时复制”在我国不属于复制权所控制的行为,如果作品使用仅涉及此类非永久性的复制,则使用作品数据训练的行为不应被认定为侵犯复制权。
“著作权排除”观点的优势在于其理论上的彻底性,试图从根源上化解训练数据的版权风险,为技术发展提供法律确定性。然而,将数据训练中的复制等行为排除在著作权法范围之外,是对现行制度原理与分析框架的一次深刻重塑,短期内难以凝聚为社会共识,更难以转化为稳定的法律规则或统一的裁判思路。鉴于此,更为合理的观点是将数据训练等非传统使用行为纳入著作权法的调整范畴,在专有权利的初步控制下,审慎地通过授权或合理使用等豁免规则来寻求数据使用与产权保护的平衡。尽管如此,“著作权排除”观点所蕴含的对权利边界进行审视的思维,对于思考如何构建适应技术变革的著作权制度,仍具有深刻的启发意义。
(二)许可模式
所谓许可模式,是遵循“先授权,后使用”这一著作权领域最基本的法律原则,因为这种方式最符合保护著作权人利益的立法目的。中国电子商会发布的《生成式人工智能数据应用合规指南》(T/CECC 027-2024)就明确规定,为防止数据用于模型训练引发著作权侵权风险,对处在著作权保护期内的作品,生成式人工智能的训练主体应主动采取措施获取著作权人的授权。但是,在AIGC领域,严格适用“一对一”的授权模式不具有现实可行性。大模型训练需要数以亿计的作品单元,这些作品的权利人高度分散且难以识别,“一对一”授权的交易成本极高,会极大影响生成式人工智能的创新效率。同时,目前著作权集体管理组织的管理范围相对有限,无法提供非本组织会员的作品完整授权,通过著作权集体管理组织进行作品使用授权同样存在一定实现难度与侵权风险。
基于此,部分学者主张引入法定许可制度解决训练行为的侵权风险。相较于事前授权许可,法定许可的制度优势在于节约了取得著作权人许可的交易成本,但著作权人仍享有法定的报酬请求权。该制度既尊重著作权人的专有权利,又保证AIGC的训练效率,符合著作权法兼顾保护与限制的二元价值取向。现实中,法定许可制度仍然面临难以克服的实施困难,由于单个作品单元在最终的训练集中的贡献几乎为零,无法被单独衡量,报酬标准难以科学制定。即使最终确立收费标准,建立一个识别海量作品权利人并精准分配报酬的制度不仅技术要求极高,运行成本还可能远超实际收益,依然无益于AIGC技术的发展,难以成为一个有效的、确保来源“合法性”的解决方案。
(三)合理使用
“著作权排除”方案对现有法律体系的颠覆较大而缺乏现实可行性,“许可模式”则因海量授权的交易成本、定价与分配难题而难以实现。但法律体系必须在既有的制度中寻找一个能够同时容纳技术发展需求与权利保护需求的制度空间。由此,著作权体系内同时平衡作者权益与公众利益的“合理使用”制度,便自然而然地成了当前司法实务界与学术界关注的焦点。
从功能上说,训练数据的合理使用规则能够有效回避其他路径无法克服的经济成本高与可操作性低的障碍。与法定许可不同,合理使用的核心特征是无须支付报酬,从根本上绕开了“如何为海量数据的边际贡献定价”以及“如何建立低成本的全球性分配系统”这两个在经济和实践上近乎无解的难题。这将问题从一个复杂的经济交易问题,回归到了一个纯粹的法律定性问题,使得制度的运行成本降至最低。有学者就倾向于认为,由于经过训练的生成式人工智能最终输出内容具有“转换性”,不再是对原有数据的复制或抄袭,可以将其定性为合理使用行为,从而解决大模型训练所涉版权问题。
除此之外,合理使用提供了其他路径所不具备的制度弹性与实现个案正义的可能性。与“著作权排除”方案试图一劳永逸地重塑规则不同,合理使用并非一套僵化的规则,而是一个开放的、原则性的分析工具。在不预设结论的前提下,保留了法官在个案中的自由裁量权。法官应综合考量作品的性质、使用的目的与性质、数量与质量,以及对潜在市场的影响等多重因素,进行动态具体的利益衡量,以判断是否符合合理使用标准。这种保留裁量空间的做法,使其能够较好地应对AIGC这类前所未有的、快速发展的技术挑战,在维护法律稳定性的同时,为个案的公平正义和技术创新留下必要的可能性。
然而,将这一原则性制度应用于我国具体的司法实践,依然面临着法律适用上的挑战与争议。我国《著作权法》第24条符合合理使用的“类型化条款”包括“个人使用”“教学或科研使用(少量复制)”等,但是,大模型训练因其目的商业性、所用数据海量性等特征,并不能直接适用。这一点,在北京互联网法院审理的全国首例涉及AI绘画大模型训练著作权侵权案中,已成为控辩双方的核心争议之一。原告认为,涉案AI绘画软件通过学习其作品风格而生成的图片,将对原作构成直接的市场替代,严重损害了其作品的现有市场与未来价值。被告虽主张其训练行为构成合理使用,但其商业性质和对海量作品的使用,显然与现有的类型化条款文义存在明显冲突,所以法院并未认可被告关于合理使用的抗辩。
面对这种情况,司法实践开始尝试探索更为灵活的裁判思路。以杭州“奥特曼”案为例,法院在分析AIGC侵权问题时,创新性地引入了“非表达性使用”理论来描述输入端的训练行为,并不拘泥于适用具体类型化条款,而是对训练数据情况进行了综合性的利益衡量,这体现了司法机关试图为AI训练行为的法律定性寻找新理论出口的努力。而在具体的侵权认定路径上,该案的判决重心最终还是回归到了传统的侵权分析框架。法院更侧重于审查输出端生成的内容是否与原作品构成实质性相似,以及平台作为服务提供者是否尽到了合理的注意义务,并最终以“帮助侵权”来追究被告责任。在其合理使用的论证中,法院并未将权利人作品的“市场替代性影响”这一核心经济因素作为关键的考量点。
在缺乏明确法律指引的情况下,不同法院在面对AIGC侵权问题时,其切入角度、分析重点以及对合理使用原则的理解与适用上,可能面临着困惑与分歧,亟待形成更为统一和清晰的裁判规则。2020年《著作权法》修订时,已明确吸收了“三步检验法”作为合理使用的根本构成要件,并增设了“法律、行政法规规定的其他情形”这一兜底条款。这表明,我国的合理使用制度在立法构造上,已经为应对新问题、引入新类型预留了制度接口。前述司法实践中的探索与争议已经表明,当前的核心任务不再是争论是否应该选择合理使用,而是如何对现有的合理使用制度进行理论创新与制度调适,使其能更好地承担起平衡多方利益的重任。
由此观之,AIGC训练数据利用所面临的数据孤岛、产权模糊、成本高企以及版权与个人信息双重合规困境,其核心症结在于传统著作权授权模式与海量数据需求之间的根本性矛盾。为解决这一矛盾而提出的“著作权排除”“许可模式”及“合理使用”三条路径,虽各具其理论价值与实践考量,但在现行中国法律体系下均面临显著挑战:“著作权排除”需颠覆既有权利框架,阻力重重;“许可模式”因海量授权成本与分配难题而几近失效;作为核心方案的“合理使用”,其现有封闭式列举条款与大模型训练的商业性、海量性特征存在巨大张力,依赖司法扩张解释或兜底条款亦存在理论争议与不确定性,殊难谓为周全。
鉴于上述路径在本土语境下均存在适用困境,亟须将视野拓展至国际层面,审视主要法域如何通过立法革新与司法裁判回应这一技术发展带来的共通性法律难题。域外实践不仅提供了应对AIGC训练数据版权授权的多样化方案样本,其背后的制度逻辑、利益平衡考量与实施效果,也为我们反思既有思路、探索本土化完善方案提供了重要镜鉴。
三、域外法律实践的比较与镜鉴
以下将聚焦全球具有代表性的三种治理模式:美国依托司法判例对“转换性使用”标准的灵活演进,对应并深化了“合理使用”路径的实践;欧盟通过创设TDM法定例外进行规则建构;日本在封闭权利限制体系中引入“非享受目的”例外条款寻求灵活性突破。深入剖析此三种模式的利弊得失,将为后续构建契合中国国情、平衡各方利益的AIGC训练数据合理使用制度奠定坚实的比较法基础。
(一)美国:“转换性使用”在司法实践中的演进与挑战
《美国版权法》(17 U.S.C)包含一系列在第108条至第122条中明确列举的、适用条件严格的权利限制规定。由于这些封闭式条款中没有可以直接适用于人工智能训练的情形,在美国的相关侵权纠纷中,被控侵权方通常援引该法第107条所规定的开放式“合理使用”(Fair Use)原则进行抗辩。根据该条规定,对作品的使用是否构成合理使用,必须考量以下四个法定因素:(1)使用的目的和性质,包括此类使用是具有商业性质还是用于非营利教育目的;(2)受版权保护作品的性质;(3)所使用部分在受版权保护作品整体中所占的比例和实质性;(4)使用对受版权保护作品的潜在市场或价值的影响。这四个因素并非独立适用,而是需要法院根据案件具体情况进行综合考量与权衡。例如,商业用途并不必然排除合理使用,非营利教育用途也不必然构成合理使用,最终结论取决于法院对四个因素的综合分析。
根据《伯尔尼公约》《与贸易有关的知识产权协定》《世界知识产权组织版权条约》等规范规定,著作权的限制和例外需满足“三步检验法”标准:一是仅限于某些特殊情况下;二是不与作品的正常使用相冲突;三是没有不合理地损害作者的合法权益。“三步检验法”作为国际通则被各个国家和地区的著作权法所接受和遵循,例如,我国《著作权法》、欧盟《单一数字市场版权指令》与《英国版权法》均遵循了该等通则。而不同于较为封闭的权利限制与例外规定,美国的开放式合理使用具有较强的灵活性,在应对新型传播技术和商业模式的挑战时具有更大的可适应性。例如,在1999年的“图像搜索引擎”案件中,美国法院认定,在互联网的图像搜索引擎中提供缩小图像属于合理使用。该开放式合理使用制度在其他法域也有应用,例如,在2010年德国法院判决的类似案件中认定,制作搜索引擎有利于社会公众获得相关信息,以默示许可判定被告行为并未构成侵权。
2025年6月23日,美国加州北区法院在Bartz v. Anthropic PBC案中作出标志性判决,进一步明晰了AI训练中数据使用的合法边界。该案是美国首个针对生成式人工智能训练数据合理使用进行实质性判决的案件。被告Anthropic PBC是一家AI软件开发公司,核心产品是一款名为Claude的Gen AI软件。被告通过下载电子版书籍以及购买实体版书籍后将内容扫描成数字格式的方法,将数百万本书籍建成了一个中央数据库,主要目的是训练大语言模型。但被告同样表示,即使未来没有将这些数据用于训练Claude,也仍会保留该中央数据库作为其公司的内部资源,以供未来其他工作使用。原告则是以Bartz为首的几位书籍作者,主张其著作权被Anthropic侵犯,向加州北区法院提起集体诉讼。本案法官William Alsup首先对本案数据的用途进行区分,认为被告收集电子书籍数据用途有二:一是为了训练大语言模型;二是为了建立中央数据库,以备未来可能的其他用途。法院认为,将本案所涉书籍用于训练Claude模型的目的与本质具有高度转化性。如同每位读者渴望自己能成为作家一般,Anthropic开发的大语言模型是为了产出崭新内容而训练,而非简单复制、替代原作。若此训练过程在合理情况下需要于大语言模型中复制作品,该等复制行为即属转换性使用。同时,原、被告双方均承认训练大语言模型确实需要海量数据,所复制的数百万本书籍也实属必要。并且法院认为,被告用于训练特定大语言模型的复制品也不会对原著作品产生市场替代效果。综合分析,法院认为被告使用电子书籍训练大语言模型属于“合理使用”。至于电子书籍数据的第二类用途,因其形成永久性复制且无正当来源,法院认定构成侵权。
在此案中,主审法官着重考察了AI输出成果对原作品的市场替代效果,并且区分了数据来源的合法性,合法取得著作进行AI训练不侵权,但非法取得盗版资源进行AI训练则属于侵权。该案一方面可能影响后续判决,但另一方面也暴露出“转换性使用”标准的模糊性。
(二)欧盟:从“文本与数据挖掘”(TDM)例外看规则路径
欧洲议会和欧盟理事会2001年5月《关于协调信息社会中版权和相关权若干方面的指令》(Directive 2001/29/EC,以下简称《信息版权指令》)第5条第1款要求各成员国在国内法中将临时复制规定为权利限制的例外情形,也即文本与数据挖掘(以下简称“TDM”)例外。该例外需同时满足以下要件:(1)复制行为具有暂时性或附带性;(2)复制是技术过程中不可或缺的组成部分;(3)复制仅服务于作品合法使用或作为第三方网络传输作品的中间媒介;(4)复制不具有独立经济价值。
针对数据挖掘与机器学习场景,欧盟2019年《数字单一市场版权指令》(Directive 2019/790)进一步细化规则。具体来说,其第3条创设“科研目的TDM例外”,允许研究机构和文化遗产机构为科学研究,对其合法获取的作品或内容进行复制与摘录;第4条规定一般性TDM例外,允许为文本与数据挖掘目的复制和摘录合法获取的作品,但允许权利人通过声明保留权利。该指令明确了符合条件的TDM行为合法性,且一般性例外不限制主体范围或技术应用目的,理论上可覆盖商业性使用场景。
2024年10月,在Kneschke诉LAION案中,德国汉堡地区法院作出判决,指出大规模人工智能开放网络LAION复制图片的行为并未违反版权法的规定。本案中,原告Kneschke是德国的一位摄影师,被告LAION则是德国一家开发AI模型和数据集的非营利机构。2021年,LAION从互联网下载图像,用于训练人工智能的图像与文字对应的数据集(LAION 5B)。Kneschke主张其作品在该数据集中,LAION创建数据集的过程中未经许可复制了其图片,该行为侵犯了其版权,要求LAION停止侵权行为。被告则主张其行为属于德国和欧盟法律规定的三种版权例外情况之一。法院认为,《德国著作权法》第44a条规定了临时复制,条文内容与《信息版权指令》基本一致;该法第44b条规定了一般情况下的TDM例外;第60d条规定了用于科学研究的TDM例外。此三条权利限制规定正是本案被告援引抗辩不侵权的规定。法院认定,被告在本案创建数据集的行为没有违反“三步检验法”——创建数据集的行为本身并不能必然推导出其将生成相同或相似内容,后续使用是否为法律允许尚不能明确区分。
该判决的意义远不止于确认LAION的行为合法,更在于它首次在司法实践中清晰地阐释了欧盟《数字单一市场版权指令》为AIGC训练数据问题所设定的“双轨制”法律框架:其一,它为非商业性、以科学研究为目的的AI训练提供了“安全港”。法院的判决确认,像LAION这样的非营利研究机构,可以依据《德国著作权法》第60d条(对应欧盟《数字单一市场版权指令》第3条)合法获取并使用数据进行训练,而无须担心著作权人通过声明保留权利的方式来阻止这种行为。这极大地鼓励了欧洲的开源社区和学术界进行基础AI模型的研究与开发。其二,该判决反向明确了商业性AI公司的合规路径与法律边界。尽管本案被告并非营利机构,但判决的逻辑暗示,商业公司进行AI训练必须依赖于另一条轨道,即《德国著作权法》第44b条(对应欧盟《数字单一市场版权指令》第4条)所规定的一般性TDM例外。根据该条款,商业公司同样可以进行TDM,但必须尊重著作权人事先作出的权利保留声明(Opt-out)。这意味着,对于商业AI开发者而言,建立一套有效的机制来识别并排除已声明“Opt-out”的作品,将成为其在欧盟境内进行模型训练的核心合规义务。
相较于美国法院在个案中对“转换性使用”进行弹性但充满不确定性的解释,德国法院的判决展现了欧盟通过具体、明确的成文规则来划定行为边界的立法思路。它为AI训练的“输入端”提供了相对清晰的法律预期,同时将侵权与否的争议焦点,更多地留给了未来的“输出端”,即AI生成内容是否与原作品构成实质性相似。
(三)日本:灵活的“非享受”目的例外条款
日本对适用合理使用制度相对更为开放与灵活。作为封闭式权利限制立法的典型,《日本著作权法》上的权利限制规定自1970年全面修订起即以适用条件规定详尽著称,但完全封闭的特点亦受到理论和实务界的批评,关于引进美国开放式合理使用规定或使权利限制规则更富有弹性的意见亦络绎不绝。
基于此,日本在此后历次修法过程中,不断改变封闭式立法的传统逻辑。2009年修改后的《日本著作权法》第47条第7款首次规定了计算机信息解析过程中对复制权和演绎权的权利限制。2018年《日本著作权法》第30条第4款合并了原第47条第7款,规定了不以享受作品中表达的思想或感情为目的时,可以对作品进行信息解析等不受自然人知觉识读干预的计算机处理,前提是该处理行为不对著作权人利益造成不当损害。包含第30条第4款在内的部分权利限制规定加入这一前提,被认为是对传统封闭式立法模式的缓和,这也为AI大模型的训练提供了著作权权利限制放宽的依据。但该规定仅能适用于训练阶段,因此其理论上仍不能适用于人工智能生成结果中包含受著作权保护内容的情形。同时,对封闭式立法模式的缓和,也意味着法院将享有更大的自由裁量权。日本文化厅指出,是否构成该合理使用前提的例外情形,具体应交由司法机关对具体个案作出个别判断,判断的标准主要考虑是否对作品原有市场造成了替代,并举例称目的本为信息解析用的数据库商品不能依该条复制并进行信息解析。
除此之外,2018年修改后的《日本著作权法》新设的第47条第5款规定了在计算机信息处理过程中创造出新的知识或信息的情况下,允许计算机程序为了创造新的知识或信息,对作品进行信息搜索和解析,并可以向用户提供包含作品标题、作者姓名、链接等“定位信息”的搜索或解析结果。与该法第30条第4款相比,在AI训练场景下,第47条第5款对部分AI生成内容阶段的作品使用行为也进行了豁免,然而其在生成阶段对作品的使用仅限于附随性质的轻度使用(如AI基于搜索结果总结时附带地包含了作品的一小部分)。对于文本生成图像等场景中,生成的图片仍与原作品实质性相似等情况,则难以适用本规定。遗憾的是,目前日本尚无公开或已被报道的AI大模型训练侵权案例可供参考。
四、人工智能训练数据合理使用的制度完善构想
美、欧、日三种模式各有优缺点。美国的“转换性使用”模式具有较强的弹性,但判断标准不够明确,容易导致司法实践的不确定性;欧盟的TDM例外模式明确性高,但“Opt-out”机制可能阻碍技术发展;日本的“非享受”目的例外条款灵活性强,但对权利人利益的保护存在不足。我国对合理使用制度的构建需立足本土法律传统与人工智能产业发展需求,进行批判性借鉴与融合创新。
(一)构建中国人工智能训练数据合理使用制度的核心原则
1.技术中立与发展导向原则
我国《著作权法》第1条即开宗明义地表示:“为了……促进社会主义文化和科学事业的发展与繁荣,根据宪法制定本法。”这意味着促进科学技术的发展与进步既是法律的规范目的,也是《著作权法》的应然功能。同时,如此规定还蕴含着在实践当中的一种潜在价值倾向,即在新技术的开发和应用阶段,《著作权法》应当对技术需求及有关行为更为宽容,以鼓励技术创新与进步。
就大模型训练而言,由于它是底层技术,人工智能产业的发展离不开大模型训练。而在数字时代,人工智能又是一个重要的技术工具,许多产业的发展都离不开人工智能。大模型训练水平高度依赖数据海量且高质量的语料库。然而,我国在高质量语料库的建设上与国际领先水平仍存在一定差距,这已成为制约我国人工智能产业发展的现实瓶颈。在这一背景下,为机器训练设置更加可用的数据版权规则设计就显得尤为关键。更重要的是,这场竞争的意义已远超单纯的商业利益。人工智能技术的发展已不再局限于文学艺术内容的传播和生成,它已成为增进国家整体科技实力、掌握未来发展主动权的核心驱动力。因此,在构建相关法律规则时,不能仅关注著作权利益平衡的中微观问题,还要考虑如何服务国家技术战略布局与产业安全的宏观层面。
杭州中院审结的“涉AI生成‘种草’笔记不正当竞争案”为生成式人工智能服务提供者的训练数据获取行为边界划定了重要参考。该案原告小某书平台投入巨量资源,构筑了一个以用户真实分享为核心的“种草”内容生态,这构成了其核心商业利益与竞争优势。而被告则开发了一款AI写作工具,直接提供“小某书种草文案”等定向自动生成服务,通过算法模仿平台热门笔记的风格与模式,生产出大量看似真实但缺乏实际体验的“伪原创”内容。法院经审理后认为,被告提供的“小某书种草文案”自动生成服务的行为,直接冲击和破坏了原告投入巨大成本建立的真实内容生态,损害了原告基于“种草”内容生态获得的竞争优势和商业利益,也损害了平台用户的合法权益,扰乱了市场竞争秩序,构成不正当竞争。法院指出,在人工智能输出端仍要秉持技术中立、技术向善的原则,尊重该特定应用场景的规则,并结合其应用场景、行为目的、行为方式等合理设定生成式人工智能服务提供者的注意义务,避免人工智能服务成为实施侵权行为的工具。而这也为训练数据使用提供了必要的价值引领,即必须坚持技术中立与技术向善原则,训练数据获取行为正当性的前提是没有对其他主体利益造成不当侵害。
2.利益平衡原则
需要注意的是,在关注如何通过法律规范促进AIGC产业发展的同时,也必须建立对作品创作者利益的补偿与回馈机制,遵循利益平衡的基本原则。从生成式人工智能的全产业周期来看,模型训练阶段的版权问题只是其中的一环,所以对它不应当单独看待,还需要从系统视角切入,讨论它与前后环节的关系,并依此妥善平衡各方利益。在训练阶段所作的制度设计,对下游生成内容的可版权性会产生一定影响。
现阶段生成式人工智能确实会在一定程度上产生与原作品具有竞争关系的AIGC,因而容易受到原作品作者的抵制。所以,合理使用制度的完善必须承认并保障创作者通过其作品获得合理回报的权利。因此在司法中,需要审慎地评估大模型训练是否符合“合理使用”的四要素,尤其考虑对原作者及其作品市场利益是否存在潜在的负面影响。而在补偿机制的具体构建上,必须超越传统“一对一”授权的框架,探索适应海量、非特定性使用的系统性解决方案。其中,一种思路是借鉴音乐产业的集体管理制度,在此模式下,AI开发者无须寻求海量权利人的许可,而是向著作权集体管理组织支付一揽子许可费,以获取对其管理作品的训练使用权。这种方式将极大地降低交易成本,并为AI训练提供合法高效的数据来源。另一条路径则是由行业联盟或政府牵头设立专门的公益基金,对为训练数据作出显著贡献的创作者进行补偿。如此可以尽可能在前端减少AI研发者的资源投入。
此外,如果前端通过合理使用制度,实质上豁免了AI开发者获取海量数据的巨额授权成本,相当于社会公众的智力成果以一种公共资源的样态成为人工智能发展的“燃料”。那么在后端对AIGC的确权等问题中,就必须防止AI服务提供者获取与其技术贡献不相称的、过度的垄断利益。因此,如何授予AIGC以著作权,如何保护此类著作权等问题也应当作出相应调整,而以有限保护取代传统的全面保护是一种必然选择。具体而言,可以缩短AIGC的权利保护期限,或是限制其专有权利范围,例如,可以引入一种类似“准法定许可”的机制。具体来说,即使AIGC满足一定独创性标准而获得著作权保护,其商业性使用许可也不再完全由权利人自由定价,而是由政府或行业组织设定一个合理的收费上限或价格指导区间,从而确保AI服务提供者不会因市场优势地位而收取过高的费用,保障了下游应用和创新的可持续性。此外,还可以为权利行使附加一定的社会义务。例如,可以鼓励AI服务提供者在教育、科研等公益领域提供免费或成本价的服务接口调用服务,促进其承担应有的社会责任。这种“上游豁免、下游限制”的制度设计,能够构建一个从“数据贡献”到“成果共享”的良性闭环,确保技术发展的红利尽可能普惠社会大众。
3.分阶段规制原则
关于大模型训练数据如何受到版权法上合理使用制度的规制,我们需要先分析清楚训练过程中对于作品具体涉及哪些利用行为。从技术角度可将这些行为分为三个阶段讨论,即获取阶段、储存阶段、学习阶段,并依据不同的阶段提出相应的规制方法。
获取阶段,主要考虑的是数据来源与获取方式的合法性,这是讨论合理使用问题不可或缺的前提。具体而言,这种合法性审查应该包括两个方面:首先是数据获取行为本身。AI开发者在获取语料的过程中,不得采用侵犯他人合法权益的技术手段。这不仅包括《反不正当竞争法》明确禁止的为规避或破坏技术保护措施而进行的数据抓取行为,也包括违反网站服务协议或Robots协议进行的大规模、高强度的“爬取”行为,此类行为可能独立构成违约或不正当竞争。其次是数据来源的性质。即使是获取数据的行为本身未采用非法技术,但如果数据来源于已知的盗版数据库,那么获取这些数据就构成了对侵权复制件的再复制。若存在前述任何一种违法获取行为,无论后续的存储或学习阶段是否具有转换性,其违法行为本身就应当独立承担法律责任——一个具有创新性的使用目的并不能改变其源于侵权复制或非法获取行为的事实。只有确保了获取阶段的合法性,才有讨论存储和学习行为能否适用合理使用制度的可能性。
储存阶段,要关注的主要问题是该存储行为是临时复制还是永久性复制。讨论这个问题首先要从技术上将人工智能的学习进行分类。如果该人工智能进行训练,不需要把作品存起来放到硬盘上,形成一个作品数据库,而仅仅是让人工智能进行一次性的读取和分析,而且持续的时间并不长,结束之后服务器中不会留下相关作品的复制件,这就和传统的临时复制非常相似。对于这种情形,由于临时复制在我国不被认为是复制行为,不涉及复制权侵权的问题,也就谈不上合理使用的问题。如果对人工智能的训练需要建立一个数据库,长期或永久存放学习资源,那就属于永久性复制。由于机器学习的行为后续不免涉及商业利益,很难被认定为研究性使用,且其产生的作品和原作者的作品在一定程度上会产生竞争关系,也很难被认定为转换性使用。因此,现行《著作权法》和司法政策都很难为训练人工智能所进行的永久性复制提供正当性基础。在这种情况下,考虑到促进人工智能产业发展的需要,可以在《著作权法实施条例》中,依著作权法的授权性规定,新增一个合理使用,用来专门解决人工智能训练时对作品的利用问题。
学习阶段,机器学习是将语料库作为训练数据的一种人工智能内部行为,其本身不宜成为法律直接规制的对象。对此,我们可以借鉴法律对待人类学习行为的逻辑进行类比。人类即使是利用盗版的或是盗抢来的书籍进行学习,学习行为本身不是违法的。这一逻辑可以被有限地借鉴到人工智能领域,即法律规制的重点应当是外部的可观察行为,包括前端“数据获取和存储”的输入行为以及后端“内容生成”的输出行为,而非服务器内部算法处理的中间过程。人工智能通过数据进行训练,当它不产生任何外部输出时,其行为效果仅限于模型内部参数的变化。这个过程不会直接对外界产生任何法律意义上的影响,且从技术上极难被外界观察和证实,若强行对其进行规制,不仅缺乏可操作性,更可能限制技术探索。著作权法应当坚守“规制外部行为而非内部思维”的基本原则。对人如此,对机器这一工具也应保持同样的克制。如果混淆了内部学习与外部行为,将不利于人工智能的发展,也不利于人类社会通过信息利用的方式不断地发展进步。
(二)构建中国人工智能训练数据合理使用制度的路径
1.版权人保护机制的设立
在探讨具体的版权保护机制时,我们必须首先明确政策目标,以勘定机制建设的基本方向。考虑到人工智能科技在国际科技竞争中的重要战略地位,以及我国目前的生成式人工智能产业和技术发展需求。具体机制建构可以在现阶段对训练行为予以更多的包容,例如,暂时通过合理使用制度豁免一定的版权责任,并同步设计出一套能够平衡保护创作者利益的保护机制。
对此,国际上常见的一种保护思路是赋予权利人(著作权数据持有者)以“事前声明排除”的权利,即允许权利人通过在其网站或者作品中作出明确声明的方式,来禁止其作品被用于AI训练。这种允许权利人主动选择拒绝用于数据训练的模式,通常被称为“退出机制”,但这种机制是否适用于我国仍有待商榷。从技术层面来看,大模型的性能与训练数据的规模性和多样性高度相关,这是确保其生成内容中立、客观和准确的关键前提。若允许权利人通过线上声明即可禁止使用该数据进行训练,大量高质量数据的持有者都将采用此方法。这会严重削弱大模型可用训练数据的质与量,导致模型的输出内容存在系统性偏见与谬误。鉴于前文论证的模型训练在法理上具有构成“转换性使用”的正当性,本文认为,对于已经公开发布的作品,不应随意设立这样一个仅凭声明即可生效的退出机制。
因此,一个更具合理性和可行性的方案是将选择权与技术手段相结合。具体来说,对于版权人的保护,可以通过法律确认其拥有可以自行设立技术保护措施的权利来实现。著作权人若不希望自己的作品被用于机器学习,可自主采用符合行业标准的Robots协议或者其他数据加密措施,以技术手段防止作品被不当地自动抓取使用。相应的,法律也应明确规定,任何故意规避或破解这些技术保护措施以获取数据的行为构成侵权,并需承担相应的法律责任。反之,如果著作权人未对其公开发表的作品设置技术保护措施,在法律意义上,可将其视为一种对作品可以用于AI训练的默示许可。这一制度设计的本质是将数据保护的责任和成本适当地转移给最有能力也最有意愿保护自身权利的著作权人,从而在整体上降低AI开发者在进行数据获取时的合规难度和法律不确定性。总的来说,该制度设计不仅鼓励权利人主动采取有效措施划定权利边界、维护合法权益,也为AI开发者提供了一个更加明确的行动指引。
2.引入透明度义务
版权人保护机制有效运行的前提是权利人明确知道其作品是否被用于AI训练。因此,为AIGC服务提供商设定明确的“透明度义务”,并将之作为主张适用合理使用抗辩的法定前提,就显得尤为重要。
具体而言,AIGC服务提供商应当在其官方网站或者相关的产品界面,以清晰、易于公众理解的方式,在一定程度上公开其训练数据集的来源或构成。公开的内容应包括但不限于:数据来源的大致范围,如来源于哪些类型的平台、机构或创作者群体;数据的类型和数量,如文本、图像、音频等数据类型各自的占比情况;对于对模型能力产生显著影响的关键数据集,则应要求作出更加明确清晰的情况说明,如列出其在数据集中的使用情况等详细信息。
为了保障透明度义务的落实,可探索建立由国家网信主管部门或知识产权主管部门负责的专门监管平台,参照现有的算法备案制度,AIGC服务提供商需定期向平台登记备案训练数据集的相关信息,并对信息的真实性负责。监管平台应向社会公众开放部分信息查询权限,以便权利人核实其作品的使用情况,保障其知情权,也便于监管部门进行合规监督。对于无正当理由拒不履行透明度义务,或者提供虚假信息的AIGC服务提供商,应明确规定相应的惩戒性法律责任,核心的惩罚措施就是直接取消其在相关著作权诉讼中主张合理使用抗辩的资格,并可辅之处以罚款等行政处罚措施。
3.长远探索:合理使用与许可制度的结合
要构建一个平衡且可持续的人工智能训练数据治理体系,我国的法律框架必须克服当前存在的一些障碍。首先,如前所述,人工智能模型训练对公开版权内容的使用属于新型使用行为,在我国现行合理使用制度下的解释与适用路径尚不明确,难以提供准确的法律依据。其次,我国的著作权立法中,缺乏专门针对“文本和数据挖掘”的权利保护例外条款,导致相关行为的法律定性仍存在一定争议。最后,在个人信息保护方面,使用公开个人信息训练也存在客观的制度障碍。
针对这些挑战,亟须一个系统的且短期与长期均可适用的解决方案。短期内,最直接有效的路径是结合现有的法律和行业情况对《著作权法实施条例》进行修订,依据《著作权法》第24条的兜底条款,明确将“为开发、训练人工智能而对作品进行的临时复制和非表达性使用”增加为一种新的合理使用情形。同时,为避免该情形的滥用,须为其适用设定严格的前提条件,即数据来源必须合法依规,不得通过破坏技术保护措施或者利用已知盗版来源等非法方式获取。这一举措能够在现有法律体系下,为人工智能训练行为提供相对清晰的法律指引和稳定的发展预期。
同时,监管机构应出台配套的个人信息保护标准和指南,打通合规数据的流通路径。《个人信息保护法》所规定的“匿名化”标准在实践中缺乏具体的认定细则,导致企业在进行数据处理时,难以判断其匿名化措施是否能够达到法定的合规要求。因此,需要进一步明确个人信息权利的内涵和边界,明确个人信息处理的技术路径和法律要件,推动实现个人信息保护和利用的平衡,以便为将个人信息脱敏后用于训练提供法律支持,实现个人信息保护和数据要素价值发挥的平衡。
从长远来看,应由国家主导,探索建立国家级“人工智能训练数据授权平台”,从根本上解决数据孤岛与数据授权困境。这一构想,是将目前分散于各大企业、机构的著作权相关数据资源进行集中管理。具体而言,可由政府牵头,联合主要的著作权集体管理组织,组建一个公共数据运营机构。各数据持有方(如企业、科研机构)可将数据“托管”至该平台,以换取数据资源经营收益或其他数据资源使用权等收益。AI开发者则无须再进行分散、高成本的“一对一”谈判,而是可以通过该平台,以标准化的“一揽子许可”方式,高效、合法地获取海量高质量的训练数据。平台收取的许可费,则可以注入一个公共基金,用于系统性地补偿和激励原创内容创作者,从而构建起良性循环,为我国人工智能产业的长远发展提供坚实的数据基础设施支撑。
(为方便阅读,省却注释。全文请参见《数字法治》2025年第6期,第85-100页。)





京公网安备 11010502049464号