翻译:白池磊 知产财经
知产财经从美国版权局官网获悉,2025年5月9日,美国版权局发布《版权与人工智能》报告的第三部分(预发布版本):生成式人工智能训练。该报告围绕AI训练的初步侵权认定、合理使用分析、许可框架的选择等问题展开,为立法、司法与业界提供了可参考的分析框架。以下是对报告核心内容的概述。
一、生成式人工智能训练中的版权侵权认定
(一)初步侵权认定要素
构成初步侵权需满足两个要素:1.有效的版权所有权;2.复制受保护作品的原创性内容(无论是否完全一致,只要存在实质性相似即可)。
(二)生成式AI开发中的潜在侵权环节
1.数据收集与整理
复制权问题:下载、存储、格式转换、筛选或修改受版权保护内容的行为均可能侵犯复制权。即使数据后续被删除,复制行为本身已构成侵权。
衍生作品权问题:若整理过程中对作品进行改写、重组或生成合成数据(如为图像添加文本描述),可能涉及衍生作品权。
2.模型训练
训练前的数据复制:训练需将数据集复制到高性能存储设备,构成复制权侵权。
训练过程中的临时复制:数据分批次输入模型时,临时存储的副本可能构成侵权。
模型权重的争议:若模型权重(参数)编码了受保护内容的实质性表达(如能生成与原作几乎相同的输出),则可能侵犯复制权或衍生作品权。法院判例存在分歧——部分案例认为模型权重仅为抽象表达不侵权(如Kadrey v. Meta),但若模型能输出实质性相似内容,则可能侵权(如Andersen v. Stability AI)。
3.RAG(检索增强生成)
数据库构建:将受保护内容复制到检索数据库中,构成复制权侵权。
实时检索:从外部来源(如搜索引擎)获取内容并生成回答时,临时复制行为可能侵权,尤其是当系统保留检索记录或显示原文时。
4. 输出结果
直接复制:生成与原作几乎相同的图像、文本或角色(如电影剧照、新闻原文),可能侵犯复制权。
衍生内容:改编或重构原作的输出(如修改故事情节或视觉风格),可能侵犯衍生作品权。
(三)法律争议焦点
1.模型权重的性质:需判断其是否实质保留或“记忆”了受保护内容。
2.实质性相似标准:法院关注模型输出是否与原作存在实质性相似,而非仅技术实现方式。
3.责任分配:训练者、模型分发者及用户的责任边界尚不明确,需结合具体场景分析。
(四)行业与司法实践
1.开发者风险:主流开发者通常保留训练数据集以供未来使用,加剧侵权风险。
2.新闻媒体关切:RAG技术对新闻内容的检索与生成引发强烈担忧,可能替代原作并分流流量。
3.判例分歧:法院对技术细节的审查程度不同,导致同类案件结果差异。
二、未经授权使用受保护的作品进行AI模型训练的合理使用分析
(一)合理使用的四要素框架
1.用途与性质:重点考察使用是否具有“转化性”(transformative),以及是否为商业性质。模型的预训练(pre-training)通常具有高度转化性,因为其目的是生成新场景下的多样化输出;而将模型用于生成与训练集作品实质相似内容,则转化性较弱。同时,即便为非营利研究目的,若后续商业化部署,仍可能被认定为商业使用。
2.作品性质:创作性强、尚未公开的作品更受保护;科研或功能性作品则保护力度相对较弱。
3.使用数量与重要性:AI训练常需全量拷贝整个作品,这在传统意义上不利于合理使用;但若此行为对达成转化性目的“合理必要”,则第三因素的反对力度可减轻。
4.对潜在市场或价值的影响:若AI输出可取代原作品,或稀释同类型作品市场,市场伤害显著;反之若有有效授权市场,未经授权使用更难被认定为合理使用。
(二)公共利益考量
尽管生成式AI带来医疗、教育、内容创作等广泛社会效益,多方也担忧对创作者生计的侵蚀。版权局认为,除上述四要素已纳入的公共利益考量外,额外将社会效益作为独立权衡点的必要性不足。
(三)许可市场的可行性
报告指出,音乐、新闻、图像等领域已有或正在建立针对AI训练的数据许可市场;若许可渠道可行,第四要素将更倾向于不支持未经授权的训练。
(四)国际比较
1.欧盟:通过DSM指令(Directive 2019/790)为科研目的文本挖掘(TDM)设立例外,并在《欧盟AI法案》中要求AI提供者遵守版权持有者的“选择退出”(opt-out)机制。
2.英国:仅允许“非商业科研”场景下的计算分析,需合法获取作品;版权持有者可明确排除。
3.日本、新加坡:分别对“享用”(enjoyment)及“合法访问”作出限制性规定,排除涉及满足个人观赏或未经合法途径获取的训练行为。
4.以色列:仿效美国合理使用,2022年司法部意见认为大多数ML(机器学习)训练为合理使用,但不涵盖下游产品。
5.中国:尚无明确TDM或AI训练例外,实践待发展。
三、AI 训练的许可框架
(一)自愿许可(Voluntary Licensing)
1.直接许可:AI 公司与单个版权主体一对一协商授权条款,根据作品类型和用途制定灵活的价格和范围。
2.集体自愿许可:通过“集体管理组织”(CMOs)进行大规模授权,能够简化数以万计的交易,降低双方成本。
该许可模式可能存在的问题:
1.可行性:技术界担忧面对海量、多样作品时逐一许可成本过高;创作者界则认为这只是商业成本,已有多起授权案例可资借鉴。
2.补偿水平:许可费用虽可能分散,但可采用基于收益或利润的后付模式,避免前期高额支出;研究机构或可依赖合理使用豁免。
3.反垄断顾虑:集体授权需防范 CMOs 滥用定价权,对此可通过保留“直接许可”选项及寻求司法部反垄断指引来平衡。
(二)法定许可(Statutory Licensing)
1.强制许可(Compulsory License):由国会设定固定费率和适用范围,免除谈判;历史上仅在市场失灵严重时采用,但往往程序冗长、嵌入行业后难以废除,且可能扼杀灵活创新。
2.扩展集体许可(Extended Collective Licensing, ECL):借鉴欧洲模式,由政府授权 CMOs 对某类作品统一授予许可,未加入的权利人可“选择退出”;可在特定领域(如视觉艺术)试点,但需做精细化设计,避免“一刀切”。
3.“选择退出”机制:类似欧盟文本与数据挖掘例外,作品默认可被 AI 爬取,但权利人可通过元数据、robots.txt 等途径声明不参与。实践中存在元数据易篡改、平台无权更改标记等障碍,多数版权方并不支持由法律强制设立此机制。
(三)版权局的分析与建议
1.因地制宜地推广自愿许可:对于高价值、集中度高的作品(如热门音乐、正版图库),自愿直接或集体许可已显可行;对于分散、难以追权的内容(如网络评论、次生创作),可借助 CMOs 聚合权利、降低谈判成本。
2.多样化补偿结构:除固定费率外,应鼓励采用后付分成、基于收入/利润比例的模式,支持小型初创与学术研究公允使用的需求。
3.谨慎对待法定强制:反对普遍的强制许可,其风险在于“一成不变”、程序繁复且可能抑制创新;考虑有限度的ECL,仅在特定行业、特定作品类型中适用,并保留权利人退出权;同时建议司法部就集体许可的反垄断安全港提供指导。
4.暂不推行法律层面的“选择退出”:技术实现和执行成本较高,且难以消除既有模型已摄取的作品影响。
本报告最终版本将在不久后发布,预计内容不会有实质性变动。
(本文主体部分由AI总结生成,可能存在一定偏差或错误,敬请谅解。AI生成文字不代表本公众号的观点,仅作为辅助创作的参考)
附报告:
扫码查看报告