《知产财经》> 观点 > 原创分析 >正文

周丹丹、马栋:“反不正当竞争法”视角下人工智能大模型“爬取数据”行为的正当性判断

来源于 知产财经 日期 2026年06月10日

“实质性替代标准”以终端市场替代为核心,但在大模型数据训练场景下,数据经大模型内化后不在输出端复现,显然不构成对原平台服务的直接替代,这必然导致“实质性替代标准”在该场景下的无法适用。且从新《反不正当竞争法》“数据保护专款”的规定来看,“实质性替代”也不是爬取、使用数据不正当竞争行为的构成要件。大模型数据训练场景下的“数据爬取”行为,其对经营者利益和市场竞争秩序的影响,有着更为复杂的利益平衡判断,需要综合平衡数据要素市场和人工智能产业发展需求之间的关系,从创新机制、供求机制、价格机制、信用机制等多方面权衡利弊,也需要统筹平衡数据要素市场、数据流通市场、数据交易市场的协同发展,司法需要努力为新技术的应用划定较为清晰的司法边界。

  作者:周丹丹/马栋 北京市集佳律师事务所律师

引言

  2026年4月20日,最高人民法院发布《人民法院知识产权司法保护实施方案(2026-2030年)》,其中涉及数据权益和人工智能有两项比较明确的司法导向,一是加强数据权益司法保护,服务数字经济高质量发展。坚持数据权益保护与数据开发利用并重,妥善处理数据纠纷,依法保护数据资源持有者、加工使用者、产品经营者等各类数据产权主体的合法权益;二是妥善审理涉人工智能案件,促进有益安全公平发展。……坚持促进发展和规范管理相统筹,稳妥审理大模型训练语料使用及涉人工智能生成内容侵权等新类型案件。最高院陶凯元院长表明,目前最高院正在积极推进涉人工智能、数据产权司法政策文件的起草,努力为新技术的应用划定较为清晰的司法边界。

  人工智能产业在整个发展过程中始终面临着诸多法律风险和问题,其中最为突出的就是数据来源合法性问题。大模型数据训练阶段需要海量的数据“投喂”,此类数据不只包含个人信息、版权作品,也包含大量的企业平台数据,国内外都引发了多起涉及大模型数据训练的侵权纠纷。在国内,虽然近几年涉及爬取、使用平台数据的不正当竞争案件已积累了一定的司法裁判规则,但尚未见到人工智能大模型数据训练的不正当竞争司法案例,与此同时,涉及大模型未经许可大规模爬取数据用于数据训练的争议在实践中已广泛存在。在2025年10月新《反不正当竞争法》引入数据保护专款后,针对人工智能大模型数据训练这一特殊场景下的“爬取数据”行为的正当性应如何判断,仍有待不断地探索、总结。

一、近年司法实践对数据爬取行为正当性判断的裁判逻辑

  近年司法实践中已出现很多涉及爬取、使用平台数据的不正当竞争案例,从法律适用上可以分为适用《反不正当竞争法》第二条进行裁判的案例,和适用《反不正当竞争法》(2025年之前旧法)第十二条第二款第(四)项进行裁判的案例。下面以两个典型案例为例简要介绍下司法裁判逻辑:

  (一)依据反法第二条“利益平衡”原则进行行为正当性判断

      在最高院2025年8月发布的数据权益司法保护专题指导性案例“刷宝APP”案[1]中,原告主张的被诉行为是“被告未经许可采用技术手段或人工方式获取来源于抖音APP中的用户信息、短视频、评论内容并通过刷宝APP向公众提供”。北京知识产权法院经审理认为,被诉行为不属于妨碍、破坏其他经营者网络产品或者服务正常运行的行为,不适用《反不正当竞争法》第十二条第二款的规定,应适用反法第二条。并指出适用反法二条对竞争行为进行判断时,可以利益衡量为标准,通过衡量竞争行为手段的适当性、必要性,竞争行为后果造成的损害与所得利益之间的均衡性,判断竞争行为对经营者利益、消费者利益及市场竞争秩序的影响,在动态利益衡量基础上认定竞争行为的正当性。具体分析过程中,法院主要考量了如下四个因素:1.被诉行为手段不具有适当性、必要性;2.被诉行为会阻碍网络短视频行业发展、破坏竞争秩序;3.被诉行为会实质性替代原告提供的产品或服务;4.被诉行为最终会损害消费者福利。法院最终认定,被告采取不正当手段,抓取搬运抖音APP中的非独创性数据集合的实质性内容,攫取了原告的竞争资源,削弱了原告的竞争优势,损害了消费者福利,破坏了短视频行业的市场竞争秩序,所造成的损害远远大圩消费者及社会公众基于该行为获得的利益,因此,被诉行为违反了诚实信用原则和商业道德,构成不正当竞争。

  (二)依据反法第十二条“采取技术手段,妨碍、破坏产品正常运行”进行行为正当性判断

  在最高院2025年9月发布的8件反不正当竞争典型案例“搬家软件”案[2]中,原告主张的被诉行为是“被诉软件绕开淘宝公司的验证机制和反爬措施,抓取海量商品数据并‘搬运’至其他电商平台开设‘无货源店铺’”。江苏省高级人民法院经审理认为,被诉行为违反了《反不正当竞争法》第十二条第二款第(四)项的规定,明确“妨碍、破坏其他经营者合法提供的网络产品或者服务正常运行”不但包括经营者或者平台可以在技术层面正常提供商品或服务的能力瘫痪,也包括经济层面的经营成本不合理提升、机制破坏、客户流失、流量减损、商业模式的破坏等。具体分析过程中,法院主要考量了如下两个因素:1.被诉行为利用了技术手段——被诉软件爬虫技术爬取案涉商品数据,构成“利用技术手段”;2.被诉行为妨碍、破坏了淘宝公司合法提供的网络产品或服务正常运行——首先,被诉软件利用爬虫技术爬取案涉商品数据,会给淘宝公司服务器及相关机制的正常运行带来负担;其次,被诉软件导致淘宝、天猫平台及平台内商家被同业竞争平台及商家实质性替代;再次,被诉软件导致淘宝、天猫平台的零售电商商业模式和良好的生态系统遭到破坏。综上,法院最终认定被诉行为属于反法第十二条第二款第(四)项规制的不正当竞争行为。

  由上述两个最高院发布的典型案例不难看出,无论是适用反法第十二条第二款第(四)项,还是适用反法第二条,大量的司法判例都在一定程度上考量了“实质性替代标准”,有必要进一步研究,“实质性替代标准”是判断行为正当性的构成要件吗?

二、“实质性替代标准”不应成为判断行为正当性的构成要件

  (一)“实质性替代”标准在数据类不正当竞争案件中的适用争议

  “实质性替代”是指行为人利用数据提供的相关产品或者服务,对其他网络平台经营者合法提供的产品或者服务产生替代性后果。“实质性替代”标准源于司法实践,自2010年“大众点评诉爱帮网案”[3]首次提出后,该规则在“大众点评诉百度案”[4]“淘宝诉美景案”[5] “生意参谋案”[6]等多个案件中都有体现,也包括上述最高院2025年发布的“刷宝APP案”和“搬家软件案”等。但事实上,在数据不正当竞争纠纷的行为正当性判断中是否应适用“实质性替代”标准,尚存在较大争议,这一点从立法文件中可明确看出:

  2021年8月,国家市场监管总局《禁止网络不正当竞争行为规定(公开征求意见稿)》第二十条规定,“经营者不得利用技术手段,非法抓取、使用其他经营者的数据,并对其他经营者合法提供的网络产品或者服务的主要内容或者部分内容构成实质性替代,或者不合理增加其他经营者的运营成本,减损其他经营者用户数据的安全性,妨碍、破坏其他经营者合法提供的网络产品或者服务的正常运行。”即,将“实质性替代”作为认定数据抓取或者使用行为不正当性的后果要件之一。但在国家市场监督管理总局2024年9月正式实施的《网络反不正当竞争暂行规定》中,并没有通过“实质性替代”的规定。2022年11月,国家市场监督管理总局发布的《反不正当竞争法(修订草案征求意见稿)》第十八条规定,“经营者不得违反约定或者合理、正当的数据抓取协议,获取和使用他人商业数据,并足以实质性替代其他经营者提供的相关产品或者服务;经营者不得披露、转让或者使用以不正当手段获取的其他经营者的商业数据,并足以实质性替代其他经营者提供的相关产品或者服务”。即明确将“实质性替代”作为认定数据抓取或者使用行为不正当性的后果要件,但在2025年6月最终颁布的《反不正当竞争法》中也删除了“实质性替代”的表述。由此可见,虽然十几年的司法实践对于“实质性替代标准”有一定的惯性依赖,但其未能被最终纳入立法条文之中。足可见,现实场景下,数据爬取、使用具有更大的复杂性、多样性,过度依赖对数据进行同质化利用的“实质性替代”标准过于狭窄,不能将其设置为数据爬取、使用行为正当性判断的构成要件之一。

  (二)大模型数据训练场景下,“实质性替代”标准将更加无法适用

  “实质性替代标准”要求的数据利用方式是同质化的,要求的损害后果是替代性的。但人工智能大模型数据训练对数据的获取、使用方式和使用量级,与既往案例中的情况已存在根本性不同。大模型数据训练需要海量的数据。公开资料显示,OpenAI发布的ChatGPT-3的训练数据主要来自Common Crawl——一家非盈利的机构,用自己的网络爬虫收集了PB(1PB=1000TB)级别的网页数据,这与通常场景下的数据爬取量级不可同日而语。另外,人工智能大模型数据训练的技术特性也决定了,“输入端”的原始数据与“输出端”的输出结果之间存在“技术黑箱”。通常情况下,原始数据已不再可辨识、可追溯。理论上,原始数据经过人工智能大模型的“学习”,输出端已不会对原始数据进行原样复现。这必然导致数据持有人无法从大模型输出端反推大模型是否爬取或使用了自身数据,这正是“实质性替代”标准在大模型数据训练争议中更加无法适用的关键所在。那么,当大模型通过不正当手段获取数据用于数据训练,同时在输入端不显现原始数据的情况下,其爬取、使用数据的行为正当性与否应如何判断,就是一个无可回避且必须深入探讨的问题。

三、新反法下,数据爬取、使用行为正当性判断的构成要件

  2025年10月实施的新《反不正当竞争法》第13条第3款专门规定了侵害数据权益行为,即经营者“不得以欺诈、胁迫、避开或者破坏技术管理措施等不正当方式,获取、使用其他经营者合法持有的数据,损害其他经营者的合法权益,扰乱市场竞争秩序”(以下简称“数据保护专款”)。该条款可以归结为三个构成要件:主体要件——合法持有数据的经营者;行为要件——以欺诈、胁迫、避开或者破坏技术管理措施等不正当方式,获取、使用数据;后果要件——损害其他经营者的合法权益,扰乱市场竞争秩序。

  (一)主体要件——合法持有数据的经营者

  该条将保护客体限定为“经营者合法持有的数据”。“合法持有”可大致归为三种情形:基于合同取得、基于法定取得和基于事实取得。前两类持有依据明确。真正边界模糊、也是当前绝大多数纠纷所涉的类型,是基于事实取得的数据。事实依据主要是源于投入与控制的持有,它是指经营者通过自身的劳动、资本、技术等实质性投入,依法对数据进行收集、整理、加工和维护,从而形成了对数据的实际控制和稳定的利益期待。[7]

  基于事实取得的数据之所以应落入竞争法的保护范围,根本理由在于反法所保护的法益本就是经营者通过正当经营活动积累的竞争性利益。数据本身的价值并不天然附着于原始记录,而是产生于后续处理过程。当经营者投入劳动与资本,将原始、零散的数据转化为具有商业价值的数据资源时,这一过程所创造的价值增值,正是反法所要保护的竞争性利益。如果对此类投入所形成的利益不予保护,允许他人以不正当手段随意攫取,无异于鼓励不劳而获,最终将瓦解数据生产的供给激励。

  (二)行为要件——以欺诈、胁迫、避开或者破坏技术管理措施等不正当方式,获取、使用数据

  1.避开或者破坏技术管理措施等不正当方式的认定

  司法实践案例中,更多出现的是避开或者破坏技术管理措施等方式获取数据。虽然反法并未规定技术管理措施的具体定义,但大量的在先判例已认定了一些有效的技术管理措施,且“等不正当方式”的开放式表述,也为不断发展变化的新型技术手段预留了适用空间。“技术管理措施”的保护范围不限于技术标准较高的措施,还包括其他管理措施,数据权益的保护措施,只要达到能够宣示权利的最低程度即可,不要求达到事实上防止数据被获取的程度。[8]在先判例中认定的技术管理措施主要包括平台公示的《用户协议》《平台管理规则》《法律声明》、数据访问限制措施(如用户名及密码验证、动态验证码、签名校验等)、防爬取措施(如Robots协议、请求频率限制、IP封禁、User-Agent识别和拦截)等,如行为人针对上述技术管理措施,实施了避开或破坏行为即符合该数据保护专款的行为要件。

  2.不正当获取数据行为的独立可责性

  2025年1月全国人大官网公开征求意见的《反不正当竞争法(修订草案)》(以下简称“修订草案”)第十三条第二款第(四)项规定,经营者不得实施以欺诈、胁迫、电子侵入等不正当方式,获取并使用其他经营者合法持有的数据的行为,此处为“获取并使用”的并列表述,规范重心落在后续使用行为上,不正当获取行为似乎并没有独立的评价空间。但最终通过的《反不正当竞争法(2025修订)》第十三条第三款,规定“经营者不得以欺诈、胁迫、避开或者破坏技术管理措施等不正当方式,获取、使用其他经营者合法持有的数据”。从规范结构看,“获取”与“使用”以顿号并列,意味着两种行为可以合并评价,也可以分别独立评价。即不正当获取数据行为不再附加后续使用行为,具有独立的可责性。

  (三)后果要件——损害其他经营者的合法权益,扰乱市场竞争秩序

  “数据保护专款”的后果要件基本可以参照反法第二条的利益平衡原则,司法实践中,对于数据持有人合法权益的损害主要考量以下几个方面:第一,被诉行为是否直接损害数据持有人经济利益,如截取了数据持有人的交易机会、用户流量等,导致数据持有人经济利益的直接减损;第二,是否不合理地增加数据管理成本,如行为人大规模爬取数据加重数据持有人的服务器运行负荷,且数据持有人需要不断加大反爬取投入和措施进行平台治理等;第三,是否损害平台数据价值或导致用户对平台产品或服务的负面评价,如大量数据被爬取,导致用户对平台信息安全能力产生质疑,或者大量虚假数据充斥平台,导致用户体验下降,进而对平台产品或服务产生负面评价等。

  对扰乱市场竞争秩序主要考量如下几个方面:第一,是否破坏了创新机制,如放任照搬数据行为的存在,必将助长不劳而获,打击数据持有人自主创新、优化产品及服务的积极性;第二,是否推高了整个数据市场的交易成本,如市场上来源非法或存疑的数据规模较大,将加大市场主体判断数据来源合法合规的难度,数据交易成本将显著推高;第三,是否损害消费者福利,如扼杀创新必然导致同质化数据泛滥,长期以往将降低数据交易市场的丰富程度,导致数据产品和服务供应不足,最终损害消费者长远利益等。

四、人工智能数据训练场景下,“爬取数据”行为的正当性判断

  人工智能数据训练场景下,“数据爬取”行为的正当性判断,应依据新《反不正当竞争法》“数据保护专款”的上述构成要件进行法律判断,并结合数据权益保护与数据开发利用并重的司法导向。个人认为,其难度主要在于利益平衡原则在这一场景下的均衡把握。

  (一)人工智能数据训练场景下,数据持有人的维权困境

  第一,爬取行为发现难、举证难、获得救济难。隐蔽爬取技术成熟,数据持有人难以实时察觉。即便发现异常爬虫访问,锁定爬取主体与固定证据的成本极高。进入诉讼后,数据持有人还需证明数据被用于训练、证明因果关系,而模型训练的黑箱使得这一链条难以闭合。多重困难层层叠加,导致数据持有人几乎难以获得有效救济。

  第二,违法成本外部化。防御成本由数据持有人单方承担,包括爬虫识别系统建设、安全团队配置、服务器稳定性维护等持续性支出。爬取方获取数据的成本远低于合法授权的对价,收益却完全归于自身。成本与收益的分配严重失衡,形成守法者负担加重、违法者激励强化的逆向结构。

  第三,技术军备竞赛容易催生反向数据封闭。虽然《生成式人工智能服务管理暂行办法》明确要求人工智能数据训练应使用具有合法来源的数据,但因司法实践中“实质性替代标准”的长期存在,导致大模型主体普遍认为只要输出端不显示原始数据即可以免责,数据爬取行为泛滥,数据持有人只能依赖技术壁垒自保,持续升级防御并收缩数据公开范围。

  (二)平衡企业数据权益保护与人工智能数据训练的判断因素

  最高院《人民法院知识产权司法保护实施方案(2026—2030年)》明确,坚持数据权益保护与数据开发利用并重,准确界定各类数据的保护范围和保护强度。从制度供给层面可以看出一个明确的价值导向,即以权益保护保障供给激励,以供给激励支撑流通利用。人工智能大模型数据训练必然需求海量数据,在扶持人工智能产业发展的同时,如何平衡数据权益人的合法利益,以最终实现既激励数据创新,又能保障数据有序流程利用,以促进人工智能产业的发展,是一个必须直面又非常复杂的问题。平台数据任由人工智能大模型在“输入端”爬取、使用,显然短期内或者表面上有利于人工智能产业发展,但同时也必须看到其长期、深层次的损害,主要应考虑以下几个方面:

  第一,创新机制受损,优质数据将越来越少。面对无休止的网络爬虫爬取攻击和数据无偿爬取利用,无法保障数据持有人投入的劳动和资本获得合理回报,更无从谈起加强数据要素供给激励。创新从“以优取胜”的价值创造异化为“以盾防矛”的零和博弈,数据的同质化必然导致数据市场供应不足,人工智能数据训练的语料供给也将随之日渐萎缩。

  第二,供求机制受损,数据交易市场无法有效建立。?规避技术措施爬取数据绕过了数据持有者的准入控制,使数据供给完全脱离持有者的自愿意愿,语料数据市场的正常供给机制被人为扭曲,需求方通过强制获取替代自愿交易。当爬取行为无法被有效追责,数据持有者便无法对授权收益形成稳定预期,交易机制自然难以有效建立。

  第三,价格机制失灵。不经授权的爬取使数据获得成本趋近于零,市场无法形成反映数据真实价值的公允价格信号。“零价格”信号从根本上消灭了平台投资生产高质量数据的激励,数据经济的再生产循环因此断裂。

  第四,信用机制缺失。规避行为向市场传递“技术强权胜过法律合意”的信号,动摇了“尊重技术意愿、遵循谈判授权”的市场共识,语料数据交易市场赖以形成的法律与信任基础严重缺失。数据持有人被迫将本应用于产品创新与服务质量提升的资源,转向爬虫识别与技术对抗。

  正因为人工智能产业的发展离不开海量的优质数据供给,才更应加大对数据权益的保护力度,以此激励数据创新,进而推动数据流通和交易市场的逐步建立、完善。只有让数据持有人建立起“投入可回报、权益受尊重”的安全预期,数据交易市场才有可能萌芽、成长。反之,若数据爬取行为任意泛滥无从规制,违法追责形同虚设,短期来看似乎降低了AI产业的语料数据获取门槛,长远来看却是以牺牲数据企业权益为代价换取人工智能产业发展。高质量数据的生产主体一旦丧失激励,数据要素市场、数据交易市场便无从建立,人工智能产业也终将面临无源之水,无本之木的困境。

五、小结

  “实质性替代标准”以终端市场替代为核心,但在大模型数据训练场景下,数据经大模型内化后不在输出端复现,显然不构成对原平台服务的直接替代,这必然导致“实质性替代标准”在该场景下的无法适用。且从新《反不正当竞争法》“数据保护专款”的规定来看,“实质性替代”也不是爬取、使用数据不正当竞争行为的构成要件。

  大模型数据训练场景下的“数据爬取”行为,其对经营者利益和市场竞争秩序的影响,有着更为复杂的利益平衡判断,需要综合平衡数据要素市场和人工智能产业发展需求之间的关系,从创新机制、供求机制、价格机制、信用机制等多方面权衡利弊,也需要统筹平衡数据要素市场、数据流通市场、数据交易市场的协同发展,司法需要努力为新技术的应用划定较为清晰的司法边界。


注释:

1 北京知识产权法院(2021)京73民终1011号民事判决

2 江苏省高级人民法院(2024)苏民终212号民事判决

3 北京市第一中级人民法院(2011)一中民终字第7512号民事判决

4 上海知识产权法院(2016)沪73民终242号民事判决

5 浙江省杭州市中级人民法院(2018)浙01民终7312号民事判决

6 江苏省南京市中级人民法院(2023)苏01民初4082号民事判决

7 徐俊:《反不正当竞争法数据保护专款的司法适用研究》

8 孔祥俊:《“互联网专条”与“数据保护专款”:点睛之笔与立法突破——新修订〈反不正当竞争法〉释评之二》

本文共计8616字 ,订阅后享全网免费阅读

登录后获取已订阅的阅读权限

单篇订阅   年度会员订阅

支付金额:

立即支付
分享到新浪微博
分享到朋友圈

没有了

下一篇:对话龙小宁教授:经济分析报告在知识产权案件中有何作用?

其他文章

发表评论

全部评论
加载更多