作者:顾昕 国家知识产权局知识产权发展研究中心首席研究员
本文内容节选自《数字法治》2025年第3期以“数据知识产权规则构建”为主题的圆桌论坛(原文链接:《杨东、申卫星、冯晓青、姚佳、顾昕、李迎新:数据知识产权规则的构建》)上顾昕老师对主持人四项提问的回答。
一、当前数据知识产权保护规则的探索效果
近些年,国家知识产权局贯彻《知识产权强国建设纲要(2021-2035年)》和《“十四五”国家知识产权保护和运用规划》等中央政策文件的部署要求,考察数据作为权益客体的性质相较于传统物权及知识产权的根本性变化,开展了数据知识产权保护规则的理论构建和实践探索工作。
首先,在理论构建的探索效果上,明确了数据知识产权的保护对象和保护方式。一个数据集合中,往往涵盖了不同主体的多种数据权益:既有个体数据中蕴含的著作权等知识产权,也有大规模数据集合中蕴含的整体数据利益;既有数据来源者对数据集合中蕴含的个人信息和行动轨迹排除他人打扰的权利,也有数据处理者对数据集合付出劳动和相关投入所享有的利益。一个大规模的数据集,通常可能包括著作权、隐私权、商业秘密、个人信息的可携带或被遗忘权,以及收集加工处理海量数据形成的竞争性利益等多项权利或权益,其中涉及多个主体的多项权利,形成一个个权利束。实践中,当某个经营主体想利用这个数据集时,面对如此多的权利主体形成的众多权利束,往往无从下手。其实,国外的数据权益保护制度,无论是欧盟1996年制定的《数据库保护指令》,还是日本2018年《反不正当竞争法》新设的数据专款,同样没有区分数据的保护对象,导致这两项制度实施后的效果均不理想。为了解决这个问题,数据知识产权规则开创性地将保护对象定位在数据处理者付出劳动或投入资本“经过一定规则处理”后形成的,且往往具有相当规模的整体数据;数据处理者所做的这部分新贡献,可以通过相应的登记制度予以明确。通过这种方式,像漏斗一样过滤出能够在市场上流转利用的数据要素,从而为数据处理者利用数据集合提供正当性依据。当然,其前提是数据处理者需要获得数据来源者的合法授权。简言之,数据知识产权以“数据+规则”的方式,通过设定这两个要件明确需要保护的数据对象。
需要强调的是,为了防止形成“数据孤岛”,数据知识产权在保护方式上采取了与《反不正当竞争法》商业秘密保护制度相同的行为规制模式,只禁止他人不正当获取和利用数据的行为。通过设定一种有别于传统专利权的“弱权利”,既阻止他人不正当获取和利用该数据,也允许他人合法自行产生类似甚至相同的数据,避免产生数据垄断。
其次,在地方实践的探索效果上,比较当前各种类型的数据登记,数据知识产权登记作为一项新型登记制度,对“登记什么”以及“登记的作用”这两个基本问题的回应最为简单清晰,其效力也获得了司法承认。
以数据知识产权之外的其他登记模式为例,《深圳市数据产权登记管理暂行办法》规定,可以进行登记的数据资源和数据产品,包括原始数据集合,以及投入实质性劳动形成的数据集、数据分析报告、数据可视化产品、数据指数、应用程序编程接口(API数据)、加密数据等。《广东省数据产权登记试点工作实施指南》也规定,登记对象包括数据资源、数据产品等各种形态的数据。我们认为,登记对象的多元化,意味着数据来源者和数据处理者等不同主体都可以获得登记,从而大幅拓宽可登记的范围;但不同保护对象以及不同主体之间的权益交杂在一起,实践中厘清彼此的权益范围并处理好授权关系,就变得非常困难。
其实,看似复杂的系统,往往由几条最简单的规则构成。相较之下,数据知识产权的规则就非常简单,可简化为“数据+规则”两个要素:保护主体是数据处理者,保护对象是经过一定规则处理的数据集合。
经过三年的试点实践,该模式运行良好。其一,在登记数量上,截至2025年3月,全国累计受理数据知识产权登记申请超过4.8万件,颁发登记证书超过2.4万件。其二,在权益保护上,全国首例涉及数据知识产权登记证书的数据纠纷案件(“数据堂公司与隐某公司不正当竞争案”,以下简称“数据堂”案)在北京审结。当前的各类数据登记模式中,只有数据知识产权证书在具体司法案件中得到了运用,其证明效力获得司法的认可。其三,在交易使用上,数据知识产权在融资增信、交易许可、证券保险等促进数据要素价值实现方面发挥着积极作用。截至2025年3月,累计融资增信金额超过93亿元,交易许可金额超过4.8亿元,证券化金额超过1亿元。
数据知识产权在实践中的积极成效,引起了学术界的广泛关注。2025年国家社会科学基金重大项目招标公告中,就将“数据知识产权保护规则体系构建研究”与“中国深度参与全球数据知识产权治理的机制、路径与政策研究”列为招标选题。
二、对全国首例数据知识产权证书效力司法案件的评价
在数字时代,具有要素化价值的大数据集合,并不是传统意义上静态不变的数据库,而是无论其算法规则还是数据本身都在不断变化的大规模数据集合。现有的公证、存证等方法,都难以从整体上把握这种不断变化的数据集合。如何把握这种全新的“流动的秩序”,是当前数据规则构建的关键所在。
《民法典》第127条是关于数据基本规则的引致条款。鉴于当前数字技术发展日新月异,对数据要素的规律性认识仍处于不断深入的阶段,显然不适合骤然在“法律”层级上对涉及数据基本规则的内容进行立法。立法不能一蹴而就,对数据的规律性认识也不会凭空出现,而是需要持续地探索尝试。正因如此,《中共中央国务院关于构建数据基础制度更好发挥数据要素作用的意见》(“数据二十条”)等中央文件才提出要“研究数据产权登记新方式”。
以数据知识产权规则为代表的“新方式”,就是通过数据来源、处理规则(有时表现为算法)、应用场景、样例数据、存证公证、合法承诺等一整套内容,来整体性地把握不断变化的大数据集合。而2024年6月北京知识产权法院二审裁判生效的全国首例数据知识产权证书效力司法案件“数据堂”案【北京知识产权法院(2024)京73民终546号民事判决书】,就是对这种“新方式”的回应和肯定。
该案中,涉案数据是1505小时的中文普通话语音数据集合,参与录制的人员来自全国不同省份,采集的语音经专业校对后进行标注,可用于人工智能语言识别模型的训练。该数据集合获得了数据知识产权登记。一审原告于2021年在其网站上将涉案1505小时数据集合中的子集(涉案200小时数据集合)作为开源数据向公众提供,但在开源活动说明中明令禁止下载者再进行任何形式的商业应用。一审被告将涉案200小时数据集合放在自己的网站上传播,公众注册成为被告网站用户后即可下载该数据集合。
北京互联网法院一审认为,涉案1505小时数据集合符合商业秘密的保护要求,其中的子集涉案200小时数据集合虽然基于开源计划在网站上公开,但网站说明中明确仅许可高校和学术机构等非商业组织使用,故涉案200小时数据集合仍然可以获得保护。
北京知识产权法院二审认为,子集涉案200小时数据集合因一审原告的主动公开而丧失秘密性。一审原告虽然不能再获得商业秘密保护,但对该数据集合享有的商业利益,可以通过《反不正当竞争法》第二条一般条款获得保护。
值得关注的是,无论是案件双方的当事人还是两审法院,都积极认可了数据知识产权登记证书的证明效力。一审法院判定,《数据知识产权登记证》能够作为一审原告收集且持有涉案数据集合、享有商业秘密权利的证明。二审法院尽管在法律适用上与一审法院存在分歧,但同样认可数据知识产权登记证书的效力,判定一审原告作为数据处理者就涉案数据集取得的《数据知识产权登记证》,可作为其享有涉案数据集相关财产性利益的初步证据。判决书进一步指出,《数据知识产权登记证》也可作为涉案数据集收集行为合法的初步证据,在无相反证据的情况下,可以据此认定涉案数据集收集行为未违反相关法律规定。
虽然涉案数据是200小时静态的数据集合,但两审法院认可的是通过这种登记新方式来把握可能处于不断变化中的大数据集合的效力。换言之,涉案的数据权益——无论作为商业秘密还是作为《反不正当竞争法》保护的商业利益,数据知识产权登记证书都可以作为确定大数据集合权益的初步证据。
至于数据知识产权以外的其他数据登记模式,在符合司法证据要求的前提下,理论上也可能作为享有数据权益的初步证据来使用。但由于这些登记模式的内容设计并没有考虑如何把握不断变化的动态数据集合,从目前公布的登记规则来看,即便作为初步证据,这些数据登记也只能作为享有静态数据集合权益的证据使用。相较之下,数据知识产权以“数据+规则”的方式,尝试从整体上把握不断变化的动态数据集合,其证据效力值得进一步期待。
三、对于已经处于公开状态的数据集合,是否应该给予保护?
如何对处于公开状态的数据进行保护,是目前涉及数据权益的司法裁判中最具有争议的问题。所谓处于“公开状态”的数据,既包括一般用户可以自由访问获得的数据,也包括用户在设置非常简单的用户名和密码后就能自由访问的数据,譬如大众点评网上的用户对餐厅等服务机构的体验点评,新浪微博上的博文及用户点评,智联招聘网站上各招聘企业和应聘者发布的海量信息等。这种性质的数据虽然实际属于“半公开”状态,但因为一般用户经过简单登录后很容易获得,广义上也认为处于公开状态。
利用技术手段抓取公开数据的行为是否构成不正当竞争则存在争议。实践中,不同法院的认定存在较大差异,甚至出现了截然相反的结论。譬如,在某某点评诉某某地图案【北京市第一中级人民法院(2011)一中民终字第7512号民事判决书】中,法院判定,被告通过搜索技术抓取并大量全文展示来自原告某某点评网的信息,超过必要的限度,对原告提供的服务构成实质性替代,属于不正当竞争行为。又如,在某某微博诉某某头条移植微博数据案【北京市海淀区人民法院(2017)京0108民初24530号民事判决书】中,法院认为,被告在未经原告许可的情况下,利用技术手段抓取微博内容,随后发布和展示在某App中的行为,足以使被告产生对原告的实质性替代效果,削弱原告的竞争优势,损害其商业利益,构成不正当竞争。
相较之下,上海地区法院审理的涉及招聘网站的司法案件,对于是否保护处于公开状态数据的问题,则持完全相反的观点,即倾向于认为不构成不正当行为。在智某招聘诉上海某橙案【上海市杨浦区人民法院(2019)沪0110民初16688号民事判决书】中,被告上海某橙公司将包括原告门户网站在内的多家招聘网站信息进行了“集成化”处理,原告网站账户内的人才简历全部导入被告网站账户的人才库中,只需登录被告网站便可一站式处理多个招聘网站收集来的简历信息。法院认为,被告的行为尽管可能给原告网站带来一定程度的访问量降低的不利影响,但由于企业用户发布职位信息、购买简历等行为仍需登录原告网站完成,因此原告的流量损失有限,尚未达到需要通过《反不正当竞争法》进行救济的必要。
值得留意的是,近些年,司法实践倾向于认定利用技术手段抓取公开数据的行为构成不正当竞争。譬如,在淘某公司与小某本公司不正当竞争纠纷案中,对于第三方平台规模性获取原平台公开展示的数据的行为,即使用户同意第三方平台迁移原平台的个人数据,法院依然认为,在被告对原告产生实质性替代效果的情况下,如果被告对获取的数据没有做出创造性贡献或产生新的功效,而仍以与原平台相同的使用方式使用数据,则构成不正当竞争。
我们认为,数据一旦公开进入流转状态,任何人都可以收集加工和利用,在新的场景下创造新的价值,这也正是数据流转发挥要素价值的应有之义。此时,若想再将已经公开的数据保护起来,需要很高的社会成本,公众也难以判断已经处于流转状态的数据是否可以使用,反而可能阻碍数据的流转利用。因此,对于互联网平台提供数据产品或服务时不得不向公众公开的海量个体数据,应当允许其他竞争者通过合法抓取的方式收集获得这些个体数据,并进行后续开发利用。
数据知识产权的保护对象,应当理解为处于未公开状态的大规模数据集合。目前,十七家数据知识产权地方试点中,对于登记对象是否处于公开状态的表述存在差异。譬如,北京、天津、山东和湖北等地的登记管理办法中,明确要求数据集合“处于未公开状态”;而浙江、江苏等其他试点的登记管理办法,在登记对象的表述上并没有要求数据“处于未公开状态”。这一表述差异,在学界也引发了数据知识产权的保护对象是否包含公开数据的讨论。其实,二者的规定并不冲突,只是角度有所不同:浙江和江苏等试点是因为允许登记的数据源于公有领域,所以没有作出限制性表述;而北京和天津等试点要求“处于未公开状态”,则是强调经过规则处理后的整体数据集合需要“处于未公开状态”,才能获得登记。无论哪种表述,其实质规则都允许个体数据源于公有领域,但经过规则处理后开展数据知识产权登记的整体数据集合,均需要“处于未公开状态”。
四、关于进一步完善数据知识产保护规则或数据权益保护的建议
数据知识产权规则的探索,核心任务是整体性把握不断发生变化的动态数据。目前各地试点开展的登记探索,尽管在具体要件的设计上存在一些差异,功能定位上结合本地区特色也有所侧重,但基本思路都是不需要数据处理者提供全部数据,而是基于处理规则验证样例数据在处理前后的变化,结合应用场景等维度整体性地把握不断变化的动态数据集合。为此,需要处理好以下三组关系。
一是数据知识产权与数据产权的关系。二者在保护对象上的根本差异在于是否将“处理规则”作为独立的要件对待。在数据知识产权登记中,“数据+处理规则”是两个需要同时满足的要件,作为登记人的数据处理者如果没有付出劳动或投入资本对数据集合进行加工处理,就不具备获得数据知识产权的正当性依据。因此,为了实现相应场景目的所进行的数据收集和加工处理,是判断是否符合数据知识产权保护对象要求的实质要件。而按照国家数据局《数据领域常用名词解释(第二批)》的解释,“数据产权”是指“权利人对特定数据享有的财产性权利,包括数据持有权、数据使用权、数据经营权等”。这个定义就意味着权利人包括公共数据的权益人(可能是国家等主体)以及原始数据的权益人,并不强调基于对数据“加工处理”所产生的特定权益,“处理规则”似乎也不是独立要件。
二是数据知识产权与数据产品知识产权的关系。目前的十七个试点省份中,数据知识产权登记对象的落脚点都是数据集合。2024年11月,上海市知识产权局联合上海市数据局共同印发《上海市数据产品知识产权登记存证暂行办法》,将登记对象的范围拓展到数据加工集合、数据加工产品、数据技术算法等“数据产品”。如何理解数据产品与数据集合二者之间的关系,是影响数据知识产权规则探索方向的重要问题。在试点探索的过程中,某些数据交易机构往往直接将数据产品作为数据交易和许可的对象,如果能直接以数据产品作为数据权益保护的对象,就可以与后续数据要素利用的实践现状相匹配。上海的试点方案正是对这种诉求的回应。即便将登记对象表述为数据产品,但其实质的审查规则仍然是通过“数据+规则”的方式来把握不断变化的数据集合,数据知识产权的探索路径没有发生根本性的变化。
三是数据知识产权与现有数据保护制度特别是商业秘密制度的关系。在功能设计上,数据知识产权与现有制度均不相同,具有独立的制度功能。譬如,在与商业秘密的关系上,各地登记实践显示,当数据处理者能够通过商业秘密保护时,并没有登记的意愿;只有当某部分数据不得不交互、不得不流通利用,无法完全用商业秘密制度给予保护的情况下,数据处理者才有较强的登记意愿。这点与专利制度其实非常类似。当市场上的创新主体用商业秘密就能有效保护的情况下,也不会选择申请专利,而往往是在产品投入市场后技术方案面临被反向工程破解、存在被迫披露的风险时,才选择申请专利。
在制度设计上,数据知识产权和商业秘密在保护范围上的关系是:数据知识产权的保护对象是整体数据+规则(或表现为产品),而商业秘密的保护对象不限于整体数据,也可能是个体数据展现的信息(譬如设计图等)。从二者相重合的整体数据来看,以下三种类型的整体数据集合不满足商业秘密的保护要件,但可能获得数据知识产权的保护:(1)包含技术信息、经营信息等商业信息之外的整体数据集合;(2)未满足商业秘密“保密性”要求的整体数据集合;(3)虽然对所属领域的相关人员是普遍知悉和容易获得的,但对一般公众未公开的整体数据集合。这三种类型的整体数据集合,在现阶段可以通过《反不正当竞争法》第二条一般条款获得保护。
以前述互联网平台向公众提供数据产品为例进行说明,平台内部经过规则处理且未公开的整体数据集合,平台可以选择通过商业秘密或数据知识产保护;但平台提供产品或服务时不得不向公众展示和公开的海量个体数据,不能获得保护。
未来,建议以“两步走”的方式继续数据知识产权规则的构建探索。第一步,在知识产权的框架下,将登记定位于提供公共服务,针对经过一定规则处理的大规模数据,探索如何通过登记的方式把握整体数据的特征和内容。在这个阶段,由于没有直接的上位法依据,数据知识产权尚不是一项与专利、商标、著作权并列的“权利”。数据知识产权证书,可以作为数据处理者主张商业秘密侵权或通过《反不正当竞争法》一般条款进行保护的证据来使用。第二步,数据知识产权证书在运用过程中,可能逐步出现与商业秘密等现有制度的保护不相适应的情况,甚至慢慢出现一些独立的保护要件。此时,再考虑将数据知识产权从现有的商业秘密等制度中独立出来,作为知识产权的一种新客体进行单独立法。
(本文仅代表作者观点,不代表知产财经立场,平台并不承诺对内容负责,如有相关疑问,请联系文章作者。)