数据抓取与利用行为的不正当竞争法规制

时间:2022-04-21
本文章向大家介绍数据抓取与利用行为的不正当竞争法规制,主要内容包括其使用实例、应用技巧、基本知识点总结和需要注意事项,具有一定的参考价值,需要的朋友可以参考一下。

编者按:

随着大数据时代的来临,数据的利用纠纷在司法实践中初露端倪。数据虽然在新修订的《民法总则》中作为一种新的客体出现,但其客体的范围、权利归属,权利界限在立法中几乎还是空白状态。本文将通过几个案例说明数据利用行为在司法实践中的规制。

一、引言

“网易云音乐”里有一项非常令人喜闻乐见的功能——“日推”。根据你经常听的歌曲类型,每日推送20首音乐,有好久以前听过早就忘记了歌名却一直村与记忆深处的老歌,或者之前不知道在哪听过只是知道其中一部分旋律,心心念念求而不得的歌等等,常常令人惊喜甚至是惊艳。日推功能也成为了网易云音乐拥有一众死忠粉的重要原因之一。

(图为网易云音乐的日推功能界面 )

那么网易云是如何实现“揣测”用户喜好的呢?答案藏在数据中。在网易云音乐播放器页面右上角点击个人账号一栏,可以找到自己的听歌排行榜。

(图为听歌排行榜界面)

每一首听过的歌,听过的频次,都被精确地记录下来。在看到这些实实在在的数据时,连用户自身可能都会惊讶于其对于自身口味的精准反映。仅仅是这样简单的听歌频次,就已经蕴藏了相当丰富的信息,但是要做到根据每个用户的口味匹配歌曲,这些数据是不够的。我们无从知道网易云音乐日推功能的具体算法,但是通过各种技术贴的分析与科普,我们大致可以感受一下数据分析的思路,这里介绍其中一种“潜在因子算法”[1]:用户对每首歌的行为,比如主动搜索、收藏、单曲循环、分享、主动播放、听完、跳过、不再推荐等,都会被记录下来形成数据。每个行为都会被赋予不同的权重,通过一系列的计算,大致可以量化出用户对一首歌的偏好程度。每首歌含有各种元素的成分,比如摇滚、重金属、爵士、或者小清新、温暖、优雅等,曲库中所有的歌曲可能都进行过这样的量化分析得出各种元素的权重。通过用户对一首歌量化后的偏好值和每首歌中不同元素权重比值,可以得出每个用户对于每种元素的量化偏好值,再根据所有歌曲的各种元素权重分析,实现量化用户对于每首由不同元素组成歌曲的偏好程度,于是便能将偏好程度最高的歌曲匹配给用户,根据用户行为数据的积累,推荐也会越来越“迎合”用户的口味。总结起来,也就是用元素去连接用户和音乐。通过刚才的分析,可以发现数据可能真的要比你自己更懂你。而这仅仅是数据利用的一个小小的例子。

在浩如烟海的互联网中,一切信息追本溯源都可以还原为0和1两个数字,因此在计算机领域,数据、信息、知识是三个富有联系的概念。数据是信息的表现形式和载体,可以是符号、文字、数字、语音、图像、视频等。而信息是数据的内涵,信息是加载于数据之上,对数据作具有含义的解释。[2]在互联网数据的多种形式中,当然有很多能够直接作为知识产权法的客体保护。比如发布在微博上的网友的博文及评论,视频网上的自媒体视频,有独创性的数据库,这些信息,如果符合作品的要件,可以受到著作权法的保护,其作为一种被法定化的绝对权利,有一套成熟的保护机制。无法被现有财产权利体系所保护的有商业价值的信息,包括但不限于: 被商业化利用的消费者及其需求的个人信息,因欠缺独创性无法被著作权法保护的数据库,电脑和其他电子存储系统内因欠缺独创性无法被著作权法保护的信息,现实财产、货币和支付手段所对应的电子信息和数据。[3]本文讨论的数据并不是这些能单独作为某种绝对权利客体受到保护的数据,也不是私人计算机,私人网络上的内部数据,而是公开在全球范围的网络上,通过大量的积累而产生分析价值的、统计意义上的数据,也就是所谓的大数据。

大数据无处不在,随着智能手机以及“可佩带”计算设备的出现,我们的行为、位置,甚至身体生理数据等每一点变化都成为了可被记录和分析的数据。[4]大数据应用于各个行业,包括金融、汽车、餐饮、电信、能源、体能和娱乐等在内的社会各行各业都已经融入了大数据的印迹。[5]比如洛杉矶警察局和加利福尼亚大学合作利用大数据预测犯罪的发生,Google流感趋势(Google Flu Trends)利用搜索关键词预测禽流感的散布,统计学家内特.西尔弗(Nate Silver)利用大数据预测2012美国选举结果,麻省理工学院利用手机定位数据和交通数据建立城市规划。可以说,大数据是社会高度信息化的必然产物。如舍恩伯格所说,数据化意味着我们要从一切太阳底下的事物中汲取信息,甚至包括很多我们以前认为和“信息”根本搭不上边的事情。比方说,一个人所在的位置、引擎的振动、桥梁的承重等。我们要通过量化的方法把这些内容转化为数据。这就使得我们可以尝试许多以前无法做到的事情,如根据引擎的散热和振动来预测引擎是否会出现故障。这样,我们就激发出了这些数据此前未被挖掘的潜在价值。[6]大数据的典型特征是数据体量大,价值密度低。因此,当几十万、几百万、几千万条间的的看似没有意义的信息汇总在一起,经过计算、分析,可能会挖掘出十分有价值的信息,此时这些数据作为一个整体事实上具有了财产的价值。

在数据的产生过程中,各式各样的互联网服务提供商无疑起到了收集、整理、保存等核心作用,因此从直觉上来看,我们似乎应该给予这些主体一些什么权利以保护其劳动成果。但是,正如丁文联法官在第二届自贸区知识产权司法保护研讨会上提出的,在一条外卖信息的产生过程中,有客户、餐馆、与外卖平台三方的参与,应该如何确定该条数据的产权?在这个过程中,主导者数据产生的平台(通常也是互联网服务内容提供者),又能在多大程度上拥有权益?因此在法律上界定数据权利边界,确定权利主体成了一个难题。作今年10月1日正式施行的《民法总则》在第一百二十七条将数据列为某种客体,但是该条规定作为一条委任性规则,在具体的法律出台之前,其也只能起到一种宣示作用。

虽然立法尚不明晰,但是数据利用纠纷在司法实务中已经初露端倪。微博诉脉脉不正当竞争案是我国首例有关数据抓取行为的不正当竞争案,而美国也发生了一起同样的有关用户信息抓取的案件,然而中美两国给出的判决结果却是截然相反,其中蕴含着两国司法考量因素的差异。紧接着,大众点评与百度也因为数据抓取对簿公堂。本文将通过这几个案件来看在大数据语境下,数据抓取与利用行为的不正当竞争法规制。

二、微博诉脉脉不正当竞争案

与HIQ 诉领英案比较

(一)基本案情

2015年海淀区法院受理了新浪微博运营商北京微梦创科网络技术有限公司(以下简称新浪方)起诉北京淘友天下技术有限公司、北京淘友天下科技发展有限公司(以下简称脉脉方)运营的“脉脉软件”的不正当竞争一案,新浪方其中的一项主张是:脉脉方非法抓取、使用新浪微博平台用户信息,包括头像、名称(昵称)、职业信息、教育信息及用户自定义标签、用户发布的微博内容,构成不正当竞争。经过上诉,该案件于2016年12月30日落下帷幕,法院最后认定脉脉的行为构成了不正当竞争。

2017年7月,在大洋的另一端,发生了一起性质十分相似的案子。HiQ是一家旧金山数据挖掘公司,它抓取领英公开的个人简介数据,随后放进自己的量化黑匣子创造出两个产品,一个是 Keeper,告诉雇主哪些员工最有可能跳槽,另一个是 Skill Mapper,总结个体员工拥有的技能。在领英心知肚明的情况下(领英甚至还派出过代表参加过HiQ的年会),HiQ这样做了五年,但是在领英开发了一个与 Skill Mapper 非常类似的产品之后,领英立刻变了脸,其向 HiQ 发出了 " 勒令停止侵权函 ",威胁道如果 HiQ 不停止收集其用户数据的话,就将其起诉。[7]不仅如此,领英还采取了技术措施,阻断了HiQ的数据爬取,HiQ的业务顿时陷入了困境,公司生存情况岌岌可危,于是一纸诉状将领英告上了北加州联邦地方法院,要求对领英发布禁令,要求其接触技术措施,并撤回其警告信。法院最后发布了该禁令,也就是说法官认为HiQ有权抓取领英的数据并进行利用,由此HiQ “恶人先告状”成功。

(二)认定不正当竞争因素的比较考量

1.微博诉脉脉不正当竞争行为认定

为什么性质相似的两个案件在中美两国出现完全相反的判决结果呢?在微博诉脉脉暗中,二审法院在认定其是否构成不正当竞争时,适用的仍然是《反不正当竞争法》第二条。在分析推理过程中,法院首先引用了最高人民法院在(2009)民申字第1065号“山东省食品进出口公司等与青岛圣克达诚贸易有限公司等不正当竞争纠纷再审案”中提出的适用《反不正当竞争法》第二条认定构成不正当竞争的条件:1、法律对该种竞争行为未作出特别规定;2、其他经营者的合法权益确因该竞争行为而受到了实际损害;3、该种竞争行为因确属违反诚实信用原则和公认的商业道德而具有不正当性。基于互联网行业中技术形态和市场竞争模式与传统行业存在显著差别,为保障新技术和市场竞争模式的发展空间,其认为在互联网行业中适用《反不正当竞争法》第二条更应秉持谦抑的司法态度,在满足上述三个条件外还需满足以下三个条件才可适用:4、该竞争行为所采用的技术手段确实损害了消费者的利益,例如:限制消费者的自主选择权、未保障消费者的知情权、损害消费者的隐私权等;5、该竞争行为破坏了互联网环境中的公开、公平、公正的市场竞争秩序,从而引发恶性竞争或者具备这样的可能性;6、对于互联网中利用新技术手段或新商业模式的竞争行为,应首先推定具有正当性,不正当性需要证据加以证明。[8]作为第一起关于数据抓取与利用行为不正当竞争行为认定的案件,该案件所确定的考量因素标准对其后的判决都具有重要的参考价值。

关于第一个要件,近年来越来越多涌现的新型不正当竞争行为,尤其是互联网领域出现的新型不正当竞争行为,给反不正当竞争法的适用带来了巨大的挑战。这些新型的不正当竞争行为很难归入上个世纪90 年代颁布的《反不正当竞争法》列举的不正当竞争行为之列,有关机构对新型不正当竞争行为的规制越来越多地依赖一般条款的适用。[9]

关于第二个损害要件,法院认为数据的获取和使用,不仅能成为企业竞争优势的来源,更能为企业创造更多的经济效益,是经营者重要的竞争优势与商业资源,脉脉方获取并使用非脉脉用户的新浪微博信息,无正当理由的截取了微博的竞争优势,一定程度上侵害了其商业资源,以及基于其Open API[10]合作开发提供数据方的市场主体地位。

关于第三个要件,法院认为认定竞争行为是否违背诚信或者商业道德,往往需要综合考虑经营者、消费者和社会公众的利益,需要在各种利益之间进行平衡。在认定一种行为是“正当”或者“不正当”时,对经营者、消费者和社会公众三者利益的不同强调将直接影响着对行为的定性。不正当性不仅仅只是针对竞争者,不当地侵犯消费者利益或者侵害了公众利益的行为都有可能被认定为行为不正当。此时,第三个与第四个要件在具体的认定过程中其实是相互佐证的。法院认为脉脉方并没有基于《开发者协议》在取得用户同意的情况下读取非脉脉用户的新浪微博信息,其获取前述信息的行为没有充分尊重《开发者协议》的内容,未能尊重用户的知情权及自由选择权,一定程度上破坏了Open API合作开发模式。法院进而认定脉脉方获取新浪微博信息的行为存在主观过错,违背了在Open API开发合作模式中,第三方通过Open API获取用户信息时应坚持“用户授权”+“平台授权”+“用户授权”的三重授权原则。基于以上两个考量因素,法院认定脉脉违反了诚实信用原则和互联网中的商业道德,其行为不具有正当性。

关于第四个要件,法院认为新浪微博用户选择对公众公开个人信息,并不意味着脉脉可以未经新浪微博用户的同意,获取用户头像信息、标签信息、职业信息、教育信息并展示在脉脉软件的人脉详情中。其次,脉脉方将微博用户的信息与脉脉用户上传的手机通讯录中的联系人进行对应关系的展示,使得在脉脉软件运行环境中非脉脉用户的微博信息进行了公开展示,而这样的展示并没有告知非脉脉用户亦未得到其同意,严重损害了非脉脉用户的知情权和选择权。综合各个要件判断,法官认定了脉脉方的行为不具有正当性。

2.脉脉案中的认定要素在领英案中的适用

为了更好的比较脉脉案与领英案,本文尝试用脉脉案中提出的因素来阐明美国法院判决领英败诉的理由。首先关于经营者损害的要件,法官并没有作阐述,但领英收集的大量数据蕴含着巨大的商业价值,且其收集用户信息过程中付出了大量的人力物力,因此HIQ的行为确实是侵害了领英的商业价值。公共利益要件是中美两国出现相反判决结果的根本因素,如前所述该要件与行为正当性因素在认定过程中是不可分割的。首先HIQ抓取其数据并不是直接进行了利用,其拥有自己的算法与软件,对原始的用户数据进行分析之后得出了有价值的商业信息,这种行为符合竞争法促进市场竞争与鼓励创新的理念。其次,在HiQ诉领英案中,法官认为HiQ抓取的仅仅是领英的用户选择向公众公开的数据信息,显然法院认为公开的数据不应当由某方经营者垄断,互联网时代的本质是共享、公开。比较两国法官对于公共利益这以因素的考量,我们发现他们站在了不同的角度上,在微博诉脉脉暗中,法官认定的公共利益是微博用户的隐私权,而HiQ案中,美国法院认定的公共利益则是人人得以利用数据这一公开、共享资源的权利。这二者之间的冲突类似于知识产权法与生俱来的流通性与垄断性冲突,取决于各国的立法政策考量。在HiQ诉领英一案中,法官写道,In determining whether to issue a preliminary injunction. courts emp1oy a sliding scale stronger showing of one element may offset a weaker showing of another [11]即一个因素更强的显示可以抵消另一个因素的不足,正是出于这样的逻辑,法官将保护经营者竞争优势这一因素让位给了消费者利益,将其HiQ行为的正当性判断,也让位给了公共利益这一强势因素。我们且先不论法官认为允许公开抓取数据更有利于公共利益的结论是否合理,但是这背后的逻辑是值得肯定与借鉴的。

三、大众点评诉百度不正当竞争纠纷案

(一)基本案情

在百度地图中,对商家进行搜索时,会在百度地图的页面大量显示部分来自于大众点评网的完整点评信息,百度在使用这些信息时有标注“来自大众点评”的说明并提供链接,可点击该链接跳转到相应的大众点评页面。大众点评认为百度地图的这种行为构成“搭便车”,减少了用户对自己网站的访问,是一种不正当竞争的行为。经过二审,法院认为,百度公司并未对于大众点评网中的点评信息作出贡献,却在百度地图和百度知道中大量使用了这些点评信息,其行为具有明显的“搭便车”、“不劳而获”的特点。其行为违反了公认的商业道德和诚实信用原则,具有不正当性,根据反不正当竞争法第二条构成不正当竞争。

(二)认定因素

一审法院在认定该行为是否具有不正当性时考虑了三个要件[12]:1.百度公司和大众点评是否存在竞争关系。2.大众点评是否因百度公司的竞争行为而受到损害。3.百度公司的行为是否具有不正当性。二审法院在判决书中又对因素二和因素三重新作了阐述。

1.大众点评的利益是否因百度公司的行为受到损害

法院认为大众点评主张百度公司的行为违反反不正当竞争法一般条款的规定,需要满足其是否具有可获得法律保护的权益。大众点评网站通过长期经营,其网站上积累了大量的用户点评信息,这些点评信息可以为其网站带来流量,同时这些信息对于消费者的交易决定有着一定的影响,本身具有较高的经济价值。大众点评依据其网站上的用户点评信息获取利益并不违反反不正当竞争法的原则精神和禁止性规定,其以此谋求商业利益的行为应受保护,他人不得以不正当的方式侵害其正当权益。就提供用户评论信息而言,百度公司在百度地图和百度知道产品中大量使用来自大众点评网用户的评论信息,已对大众点评网构成实质性替代,这种替代会使大众点评的利益受到损害。但是法院同样也指出,在自由、开放的市场经济秩序中,经营资源和商业机会具有稀缺性,经营者的权益并非可以获得像法定财产权那样的保护强度,经营者必须将损害作为一种竞争结果予以适当的容忍。本案中,汉涛公司所主张的应受保护的利益并非绝对权利,其受到损害并不必然意味着应当得到法律救济,只要他人的竞争行为本身是正当的,则该行为并不具有可责性。

2.百度公司的行为是否具有不正当性。

法院认为,商业道德本身是一种在长期商业实践中所形成的公认的行为准则,但互联网等新兴市场领域中的各种商业规则整体上还处于探索当中,市场主体的权益边界尚不清晰,某一行为虽然损害了其他竞争者的利益,但可能同时产生促进市场竞争、增加消费者福祉的积极效应,诸多新型的竞争行为是否违反商业道德在市场共同体中并没有形成共识。对于擅自使用他人收集的信息的行为是否违反公认的商业道德的判断上,一方面,需要考虑产业发展和互联网环境所具有信息共享、互联互通的特点;另一方面,要兼顾信息获取者、信息使用者和社会公众三方的利益,既要考虑信息获取者的财产投入,还要考虑信息使用者自由竞争的权利,以及公众自由获取信息的利益;在利益平衡的基础上划定行为的边界。只有准确地划定正当与不正当使用信息的边界,才能达到公平与效率的平衡,实现反不正当竞争法维护自由和公平的市场秩序的立法目的。这种边界的划分不应完全诉诸于主观的道德判断,而应综合考量上述各种要素,相对客观地审查行为是否扰乱了公平竞争的市场秩序。在判断百度公司的行为是否违反商业道德时,法院提出应综合考虑以下几个因素:

(1)百度公司的行为是否具有积极的效果。市场经济鼓励的是效能竞争,而非通过阻碍他人竞争,扭曲竞争秩序来提升自己的竞争能力。如果经营者是完全攫取他人劳动成果,提供同质化的服务,这种行为对于创新和促进市场竞争没有任何积极意义,有悖商业道德。在该案中,当用户在百度地图上搜索某一商户时,不仅可以知晓该商户的地理位置,还可了解其他消费者对该商户的评价,这种商业模式上的创新在一定程度上提升了消费者的用户体验,丰富了消费者的选择,具有积极的效果。

(2)百度公司使用涉案信息是否超出了必要的限度。法院认为百度公司在使用来自大众点评网的评论信息时,理想状态下应当遵循“最少、必要”的原则,即采取对大众点评最小的措施。但是百度的行为已经实质替代了大众点评网的相关服务,其欲实现的积极效果与给大众点评网所造成的损失并不符合利益平衡的原则。并且百度公司明显可以采取对汉涛公司损害更小,并能在一定程度上实现积极效果的措施,比如百度地图在早期版本中所使用的来自大众点评网信息数量有限,且点评信息未全文显示,这种使用行为尚不足以替代大众点评网提供用户点评信息服务,也能在一定程度上提升用户体验,丰富消费者选择。

(3)超出必要限度使用信息的行为对市场秩序所产生的影响。百度公司超出必要限度使用涉案信息,这种行为不仅损害了汉涛公司的利益,也可能使得其他市场主体不愿再就信息的收集进行投入,破坏正常的产业生态,并对竞争秩序产生一定的负面影响。同时,这种超越边界的使用行为也可能会损害未来消费者的利益。消费者利益的根本提高来自于经济发展,而经济的持续发展必然依赖于公平竞争的市场秩序。就本案而言,如果获取信息投入者的利益不能得到有效保护,则必然使得进入这一领域的市场主体减少,消费者未来所能获知信息的渠道和数量亦将减少。

四、结语

市场经济正是鼓励竞争的经济形式,并不是说经营者在经营过程中形成的任何竞争优势都应该保护,模仿与创新是人类进步的前提与基础,如果任何竞争优势都要受到保护,无异于将经营者的竞争优势划入了一种绝对化的私有权利。而不正当竞争法与侵权法体系的一个重要区别是,二者所保护的权益程度是不同的。侵权法体系中,所被保护的权益已经类型化,其边界清晰,相当于给权利所有者划定了一个私人领域,所有踏进该领域的行为被推定为违法,除非其有某种法定的免责事由,否则将承担民事责任。而竞争法所保护的则是未被类型化的利益,立法者未将其类型化,将其像人身权、知识产权等绝对权利那样为权利人划出“私人领域”,就是因为出于促进良好竞争的立法考量,不希望这种利益被过分保护。因此,这些利益的边界被刻意地模糊化了。市场上的其他营者就算在竞争过程中“动了这些蛋糕”,只要其符合商业道德,在法律上也推定其是合理的。但是商业道德毕竟是一个过于模糊的概念,脱离了具体的环境,正当与不正当也都是相对的,从具有竞争关系的经营者之间的相互指责之词去判断是否符合商业伦理道德也十分令人头大,因此消费者利益才是一个更应当优先判断,也是一个更加容易打破并打破僵局的因素。因此,从这个意义上来说,经营者损害的要件要让位于消费者因素要件。如果维持这种竞争优势对消费者产生不利,那么这种竞争优势是不值得保护的。不正当竞争行为起初是作为一种特殊的侵权行为出现的。因此认定结构与侵权行为的四要件具有很大的相似性,但是区别于二者最大的因素应该是消费者因素,或者说公共利益因素。数据抓取行为虽然作为一种新的互联网不正当竞争行为出现,但其行为正当性判断的精神与以往无异

《反不正当竞争法》修订之后,在第二章不正当竞争行为中增加了“互联网专条”[13],但是由于其用词的不周延性也引起了很大的争议,就数据抓取行为来说,似乎并不能满足“妨碍、破坏其他经营者合法提供的网络产品或者服务正常运行”的条件,在今后的司法实践中,互联网专条是否能在数据抓取与利用行为中起到规制作用,我们拭目以待。

参考文献

2. https://baike.baidu.com/item/%E6%95%B0%E6%8D%AE/5947370 最后访问时间:2017年12月15日。

3. 刘金瑞. 信息财产化与民法典编纂——兼评《民法总则(草案)》关于网络虚拟财产和数据信息的规定[J]. 北京航空航天大学学报(社会科学版),2017,30(01):54-57.

4. 维克多·麦尔·舍恩伯格.大数据时代:生活、工作与思维的大变革.[M].浙江人民出版社,2012年12月,第10页

5. http://bigdata.evget.com/post/2116.html最后访问时间:2017年12月15日。

6. 维克多·麦尔·舍恩伯格.大数据时代:生活、工作与思维的大变革.[M].浙江人民出版社,2012年12月,第28页

7. http://app.myzaker.com/news/article.php?pk=59f942e61bc8e04c0300000c最后访问时间:2017年12月15日。

8. (2016)京73民终588号。

9. 张占江. 不正当竞争行为的认定的逻辑与标准[J]. 电子知识产权,2013,(11):22-27.

10. Open API开发合作模式是在互联网环境下实现数据信息资源共享的新途径。《开发者协议》是约束Open API合作双方的协议,双方均应本着平等互利、诚实信用、保护用户利益的基本原则进行合作。在该案中,法院认定在Open API开发合作模式中,第三方通过Open API获取用户信息时应坚持“用户授权”+“平台授权”+“用户授权”的三重授权原则。

11. hiQ Labs, Inc. v. LinkedIn Corp., No. 17-CV-03301-EMC, 2017 WL 3473663 (N.D. Cal. Aug. 14, 2017).

12. (2016)沪73民终242号。

13.  第十二条 经营者利用网络从事生产经营活动,应当遵守本法的各项规定。

经营者不得利用技术手段,通过影响用户选择或者其他方式,实施下列妨碍、破坏其他经营者合法提供的网络产品或者服务正常运行的行为:

(一)未经其他经营者同意,在其合法提供的网络产品或者服务中,插入链接、强制进行目标跳转;

(二)误导、欺骗、强迫用户修改、关闭、卸载其他经营者合法提供的网络产品或者服务;

(三)恶意对其他经营者合法提供的网络产品或者服务实施不兼容;

(四)其他妨碍、破坏其他经营者合法提供的网络产品或者服务正常运行的行为。