数据自动化采集合法化要点分析

导言

数据采集一般有主动采集、自动化采集、向第三方购买这三种方式,上一期我们介绍了主动采集的合规要点。自动化采集涉及网络爬虫以及同类软件的合法使用,往往是数据合规的焦点和难点。本期我们将以某信息有限公司为例讲解自动化采集数据的合规风险和要点。

某信息有限公司自动化采集数据情况

根据某信息有限公司公开披露信息,其产品用于商业大数据业务领域,自动化访问采集的数据类型主要包括工商信息、企业公开经营信息、司法诉讼信息、知识产权信息等。公司直接向数据供应商采购的数据进入其数据库前会进行打标处理,从而统计出直接采购比例。除了最为基础、使用率最高的工商数据之外,公司从其他多种数据供应商获取更多元化种类的企业公开数据以对工商数据进行良好的补充,为用户提供企业关联图谱、舆情监控、风险监控、商标及专利信息、深度报告等多种数据查询、挖掘和智能分析服务。

某信息有限公司自动化采集的网站主要为全国各工商网站、各省律师事务所信息披露网站、各省社会组织信息网、各级人民银行官网,主要是政府机构等公开信息披露的平台。

为确保自动化数据采集的全过程的数据合规性,某信息有限公司采取了如下措施:

(一)数据采集前完成合规评估包括获取数据的主要类型、被采集网站是否为政府公开信息网站或商业性网站、被采集网站是否具备 Robots 协议或公示条款限制自动化采集、网站是否具备自动化采集限制措施、自动化采集数量及频率是否影响采集对象网站的正常运行等核心因素。

(二)公司内部明确外部数据自动化获取的管理流程:由需求部门、数据采集团队和法务进行审核后实施。

(三)定期检查被采集网站的规定是否变化:公司制定了相关的管理制度及流程以管理自动化访问工具。通过对自动化访问工具的代码扫描,以识别是否存在正在运行的自动化访问工具所实际爬取的网站范围超出公司自行维护的自动化访问网站清单的情况。

(四)聘请律师事务所提供企业数据管理及信息系统合规相关的法律服务并出具《关于上海某信息有限公司数据安全管理的尽职调查报告》。

数据自动化采集措施(网络爬虫技术)简介

网络爬虫技术(WebSpider,也称网络蜘蛛)的本质是通过浏览指定的网络页面,根据事先编辑好的规则抓取、处理、融合相应网络内容,再将该内容进行备份、建立索引并存储到自己的服务器中。爬虫技术最早是网络搜索引擎的关键性技术,在后期不断地技术迭代中,又细分为聚焦网络爬虫(Focused WebCrawler)技术、增量式网络爬虫(Incremental WebCrawler)技术以及深层网络爬虫(DeepWebCrawler)技术等,使得爬虫技术逐渐成为大数据公司或者SaaS类服务公司等新型互联网企业的宠儿。

当目标网站拒绝全部或者指定的网络爬虫时,网站服务商或所有者可以在网站程序的最开头部分写入一段代码,即 robots.txt 文件,以此标示限制搜索引擎爬虫机器人访问的信息:User-agent:用于说明搜索引擎网络机器人的名字;Disallow:用于说明不希望被抓取的网页或目录;“*”代表所有网络机器人;“/”代表所有目录;以“新浪微博”为例,其Robots协议设置如下:

根据“weibo.com”爬虫协议内容,微博运营者列明了只允许包括百度、360等八个搜索引擎网络机器人爬取网站内容,其他的网络机器人禁止爬取所有内容;所有的爬虫都可以爬取ads.txt文件(该文件用于规避和防止广告欺诈和域欺骗)。

自动化采集数据的风险点

根据我们对近年来涉及爬虫技术案件的梳理,我国法院往往以技术中立为原则,在不否定爬虫技术的合法性的前提下,对爬虫技术的设定和使用设立了严格的界限。我们认为,一方面是出于鼓励大数据产业发展和打破数据孤岛考虑,另一方面,不当使用爬虫技术则会造成侵权事件。因此,企业在采用爬虫技术采集数据时应当注意以下风险:

(一)不正当竞争风险

如前文所述,我们理解,Robots协议虽然名为“协议”,仅是一种网站程序编写的技术规范,并非法律意义上的协议或者合同,但在我国司法实践中,法院更愿意将其认定为一种约定俗成的商业道德。根据《反不正当竞争法》第二条第一款的规定:经营者在市场交易中,应当遵循自愿、平等、公平、诚实信用的原则,遵守公认的商业道德。因此,违反 Robots 协议爬取数据虽然不会造成合同纠纷,但很可能会由于违反商业道德被认定为不正当竞争。比如在四川高院发布的2020年四川法院知识产权司法保护十大典型案例中2,字节跳动公司因未遵守Robots协议,大量抓取了腾讯公司及其关联的微信平台的数据信息,成都市中级人民法院审理认为,字节跳动公司通过规避他方对 robots.txt 文件的设置而抓取大量数据信息,其行为违反了商业道德及诚实信用原则,具有不正当性。

另外,目前市面上较为流行的企查查、天眼查等企业信息聚合平台,通过爬虫技术采集各个政府机构等平台和网站的信息,并经过信息加工最终给用户提供一个全面的企业画像服务,如果由于数据采集质量问题导致数据失真最终造成“被画像”企业名誉受损的,数据采集企业将会被认定为商业诋毁从而承担法律责任。比如,(2020)浙01民终4847号案件中,苏州朗动网络科技有限公司运营的企查查未审慎处理从国家企业信用信息公示系统中爬取出来的数据,错误披露蚂蚁微贷公司清算信息,最终一、二审法院均认定为构成商业诋毁和不正当竞争。

(二)刑事风险

根据某信息有限公司公开披露信息,其在数据采集前会针对被采集网站的是否具备Robots协议或公示条款限制自动化采集、网站是否具备自动化采集限制措施、自动化采集数量及频率是否影响采集对象网站的正常运行等核心因素进行评估。

我们理解,相比于忽略 Robots 协议内容,更值得引起重视的是,若利用技术措施伪装或者绕开目标企业的反爬虫设置进行数据爬取的,可能会直接触及刑法第285、286条规定的涉嫌非法侵入计算机信息系统罪、非法获取计算机信息系统数据罪、破坏计算机信息系统罪。例如2016年“车来了”通过爬虫伪装成乘客对深圳市谷米科技有限公司推出的实时公交查询软件“酷米客”进行长达两年时间的不间断爬取,最终导致“车来了”所属的武汉元光科技有限公司多位高管被认定为非法获取计算机信息系统数据罪予以刑事追责。

某信息有限公司特别说明了其爬虫脚本运行前,数据技术人员结合“Alexa”3数据评估目标网站一天的总访问量,以此计算自动化访问程序每秒的访问频率上限,并在自动化访问程序配置阶段对并发数和访问频率进行适当的限制。如果通过爬虫技术导致“被爬取方”的网站因负荷满载而无法访问,“爬取方”可能会涉嫌违反《刑法》第286条的规定构成破坏计算机信息系统罪。比如在(2019)粤0305刑初193号案件中,被告人开发的爬虫软件以每秒183次的频率访问访问“深圳市居住证系统”,导致“深圳市居住证系统”停止运行超过2小时,被认定构成破坏计算机信息系统罪并判处有期徒刑。

  合规要点-建立数据自动化采集评估机制  

根据《网络数据安全管理条例(征求意见稿)》第17条第1款的规定,数据处理者在采用网络爬虫等自动化工具访问、收集数据时,应当评估对网络服务的性能、功能带来的影响,不得干扰网络服务的正常功能。同时,根据《数据安全管理办法(征求意见稿)》第16条规定,如当采用爬虫技术访问收集流量超过网站日均流量三分之一时,可能会被认为严重影响网站运行。因此,我们建议,企业在通过爬虫等自动化工具爬取数据时,应当在事前进行评估,评估内容主要包括:

(一)“被爬取方”网站是否具备Robots协议或反爬措施等;

(二) “被爬取方”网站性质、类型、日均流量;

(三)“被爬取方”数据类型、数量、频次。

除了事前评估,由于网站 Robots 协议的设定以及网站的流量、内容等不具有确定性,我们建议在启动爬虫工具后应当设置定期审阅、评估和校准程序,持续的跟踪自动化采集数据的合法合规性问题。

另外,为了防止数据瑕疵等问题,我们建议企业应该采取技术措施,交叉比对和验证通过爬虫采集的数据质量,定期评估和调整验证基准,尽量爬取政府官方公开数据源,避免因为数据失真导致的进一步侵权风险。

①:https://www.weibo.com/ robots.txt

②:腾讯科技(深圳)有限公司、深圳市腾讯计算机系统有限公司、腾讯数码(天津)有限公司与北京字节跳动科技有限公司、成都天翼空间科技有限公司不正当竞争纠纷案

③:Alexa 中国免费提供 Alexa 中文排名官方数据查询、网站访问量查询、网站浏览量查询和排名变化趋势数据查询。Alexa 排名数据常用于评价某一网站的访问量

(本文作者:盈科廖江涛、刘家君律师 来源:微信公众号 盈科成都律所)