Robots协议是否生来正义

在很多文章和案件中都可以看到办案人员经常以robots协议为标准判断网络爬虫是否违法,如果爬虫爬取的内容是robots.txt允许的,就认为网络爬虫是合法的,如果爬取的内容是robots.txt禁止的,则认为网络爬虫是非法的。robots协议俨然成为了网络爬虫的商业道德标准。但是robots协议是网站经营者,也就是表面上的数据所有者自己设置的,那么网站经营者如果将robots协议设置成拒绝所有网络爬虫,那么就表示所有来访问的爬虫都违法了吗?网站经营者有权拒绝所有的网络爬虫吗?

1994年,Robots协议由荷兰籍网络工程师Martijn Koster首次提出,之后直到2008年6月,Yahoo、Google和MSN Live Search共同通过非官方途径宣布采纳该标准,各大搜索引擎公司开始对Robots协议进行商业研究,各种公司标准的Robots协议开始产生。

最初设置Robots协议主要有三个目的:首先是保护网站内部信息不被搜索引擎爬虫抓取;其次是引导爬虫不要抓取对用户没有价值的信息;最后是为了保护中小网站的流量平衡,避免爬虫快速抓取给网站服务器带来过大压力。但是在实践中越来越多的网站用robots来维护自己的竞争优势,将很多互联网公开内容都放在了黑名单中,将竞争对手的网络爬虫放在黑名单中。

早在1997年,Martijn Koster曾向IETF(互联网工程任务组)提交申请,试图把Robots协议作为该组织规范,但被IETF拒绝。之后,国际电信联盟(ITU)、万维网联盟(W3C)的规范也同样拒绝采纳Robots协议。电信专家担心,由于Robots协议包含排斥性条款,搜索巨鳄可能会利用Robots协议的条款,迫使某些热门网站与其签署排他性协议,从而将后起竞争者挡在门外,维护垄断。

中国互联网协会2012年11月1日发布的,12家搜索搜索相关业务公司联合制定的《互联网搜索引擎服务自律公约》第八条是这么表述的:“互联网站所有者设置机器人协议应遵循公平、开放和促进信息自由流动的原则,限制搜索引擎抓取应有行业公认合理的正当理由,不利用机器人协议进行不正当竞争行为,积极营造鼓励创新、公平公正的良性竞争环境。”无论是国际标准组织拒绝采纳robots协议,还是中国互联网协会发布的公约,都说明robots协议本身有被滥用的可能,网站经营者在设置robots协议时并不应当随心所欲的设置robots协议。如果说robots协议是网络爬虫的道德底线,是网络爬虫的正当性的基础,那么robots的正当性是天然的吗?它的正当性基础又是什么呢?由于robots协议本质上的作用是限制部分信息的爬取,和保护经营者的服务运行流畅。那么在背后至少有数据所有权和计算机系统安全两个基础来判断经营者放置的robots.txt本身的正当性。

从数据所有权角度出发,由于数据的权属十分复杂,经营者的数据来源也十分复杂。很多数据来自一个个的自然人,还有很多数据来自经营者自己从他处爬去或者获取的。而且不同的经营者也十分可能获得同样的数据,在我国以及世界各国都没有给予经营者数据的所有权。在很多不正当竞争案例中的裁判基础都是网络运营者为数据付出了人力、物力、财力,经过长期经营积累而形成,进而为公司带来了商业利益与市场竞争优势。而在(2018)浙01民终7312号(淘宝与美景)案件中法院对于淘宝公司诉称其对涉案“生意参谋”数据产品享有竞争性财产权益的诉讼主张予以支持,但是否定了淘宝对原始数据享有财产所有权的主张,认为“财产所有权作为一项绝对权利,如果赋予网络运营者享有网络大数据产品财产所有权,则意味不特定多数人将因此承担相应的义务。”

在数据安全法草案中,第五条规定了“国家保护公民、组织与数据有关的权益,鼓励数据依法合理有效利用,保障数据依法有序自由流动,促进以数据为关键要素的数字经济发展,增进人民福祉。”在深圳经济特区数据条例征求意见稿中对自然人对个人数据享有数据权,和公共数据的数据权归国家所有,并没有对企业经营数据的权属做出规定。而在立法目的中有“促进数据资源共享开放和全面深度开发利用”的表述。也就是说在数据立法方面,并没有给企业数据的所有权,而把促进数据资源共享开放、保障数据有序自由流动放在了各项立法中很重要的位置。特别是在如今互联网行业已经被几家大公司几乎垄断的市场环境下,如果强调数据的所有权,势必会导致大公司拥有的数据无法被众多中小创业者开发利用。不仅会浪费数据的潜力,还会产生一个强者恒强的市场,最终对消费者是不利的。

在(2017)京民终487号 百度与360的不正当竞争案件中,法院认为“由于互联网开放、互联互通的特点,尽管互联网企业可以在robots协议中通过技术术语告知搜索引擎的网络机器人其希望或不希望抓取的网页内容,但正如一审判决所指出,robots协议的初衷是为了指引搜索引擎的网络机器人更有效的抓取对网络用户有用的信息,从而更好地促进信息共享,而不应将robots协议作为限制信息流通的工具。”进而判决百度公司限制360搜索引擎抓取其网站内容违反公平竞争原则,判令百度公司停止不正当竞争行为并赔偿奇虎公司20万元。

所以从数据权属的角度来说,由于网络经营者本身并不拥有数据的所有权,那么robots协议的基础就不是一项绝对权利。如果经营者设置的条件合适,符合开放共享的精神,那么数据采集者应当依照robots协议来设置爬虫。但是如果网络经营者设置robots协议的目的就是为了维护自己的数据垄断优势,那么robots协议的权利基础就不存在了。在探讨网络爬虫的合法性时,就不能简单粗暴的根据网络爬虫是否遵守robots协议来认定其合法性。应当回归本源,根据数据本身的权属和开放性,和根据网络爬虫是否影响了正常的网络服务来判断。不能认为robots是天生正义的,不能自然的把它当做树立在私人领地上的告示。还是应当首先讨论这个领地是不是私有的,踏入领地的人是不是侵犯了树立告示者的权利。

(本文作者:盈科梅林律师)