对于中国人工智能企业而言,通常采用自行采集、业务积累、爬虫抓取、数据购买、生态共享、算法生成、公开数据集这七种典型方式中的一种或几种获取自身所需的数据。依据数据的开放程度,涉及数据获取、使用的竞争行为会呈现不同的形态。
1. 涉及完全公开数据的不正当竞争行为
完全公开数据的获取没有用户身份认证等事前限制,第三方数据使用者可以自由地获取数据。例如,数据使用者通过“网络爬虫”(Web Spider)抓取搜索引擎上的公开数据。搜索引擎的工作原理就是使用 “网络爬虫”自动抓取相关网站内容并建立索引,使得网络用户通过搜索引擎能在较短时间内从互联网的海量信息中检索到所需信息。而数据控制者可以通过设置robots协议拒绝爬虫访问,robots协议英文全称为Robots Exclusion Protocol,直译为机器人排除协议,也称爬虫协议,是指网站所有者通过一个置于网站根目录下的文本文件robots.txt,告知搜索引擎的网络爬虫哪些网页可以抓取、哪些网页不能被抓取,主要是为了避免搜索引擎的网络爬虫大量、重复的抓取导致网站服务器因过载而无法正常运行,以及抓取对网络用户没有使用价值的信息。robots.txt文件本身默认值就是“允许”抓取,“不允许”抓取只是特例。当一个网站未设置robots.txt文件或robots.txt文件的内容为空时,则意味着该网站对于所有搜索引擎的网络爬虫都是开放的。
在这种数据获取场景下,一方面,如果数据控制方通过robots协议对其它经营主体获取数据进行不合理的限制,就可能构成不正当竞争。在“B公司与Q公司不正当纠纷案” [3]中,B公司一直在其相关网站的robots协议中排除Q公司的搜索引擎,用户使用Q公司的搜索引擎搜索到B公司的相关网站后,在点击访问时,会出现访问被阻断并跳转到B公司的搜索引擎网站的现象。对此,北京市高级人民法院认为,robots协议的初衷是为了指引搜索引擎的网络爬虫更有效地抓取对网络用户有用的信息,从而更好地促进信息共享。如果网站通过设置robots协议,使“允许”抓取成为特例,显然与robots协议的初衷背道而驰。根据《互联网搜索引擎服务自律公约》第八条的约定,robots协议对于通用搜索引擎抓取限制的设置应当具有行业公认合理的正当理由。B公司在缺乏合理、正当理由的情况下,以对网络搜索引擎经营主体区别对待的方式,限制Q公司的搜索引擎抓取其相关网站网页内容,影响Q公司搜索引擎的正常运行,这不仅会降低Q公司搜索引擎的用户满意度,损害了Q公司的合法权益和相关消费者的利益,也会在客观上增强B公司搜索引擎的市场优势地位,妨碍了正常的互联网竞争秩序,违反公平竞争原则,且违反诚实信用原则和公认的商业道德,构成《反不正当竞争法》第二条规定所指的不正当竞争行为。
另一方面,如果数据使用者使用网络爬虫从数据控制方抓取数据,并明显超过合理限度进行使用,也会构成不正当竞争。其中一种情形是数据使用者从数据控制方获取数据,并通过简单的算法处理后向用户提供与数据控制方同质的产品或服务,那么这种数据使用行为可被认为是“实质性替代”的不正当竞争。在“H公司诉B公司不正当竞争纠纷案”[4]中,法院认为B公司抓取涉案信息并不违反 Robots 协议,但B公司在其产品中大量使用来自H公司用户的评论信息,已对H公司构成实质性替代,消减了H公司的竞争优势和交易机会,这种超出必要限度使用涉案信息的行为不仅损害了H公司的利益,也可能使得其他市场主体不愿再就信息的收集进行投入,破坏正常的产业生态,并对竞争秩序产生一定的负面影响。同时,这种超越边界的使用行为也可能会损害未来消费者的利益。就本案而言,如果获取信息投入者的利益不能得到有效保护,则必然使得进入这一领域的市场主体减少,消费者未来所能获知信息的渠道和数量亦将减少。B公司实施的是一种不正当竞争行为。
