新基建主题系列——大数据从何而来，涉足大数据业务需留意的网络爬虫技术合规害处

tw4ld6 · 发表于 2024-8-25 16:20:27

作者：薛熠杨壹凯程若锦

2020年4月20日，国家发改委首次知道了“新基建”的范围：以新发展理念为引领，以技术创新为驱动，以信息网络为基本，面向高质量发展需要，供给数字转型、智能升级、融合创新等服务的基本设备体系。“新基建”指的是，以5G、物联网、工业互联网、大数据中心、人工智能等为表率的新型基本设施，是信息数字化发展的结果。实质上，“新基建”这一概念早在2018年12月19日的中央经济工作会议中既已提出。

在“新基建”的风口下，大数据分析和应用不可缺席：无论针对物联网、人工智能，还是智能交通，也或是商场行业的分析点击流量、客户质量、智能定价等等，莫不如此。随着《网络安全法》及其配套法规、标准及规范性文件的持续发布，大数据业务更加作为学界、法律工作者、媒介及公众关注的重点，尤其在2019年，持续传出某些大数据业务经营者，因“过度收集、违法窃取和贩卖个人数据信息”、“未经个人同意搜集个人数据信息”等被警方调查或被迫下架的信息。同期，大数据机构亦在担忧：大数据分析的业务该怎样开展？怎样合法合规地收集数据？那些技术能够运用？

本文将以搜集大数据的技术之一，网络爬虫技术为例，讨论网络爬虫技术在运用和应用中的重点法律合规问题，供从事大数据业务的企业参考。

一

网络爬虫织网，为大数据分析捉捕信息

1、什么是网络爬虫

网络爬虫/爬虫程序（Web Crawler），亦叫作网络设备人（Web robots）、网络游客、蜘蛛爬虫，按照《互联网搜索引擎服务自律公约》，这是一种根据指定规则，可自动、批量从互联网爬行抓取数据信息的程序。网络爬虫技术做为采集大数据的重点方式之一，和重要的大数据信息源自，已然被广泛并成熟地应用于各样互联网商场模式和运用场景，例如：新零售、社交、资讯、地图、互联网金融等。

基于区别的运用场景，网络爬虫能够分为通用爬虫和专用爬虫：

通用爬虫重点应用于搜索引擎服务，其重点工作是无特定目的随机地抓取海量网页内容并下载到本地，储存为镜像快照并识别网页文字关键词；

专用爬虫为爬取特定范围的网页而设计，运用者能够设置一个爬取的主题或范围，经过图像识别、设备学习等技术的帮忙，爬取互联网上的特定内容。

2、网络爬虫与大数据的联系

网络爬虫爬取的数据是大数据企业数据分析的重要源头之一，例如：有些大数据分析企业研发的“购物平台大数据分析软件”会借助爬虫技术海量收集购物平台的信息，如买家关键词搜索热度、某关键词引向的成交量、某关键词制品的定价分布等等，当收集到足够多的原始信息样本后，再借助大数据分析技术，向其客户供给商品流行趋势、定价策略的分析；有些信用调查机构亦是运用网络爬虫技术，从渺如烟海的互联网信息中识别并抓取特定主体的信用关联信息，从而经过对大数据的分析，相应得出信用结论。

二

网络爬虫合规危害分析

经过网络爬虫技术爬取到的数据信息有以下几种归类方式：（1）根据数据可得性，能够分为公开网络数据信息和非公开网络数据信息（如需付费观看的信息，或是内部数据库信息）；（2）根据数据归属主体，能够分为个人信息数据、企业商场数据和社会公开数据。

日前，我国还无已然生效的针对应用网络爬虫技术的规范性文件，从事大数据业务的企业在评定和分析其网络爬虫技术手段是不是合规，能够从以下几个方向思虑：

1. 爬取数据的行径是不是合规；

2. 爬取的数据本身是不是存在合规问题；以及，

3. 爬取数据之后对数据的运用及存储等是不是合规。

1、爬取数据的行径是不是合规

网络爬虫技术采取的是“广撒网”模式，爬虫脚本自动运行后，在确定的爬取网站范围内对各网站上载的信息进行遍历。但基于商场利益等原因的考量，部分网站的部分/所有数据信息是不准许其他主体爬取的，因而会选取经过制定和颁布设备人协议（robots协议）或经过设置技术性阻碍或经过平台服务协议等方式来限制或禁止外边爬虫拜访特定的数据信息。该等办法一般被叫作为“反爬虫安排”[1]。尽管存在反爬虫安排，但有些企业还是会绕过或无视这些反爬虫的规制，从而给其自己带来合规危害，重点包含被认定为未经授权（包含网站授权和个人授权）收集数据、引起网站没法正常运营，形成犯罪的，还可能需要承担刑事责任（如违法侵入计算机信息系统罪、破坏计算机信息系统罪、违法获取计算机信息系统数据罪等）。

为方便阅读，咱们将以上爬取数据的行径可能引起的企业合规危害以下表展示：

序号

合规危害

法律责任

1

未经网站授权收集数据：若被爬取数据的网站并未开放或授权数据采集，以爬虫方式收集数据信息的行径可能会违反设备人协议或侵犯网站其他关联权益

民事责任：

(1) 侵犯著作权或其他民事侵权责任

(2)形成不正当竞争

司法实践中，法院认为，设备人协议应当被认定为搜索引擎行业内公认的、应当被遵守的商场道德，是数据权利人针对爬虫方的一种维权途径，以明示禁止爬取行径；倘若爬虫方不遵守设备人协议，未经网站授权，其收集数据行径显著欠妥，可能形成侵权或不正当竞争[2]。在无前述设备人协议的状况下，网站做为权利人，能够主张爬虫方侵犯著作权[3]或形成不正当竞争[4]。

刑事责任

严重的未经网站授权爬取数据行径可能会形成犯罪，例如侵犯著作权罪[5]、违法获取计算机信息系统数据罪[6]、违法侵入计算机信息系统罪。

2

未经个人授权收集数据：在爬虫方经过网络爬虫技术收集个人信息时，可能被界定为《网络安全法》项下的网络运营者，从而需按照《网络安全法》和《信息技术个人信息安全规范》（GB/T 35273-2017）[7]等规定，在收集个人信息前，得到个人信息主体的授权同意；间接获取个人信息时，应向个人信息供给方认识个人信息主体是不是授权同意转让、共享、公开披露等

民事责任

爬虫方未经个人授权收集自然人的姓名、出生日期、身份证件号码、个人生物识别信息、住址、tel号码等以电子或其他方式记录的能够单独或与其他信息结合识别自然人个人身份的各样信息，或超范围过度收集个人信息的，可能因违反《网络安全法》、《信息技术个人信息安全规范》和/或《互联网个人信息安全守护指南》，而被需求承担侵权责任。

行政处罚

爬虫方未经个人授权收集个人信息的，或超范围过度收集个人信息的，可能违反《网络安全法》第四十一条，企业和直接负责的主管人员和其他直接责任人员分别被处以责令改正、警告、没收违法所得、罚款，乃至责令暂停关联业务、停业整顿、关闭网站、吊销关联业务许可证或吊销营业执照。

若爬虫方取得的信息为非公开途径的信息，触及窃取或以其他违法方式获取个人信息，将可能面临被没收违法所得，并处罚款。

__

刑事责任

爬虫方未经个人授权收集能够识别百姓个人身份或触及百姓个人隐私的个人信息的，可能被认定为是“窃取或以其他办法违法获取百姓个人信息”，形成侵犯百姓个人信息罪[8]。

3

引起网站没法正常运营[9]：因爬虫引起网站负荷过大，海量正常用户请求堵塞，拜访显现速度慢或部分页面没法表示等现象。

民事责任

倘若运用爬虫技术引起网站没法被正常拜访，可能形成侵权并承担对网站经营者所遭受损失的侵权赔偿责任。

刑事责任

倘若运用爬虫技术获取信息被认定为对计算机信息系统功能进行干扰，导致其不可正常运行，则可能触犯破坏计算机信息系统罪。

2、爬取数据的合规性

爬虫方除应当评定其数据爬取行径是不是合规外，还应当评定和分析其爬取所得的数据本身是不是可能侵犯他人的权利，例如：触及个人信息守护、侵犯著作权或商场奥密。

侵犯个人信息与隐私权

爬虫方在某网站（以下叫作“信息供给方”）爬取到他人的个人信息时，可能需要进一步确认信息供给方是不是取得相应的授权，转让、共享、公开披露该等个人信息。若否，信息供给方可能触及超授权范围运用个人信息，而间接获取个人信息的爬虫方亦因存在过失而触及未经授权收集个人信息

所爬取的个人信息触及隐私的，还可能侵犯其隐私权

侵犯著作权/形成侵犯著作权罪

爬虫方在进行抓取网页信息时，若将他人作品复制保留，可能会侵犯他人的复制权

若爬虫方在保留爬取到的数据时，抹去了他人署名或进行删改，可能侵犯他人的署名权、修改权

在爬虫方以营利为目的，未经著作权人许可，复制发行其文字作品、音乐、电影、电视、录像作品、计算机软件及其他作品的，按照违法所得数额和是不是拥有严重情节的，还可能被认定为侵犯著作权罪

侵犯商场奥密

若爬虫方获取的数据信息符合我国《反不正当竞争法》项下对商场奥密的定义，即不为公众知悉、拥有商场价值并经权利人采取相应保密办法的商场信息，且这类爬虫行径可能被认定为是电子侵入或以其他不正当手段获取，则可能会被认定为侵犯他人的商场奥密[10]

3、爬取数据之后对数据的运用及存储等是不是合规

在爬虫方已合规取得数据信息的状况下，企业还应当留意其后续运用、存储该等数据信息是不是合规，例如：是不是存在超范围运用、侵犯著作权、不正当竞争、信息泄密等问题。

超范围运用爬虫数据

有些网站可能会在网页中添加法律声明、权利归属或版权守护条款，对数据的权利归属和运用限制进行声明，爬虫方应当在后续运用所爬取的数据时，在前述类似声明的准许框架内恰当运用数据

若爬取的数据中包括个人信息，爬虫方对该等个人信息的运用应当取得知道授权同意运用的范围和运用目的

对爬取的数据的运用应当恰当，避免显现以下状况：因某些大数据信用调查机构利用爬虫技术搜集个人信息并用于暴力催收，而引起该等企业被警方调查或应金融主管分部的需求进行自查整改[11]

不正当竞争

企业在运用经过爬虫技术取得的同类网站关联信息且直接不加修改地运用数据时，可能被认定为搭便车、形成混淆等不正当竞争行径。在司法实践中，法院认为，经过爬虫技术手段获取其他同类网站付出人力、物力、财力和时间等经营成本搜集整理的信息数据后，直接在自己的网站上展示并以此获取商场利益的行径，因未付出劳动、未支出成本、未做出贡献，属于反不正当竞争法理论中典型的“坐享其成”和“搭便车”的行径；同期，因为运用内容完全一致，运用爬虫数据的一方可能会对同类网站形成实质性替代，这种经营模式违反公平原则和诚实信用原则，违反公认的商场道德，形成不正当竞争[12]

侵犯著作权

爬虫方在运用所收集的触及他人著作权的数据内容时，应重视不得实施抹去权利人的信息、对作品进行欠妥剪裁等行径[13]，否则可能侵犯权利人的复制权、署名权、修改权、信息网络传播权等著作权

未能保准爬虫数据信息安全

企业在保留获取的数据信息时，爬虫方应当严格遵循《网络安全法》对网络安全等级守护制度的需求、防止网络数据泄密或被窃取、篡改，亦应当符合存储大数据的互联网数据中心的建设标准，采取技术办法和其他必要办法，保准其收集及保管的数据信息的安全

三

企业合规意见

1、做为爬虫方

(1) 重视其他网站的设备人协议的详细内容和限制；

(2) 严格管控数据采集的范围，不超范围采集，当触及个人信息的需格外谨慎；

(3) 运用过程中需要甄别爬虫收集的信息的权属，保证对信息权利人著作权、个人信息等的守护，并保证不超范围运用；

(4) 不得将爬虫技术及采集到的数据信息用于不正当竞争或其他缺乏恰当性、合法性的用途；

(5) 当抓取的信息侵犯其他方权益时，应即时通告关联方删除、断开或自动删除、断开运用该等侵权数据的链接；

(6) 在存储爬虫所收集的数据时，应当重视信息安全。

2、做为反爬虫方

(1) 组建专业的信息安全团队；

(2) 编制恰当的设备人协议，将其内容合同化，同期重视不得利用设备人协议进行不正当竞争行径；

(3) 恰当利用爬虫技术监控互联网中的其他主体是不是有不恰当运用自己的数据信息的状况。

[注]

[1]

一般而言，“反爬虫安排”包含以下三类：

(1) 在IT支持团队中设置专门的反爬虫团队并研发阻止爬虫脚本自动运行的“墙”，例如设置需要滑动进行验证或需要按秩序点击的验证码等；在内容格式加密上做文案，例如采取将关键数据转为照片，或采用JavaScript混淆技术等。

(2) 爬虫的“潜规则”，例如，爬虫运用方主动约束爬虫的爬取吞吐量，避免因爬虫导致的拜访量过载引起网站瘫痪。

(3) 在网站中挂出设备人协议文件（robots.txt），该协议是网站的所有者经过明示的方式，对区别主体派出的爬虫进行授权，写明可拜访和不可拜访的文件信息而制定的爬虫行径准则。设备人协议并非亦不可直接用技术手段阻止爬虫进行数据搜集，缺乏强制性，但业内广泛认为，制定设备人协议应当是行业内的通行规则，无遵守协议的行径显著欠妥，应当在出现争议时承担相应的有害后果。