一 爬虫做什么?

[警告]玩爬虫,要守法! - 图1
网络爬虫(英语:web crawler),也叫网络蜘蛛(spider),是一种用来自动浏览万维网网络机器人。其目的一般为编纂网络索引

公司级别
网络搜索引擎等站点通过爬虫软件更新自身的网站内容或其对其他网站的索引。网络爬虫可以将自己所访问的页面保存下来,以便搜索引擎事后生成索引&action=edit&redlink=1)供用户搜索。

个人级别
收集数据,做某个方向的分析,或者完成自动化任务

爬虫访问网站的过程会消耗目标系统资源。不少网络系统并不默许爬虫工作。因此在访问大量页面时,爬虫需要考虑到规划、负载,还需要讲“礼貌”。 不愿意被爬虫访问、被爬虫主人知晓的公开站点可以使用robots.txt文件之类的方法避免访问。这个文件可以要求机器人只对网站的一部分进行索引,或完全不作处理。

来自 [https://zh.wikipedia.org/wiki/%E7%B6%B2%E8%B7%AF%E7%88%AC%E8%9F%B2](https://zh.wikipedia.org/wiki/%E7%B6%B2%E8%B7%AF%E7%88%AC%E8%9F%B2)

二 为什么要守法?

请看这篇报道:

法说数据 | “爬”数据有哪些法律风险?

2017-12-27 06:57计算机/百度/新浪微博

就互联网数据的获取而言,目前主要的方式是利用爬虫自动搜索并抓取数据。小编推测之所以爬数据这么风行,有俩原因,
一是我们的各种可以爬取的数据资源太多了,白爬谁不爬。
第二是跟风,对于很多自称大数据的企业,可怜的是手里的数据用一个U盘就能装下了,如果让人知道岂不是倍儿没面子?于是索性爬上它几个PB,也可以冠冕堂皇地说自己是大数据公司了。

于是乎,我们看到,一时间爬数据风行起来,甚至催生了很多以爬数据为主业的公司,很多提供爬虫服务的公司开发了可以爬取旅行网站、外卖平台、地图、共享单车等平台个人信息的工具,甚至可以定制化抓取,为客户爬到热乎乎的第一手原始数据。甚至有公司声称,可以爬取XXX平台用户的真实姓名、手机号、收货地址、近一年的购物信息,甚至详细到每笔交易的金额。
大家你爬我爬,上爬下爬,好不热闹!但从事数据合规工作的小编看到这些,内心是这样的:
[警告]玩爬虫,要守法! - 图2
小编想问,各位的爬虫完全合法地取得用户授权了么?授权充分吗?有没有关注robots.txt内容?有没有秀技术肌肉破解人家网站密码的?
之所以有这些问题,是因为2017年6月1日,一部非常重要的法律——《网络安全法》实施了
很多关于《网络安全法》的咨询。其中很多人的问题就是:
请帮我们诊断一下,我们(用爬虫工具)这样爬数据会合法不?
咨询的人里,有创业滴、教书滴,还有银行证券保险滴……看来大家表面上爬得都挺开心,但是私下还真都不太安心。
对于这些关于爬虫的咨询,不管咨询者来自何方,热心的小编逮住表现的机会,都会balabala一通普法,
爬数据可能涉及的几个重要法律问题(风险),供大家参考。
爬虫是一项技术,技术是中立的,对此没有任何疑问。小编认为,爬数据合不合法完全取决于你用爬虫爬什么,以及怎么爬。也就是爬的对象和姿势。其中,所爬取的对象又是关键中的关键,重点中的重点,同时小编也会给大家顺带介绍“姿势”(吃相)的重要性。

凡是能够被电子化记录的都是数据。将数据分为两大类:

l 第一类,非个人数据(non-PII)。即此类数据与个人信息无关(此处需注意,与个人信息无关不代表与个人无关,而是说不涉及个人隐私或者不能识别到具体个人)。此类数据通常是公开数据(当然也有作为国家秘密、商业秘密而采取保密措施不公开的秘密数据和秘密信息),因此不适用个人信息保护方面的法律法规。如企业工商注册信息、裁判文书(因涉密或个人隐私不公开的除外)、天气气象数据、环境监测数据、地理测绘、总体性的人口数据、网站访问记录等。

l 第二类,个人数据(PII)。即此类数据与个人信息有关,数据的来源是个人信息,且能够或可能识别到个人。其中又包括两类:
1. 已识别个人身份数据(personally
2. identifiedinformation)。此类数据完全适用个人数据保护的相关法律法规。如姓名、家庭住址、电话号码等能够确定识别、关联到特定个人的数据,需符合个人数据保护法全部合规要求,包括知情同意、允许用户访问和更正、数据处理正当合法、目的限制、保障安全等。可能识别个人身份的数据(personally
identifiable information)此类数据结合业务场景,灵活适用个人数据保护的相关法律法规。如业务场景中,识别风险较高,可按照第二类数据的合规性要求处理,需满足全部合规要求;如识别风险较低,则可选择部分适用。
1non-PII的爬取
小编先说说non-PII的爬取:
总体而言,市面上目前各家爬取的信息通常都是公开数据。爬取这类数据的风险系数相对较低,毕竟通常不会涉及个人隐私与个人信息,但也并非毫无风险。可能会有哪些风险呢?
l 侵犯著作权的风险
大众点评网诉爱帮网的车轮诉讼”是小编讲的口干舌燥的案例之一。在这场来回三轮的车轮诉讼中,我们知道,大众点评网在前两轮诉讼中就是以爱帮网侵犯著作权为由,起诉了爱帮网(第一轮因涉及部分爬取的内容被法院认定不构成作品同时起诉主体不适合为由而败诉)并且最终获得胜。
这个案子的基本情况是(仅截取第二轮的判决书):

[警告]玩爬虫,要守法! - 图3

所以,在爬取数据的时,要关注被爬取的对象是否是人家具有独创性的作品是我们第一要关注的问题。
可能有人会说,才判了这么点赔偿额?!继续爬!如果你这么想,小编也没办法了。
是不是抓取不够成作品的数据,就万事大吉了呢?答案当然是否定的。

l 构成不正当竞争的风险
小编前面举的大众点评网诉爱帮网的案例,大众点评网也如有些朋友那样机智地发现,用著作权侵权起诉对方判赔金额太少了,于是在第三轮又以构成不正当竞争为由起诉了爱帮网,而且最终获得了法院的支持。

[警告]玩爬虫,要守法! - 图4

(注:为全面展示双方的攻防,小编特此展示了双方第三轮互相起诉的情况及判决结果,以示中立)
无独有偶,大众点评网在2016年还起诉了百度,原因是百度未经许可,使用爬虫技术从大众点评网上大量获取用户点评信息,用于自家的百度地图及百度知道产品。
最终一审判决认定百度构成不正当竞争行为,停止侵权并赔偿323万元。有图有真相:
[警告]玩爬虫,要守法! - 图5

这里提示大家注意的是,如果你的业务中存在可能爬取竞争对手数据的情况,要格外注意这项风险。法院会首先判断双方是否存在竞争关系,进而判断爬取数据的一方是否存在“不劳而获”和“搭便车”的行为。如果是,就是上面的结果。
可能有人会说,323万也不算多!继续爬!如果你这么想,小编只能说你有钱(种)。

小编在前面提到了吃相的问题。简言之,就是吃相不好看,后果很严重。对于non-PII的爬取,小编想说,“姿势”不好还可能引发如下刑事法律风险:
举个例子:2014年3月,被告人何某设立“车城小说”网站,其通过租赁海外服务器并运行其从互联网上下载的“关关采集”抓取软件,在未获起点中文网许可的情况下,擅自抓取、复制650部文字作品,存储于自己的服务器上,供“车城小说”网站用户免费阅读。何某通过在“车城小说”网站网页内刊登广告获取广告收益,非法营利数额达人民币19万余元

l 构成侵犯著作权罪
有这样的一个案例,被告人何某将他人网站上的小说爬取到自己的网站上供用户免费阅读,然后通过广告的方式获利。后来何某因为涉嫌侵犯著作权罪被抓。法院认定,何某抓取并通过信息网络传播作品的数量高于法定追诉标准的500件,且营利数额超过5万元,构成侵犯著作权罪,判处有期徒刑1年,并处罚金10万元。
以下是案件的基本情况:
[警告]玩爬虫,要守法! - 图6

除了可能构成侵犯著作权罪,还有吗?当然有。
l 构成非法侵入计算机信息系统罪
《刑法》第二百八十五条规定,违反规定侵入国家事务、国防建设、尖端科学技术领域的计算机信息系统的,不论情节严重与否,构成非法侵入计算机信息系统罪。
l 构成非法获取计算机信息系统数据罪
《刑法》第二百八十五条还规定,违反规定侵入普通的计算机信息系统或者采用其他技术手段,获取该计算机信息系统中存储、处理或者传输的数据的,情节严重的,构成非法获取计算机信息系统数据罪。
此前有南京同享网络法定代表人张某、副总经理沈某组织员工编写模拟程序,非法获取掌门科技“WIFI万能钥匙”数据库内的WIFI热点密码数据案,最终法院认定构成非法获取计算机信息系统数据罪,上述两人最终被判刑三年并处罚金。
案件基本情况如下:
[警告]玩爬虫,要守法! - 图7

小编在此提示那些自信“没有我们爬不到的数据”的技术大牛,千万不要在刑法面前任性,否则后果很严重。因为
《中华人民共和国刑法》不但记录了各种“发财”的门路,
同时还专治各种不服。
总结:爬取non-PII数据总体风险较低,但仍不要大意,轻则可能构成侵犯著作权(在被爬取的数据具有独创性构成作品的情况下),如果有竞争关系,还可能因实质替代获取不正当竞争优势、干扰或破坏他人网络服务的正常运行,涉嫌构成不正当竞争;重则可能因绕开技术措施非法获取数据,涉嫌侵犯商业秘密(严重情形涉及刑事责任),涉嫌构成非法侵入计算机信息系统、非法获取计算机信息系统数据罪等罪。

2 PII信息的爬取
接上一部分,我们再说说PII爬取过程中需要注意的问题。
对于PII信息的爬取,是否经过用户授权是核心。用户未授权或者授权不充分风险很大。
小编在此给大家讲讲新浪微博和脉脉“抓站”案,一个因为开放API爬取数据引发的案子,说说通过API协议爬取数据的风险。
故事发生在2014年8月,当时刚刚起步的职场社交软件“脉脉”与新浪微博微博闹掰了。

故事的主角之一“脉脉”是一款移动端的人脉社交应用。上线之初,曾与主角新浪微博合作,脉脉的新用户可通过微博账号和个人手机号注册登录脉脉,用户注册时还要向脉脉上传个人手机通讯录联系人。
随后,新浪微博发现,脉脉用户的“一度人脉”中,直接显示大量非脉脉用户的微博头像、名称、职业、教育等个人信息。
2015年3月,微博主体公司将脉脉主体公司告上法庭。
原来,在用户微博登录脉脉并上传个人通讯录之后,大量非脉脉用户的微博头条、昵称、职业、教育等信息出现在脉脉上,这些信息并不在微博与脉脉开放API协议之中,并且在微博停止脉脉所有接口权限之后,脉脉依然进行了相关数据抓取,微博认为脉脉通过非法手段获取信息。
2016年,这个案件历时一年半的时间,终于有了结果。最终的判决是这样的:
[警告]玩爬虫,要守法! - 图8

这个案件的意义在于,司法机关在本案中明确了一个规则,即平台要获取用户信息必须获得授权,平台之间通过开放API爬取数据必须经过“用户授权-网站授权-用户授权”的规则
遗憾地是,本案中,作为受害者的用户缺席了这场纷争。但是小编提示的,过去用户缺席不代表未来继续缺席。对于抓取PII数据,无论是直接爬取还是开放API的方式,最为关键的就是“用户授权-网站授权-用户授权”的规则。否则除了可能构成不正当竞争(双方存在竞争关系的情况下),还将面临着非法获取数据(未经用户授权)的指控(民事、行政乃至刑事责任)。
《网络安全法》第六十四条规定,违反本法第四十四条规定,窃取或者以其他非法方式获取、非法出售或者非法向他人提供个人信息,尚不构成犯罪的,由公安机关没收违法所得,并处违法所得一倍以上十倍以下罚款,没有违法所得的,处一百万元以下罚款。
《刑法》第二百五十三条之一规定,违反国家有关规定,向他人出售或者提供公民个人信息,情节严重的,处三年以下有期徒刑或者拘役,并处或者单处罚金;情节特别严重的,处三年以上七年以下有期徒刑,并处罚金。违反国家有关规定,将在履行职责或者提供服务过程中获得的公民个人信息,出售或者提供给他人的,依照前款的规定从重处罚。
窃取或者以其他方法非法获取公民个人信息的,依照第一款的规定处罚。
单位犯前三款罪的,对单位判处罚金,并对其直接负责的主管人员和其他直接责任人员,依照各该款的规定处罚。
[警告]玩爬虫,要守法! - 图9

同时,与《网络安全法》同日实施的最高人民法院、最高人民检察院《关于办理侵犯公民个人信息刑事案件适用法律若干问题的解释》已经明确:

[警告]玩爬虫,要守法! - 图10
历史上这样的案例很多。

王某非法获取中国兽医执业资格考试网站的考生注册信息数据刑事案件,判刑三十个月;
陈某等非法获取福建省公安厅交通警察总队的计算机系统的违法车主信息刑事案件,判刑三十六个月。
两个案例的详细信息如下:

[警告]玩爬虫,要守法! - 图11
[警告]玩爬虫,要守法! - 图12

此外,除涉及侵犯公民个人信息罪,如小编在本文第(一)部分所言,还可能涉嫌构成非法获取计算机系统数据罪。我们的案例库中有这么一个案例:周某某利用Cookie劫持的方式,绕过圆通快递金刚系统权限认证爬取快递单信息,构成非法获取计算机信息系统数据罪,判刑三年三个月。
该案例信息如下:

[警告]玩爬虫,要守法! - 图13

总结:爬取涉及个人信息的数据总体风险较高,如果爬取数据没有获得用户授权(包括通过API接口爬取数据的情况)则存在侵犯人格权(民法总则已经明确个人信息权是一种人格权)的风险,同时,爬取存在竞争关系平台上的数据时,还可能因实质替代获取不正当竞争优势、干扰或破坏他人网络服务的正常运行,涉嫌不正当竞争;更严重的是,还可能因非法获取公民个人信息、非法侵入计算机信息系统、非法获取计算机信息系统数据等涉嫌犯罪,招致刑罚。

是不是有点怕怕了?小编想说的是,不做亏心事,不怕鬼叫门。
最后,小编提示各位,爬虫有风险,抓数需谨慎,小心驶得万年船

来自 [http://www.sohu.com/a/213059054_455817](http://www.sohu.com/a/213059054_455817)

你的爬虫会送老板进监狱吗?

各互金公司CTO们请看好你们家的爬虫,要不然一不小心就会把老板(法人代表)送进监狱,不是闹着玩的,
按2017年6月1日,《网络安全法》以及最新刑事司法解释:
l 未经授权爬取用户手机通讯录超过50条记录,老板进去最高可达3年
l 未经授权抓取用户淘宝交易记录超过500条的,老板进去最高可达3年
l 未经授权读取用户运营商网站通话记录超过500条以上的,老板进去最高可达7年
l 未经授权读取用户公积金社保记录的超过50000条的,老板进去最高可达7年
更多的违规情况就不一一举例了。
就以上几种数据,作为有效的信用基础数据,有几家互金公司不在用的?各位的爬虫完全合法地取得用户授权了么?有多少爬虫完全忽略robots.txt内容肆意横行的?有多少爬虫甚至暴力破解人家网站密码的……
如果是以销售数据为主营业务的大数据公司,更加要注意,因为一不小心你卖了点数据给犯罪分子,造成了恶劣的社会影响,要从重从严的判决。到目前为止,实务中由于审判人员对个人信息犯罪的危害性并不确定,大部分法院是作出法定刑三年以下的判决,但是最新的法条对重刑情节予以明确,量刑本身起点低,如依违法所得标准,违法所得在5万以上的,即可构成重刑。因此有学者预测,《解释》正式实施后,侵害个人信息犯罪适用重刑可能会出现激增现象。
大数据行业近日风声鹤唳,据一本财经报道,
“数据堂”多人被警方调查,导致部分数据业务线停摆。至于被调查原因,知情人称,数据堂曾给一家理财营销公司提供了大量涉及用户隐私的数据。数据堂的主要商业模式是通过网络爬虫、公共领域共享等方式获取数据,而后对数据进行处理,而后向客户提供服务获取收益。
在没有得到任何授权的情况下,数据堂为理财营销公司提供用户数据有数据倒卖的嫌疑。除此之外,另有15家公司进入了调查名单,都是一些明目张胆,做得颇为过分的公司,其中几家大数据公司,估值已几十亿。
一些技术能力溢出的互金公司,已经在做类似数据公司的业务,对外以各种形式输出自身积累的数据,高管层的法律风险也逐渐显现。
司法解释里面提到以下集中类型的数据,无论是“非法提供”和“非法获取”都可以入刑
l 第一类:高度敏感信息,包括四种信息:行踪轨迹信息、通信内容、征信信息、财产信息。涉及高度敏感信息的违法活动,由于定罪门槛最低,因此严格限制在此四类,不做任何扩展;
l 第二类:敏感信息,即住宿信息、通信记录、健康生理信息、交易信息等其他可能影响人身、财产安全的公民个人信息。与第一类相比较,《解释》对第二类信息的界定仍留有空间,意味着在司法实践中,仍有可能会出现目前所列举之外的第二类信息类型;
l 第三类:其他个人信息。即上述第二、三类以外的个人信息。个人信息的类型是定罪量刑的重要依据。越敏感信息,达到定罪门槛的信息数量越少。
只要违反国家规定获取个人信息,信息获取者无法主张其获取信息的正当理由的,无论是以“窃取”等本身非法的手段来获取,还是以“购买、收受、交换”等其他手段,都可被认为“非法获取”。
就互联网数据而言,目前主要的取得方式是利用爬虫自动搜索并抓取数据,爬虫协议要求所有网站在其站点的根目录下放置一个“robots.txt”文件,该文件告诉搜索者本站点哪些数据可以被“抓取”。这就意味着如果有人突破“robots.txt”范围抓取网站数据就要承担“侵犯数据”的法律责任。
在用户手机App端,如果未经用户明确授权,提取用户姓名、通信通讯联系方式、账号密码、行踪轨迹等信息,也必须承担法律责任。至于用户授权的形式,法律虽未明确,但如果存在恶意诱导和欺骗的行为要求用户授权,则很有可能招致刑罚。法律的导向是,任何个人身份信息,以电子或者其他方式记录的能够单独或者与其他信息结合识别特定自然人身份或者反映特定自然人活动情况的各种信息,未来都将受到严格的隐私权保护。
社会对个人隐私的保护越来越到位,是一件好事,互金数据乱象已久,大家可能都离风险比较近,无论是内部采集还是外购,总之一句话,爬虫有风险,抓数需谨慎,干活之前先跟自家法务勾兑清楚。

来自 [https://36kr.com/p/5078918.html](https://36kr.com/p/5078918.html)

robots.txt

robots.txt(统一小写)是一种存放于网站根目录下的ASCII编码的文本文件
告诉搜索引擎此网站中的哪些内容是不应被搜索引擎的漫游器获取的,哪些是可以被漫游器获取的。

因为一些系统中的URL是大小写敏感的,所以robots.txt的文件名应统一为小写。

robots.txt应放置于网站的根目录下。如果想单独定义搜索引擎的漫游器访问子目录时的行为,那么可以将自定的设置合并到根目录下的robots.txt,或者使用robots元数据(Metadata,又称元数据)。

robots.txt协议并不是一个规范,而只是约定俗成的,所以并不能保证网站的隐私。注意robots.txt是用字符串比较来确定是否获取URL,所以目录末尾有与没有斜杠“/”表示的是不同的URL。

robots.txt允许使用类似”Disallow:
.gif”这样的通配符[1][2]


示例
允许所有的机器人:
User-agent:


Disallow:
另一写法
User-agent:

Allow:/
仅允许特定的机器人:(name_spider用真实名字代替)
User-agent:
name_spider

Allow:
拦截所有的机器人:
User-agent:


Disallow: /
禁止所有机器人访问特定目录:
User-agent:

Disallow: /cgi-bin/

Disallow: /images/

Disallow: /tmp/

Disallow: /private/
仅禁止坏爬虫访问特定目录(BadBot用真实的名字代替):
User-agent: BadBot

Disallow: /private/
禁止所有机器人访问特定文件类型[2]
User-agent:


Disallow: /.php$

Disallow: /
.js$

Disallow: /.inc$

Disallow: /
.css$

来自 [https://zh.wikipedia.org/wiki/Robots.txt](https://zh.wikipedia.org/wiki/Robots.txt)

https://www.jd.com/robots.txt

https://www.taobao.com/robots.txt

危害:

l 网络资源:在很长一段时间,爬虫使用相当的带宽高度并行地工作。
l 服务器超载:尤其是对给定服务器的访问过高时。
l 质量糟糕的爬虫,可能导致服务器或者路由器瘫痪,或者会尝试下载自己无法处理的页面。
l 个人爬虫,如果过多的人使用,可能导致网络或者服务器阻塞。

来自 [https://zh.wikipedia.org/wiki/%E7%B6%B2%E8%B7%AF%E7%88%AC%E8%9F%B2#%E9%80%89%E6%8B%A9%E7%AD%96%E7%95%A5](https://zh.wikipedia.org/wiki/%E7%B6%B2%E8%B7%AF%E7%88%AC%E8%9F%B2#%E9%80%89%E6%8B%A9%E7%AD%96%E7%95%A5)

爬虫使用策略:

l 定时
l 定量
l 少臭美,别贪心