什么是爬虫？爬虫能干嘛？ - 《Python知识库》

平时生活中会听到很多关于爬虫的信息，但是好像还是很多人很懵逼！Python的一个发展方向是爬虫，今天详细给大家科普一下。

给大家插播2条消息，一个好消息，一个坏消息

一个坏消息：
2018年1月教育部印发的《普通高中课程方案和语文等学科课程标准》新加入了数据结构、人工智能、开源硬件设计等 AI 相关的课程。
这意味着职场新人和准备找工作的同学们，为了在今后十年内不被淘汰，你们要补课了，从初中开始。

一个好消息：
人工智能尖端人才远远不能满足需求。行业风口的人工智能，在中国人才缺口将超过500万人，而中国人工智能人才数量目前只有5万（数据来自工信部教育考试中心）。
并且目前岗位溢价相当严重，2017年人工智能在互联网岗位薪酬中位列第三，月薪20.1k，如果按照普遍的16月薪酬计算，那么人工智能在2017年一年的薪酬就是2.0116=32.16万。那么再来看一组2018的薪酬数据：

所以如果你对自己的专业/工作不满意，现在正是进入人工智能领域学习就业/转业的最佳时机。

你一定想知道，python爬虫是什么呢？薪资怎么这么高，需求量这么大吗？

爬虫，即网络爬虫。大家可以理解为在网络上爬行的一只蜘蛛🕷，互联网就比作一张大网，而爬虫便是在这张网上爬来爬去的蜘蛛，如果它遇到自己的猎物（所需要的资源），那么它就会将其抓取下来。

网络爬虫又称网络蜘蛛、网络蚂蚁、网络机器人等，可以自动化浏览网络中的信息，当然浏览信息的时候需要按照我们制定的规则进行，这些规则我们称之为网络爬虫算法。

使用Python可以很方便地编写出爬虫程序，进行互联网信息的自动化检索。

搜索引擎离不开爬虫，比如百度搜索引擎的爬虫叫作百度蜘蛛（Baiduspider）。

百度蜘蛛每天会在海量的互联网信息中进行爬取，爬取优质信息并收录，当用户在百度搜索引擎上检索对应关键词时，百度将对关键词进行分析处理，从收录的网页中找出相关网页，按照一定的排名规则进行排序并将结果展现给用户。

我们可以使用网络爬虫对数据信息进行自动采集，

比如应用于搜索引擎中对站点进行爬取收录，应用于数据分析与挖掘中对数据进行采集，应用于金融分析中对金融数据进行采集，除此之外，还可以将网络爬虫应用于舆情监测与分析、目标客户数据的收集等各个领域。

除了百度搜索引擎离不开爬虫以外，其他搜索引擎也离不开爬虫，它们也拥有自己的爬虫。比如360的爬虫叫360Spider，搜狗的爬虫叫Sogouspider，必应的爬虫叫Bingbot。

如果想自己实现一款小型的搜索引擎，我们也可以编写出自己的爬虫去实现。

当然，虽然可能在性能或者算法上比不上主流的搜索引擎，但是*个性化的程度会非常高，并且也有利于我们更深层次地理解搜索引擎内部的工作原理。

学员作品，再也不需要下载多个音乐App了哈哈哈https://search.billson.club

什么是爬虫？爬虫能干嘛？ - 图4 酱酱喜欢陈粒，就搜一下陈粒看看
什么是爬虫？爬虫能干嘛？ - 图5
爬虫可以抓取某个网站或者某个应用的内容，批量一次性提取有用的价值，礼物上千条评论，上千个标题党，上千张图片。

没有技术的时候，只能傻瓜式操作，一次又一次的重复性操作，耗费大量时间，但如果交给爬虫，只需要运行你写的爬虫代码，这只蜘蛛就会按照你的需求去自动爬取你需要的上千条数据。

那说明白了爬虫是什么，我再来分享爬虫的有趣的操作！

投票神器、
点赞神器、
抢票、
预测（股市预测、票房预测）、
社交关系网络、等等一系列
以上都可以用爬虫实现

你家爱豆不是经常在微博上发红包么？好的，我用爬虫率十万僵尸粉去抢。
什么是爬虫？爬虫能干嘛？ - 图6

再比如想把知乎上某一问题的高赞答案全部抓取到本地并保存，
或者搜集众多机票网站的航班价格信息做价格对比，
各种论坛、股吧、微博、公众号的舆情分析，

爬出四六级的高频单词等，这都归属于爬虫类。

一键爬取新媒体爆文呀几千个爆款标题瞬间抓取分析爆款标题的逻辑
或设计狮搜集素材
Python一键下载图片.mp4

如果你是做电商，还可以使用爬虫技术，抓取同行店铺产品用户评价，可以针对用户的痛点进行营销活动

还可以抓取店铺sku/spu、评论、客单价、客户群、销售额、每日价格趋势分析、并制作数据报表，大大提升运营效果。

作为销售人员，公司的顶梁柱。
你每天都要接触、拜访很多客户，那么python可以帮助你爬取全网的相关客户求购/竞标/，做数据分析，筛选目标客户、分析同行产品数据/流量/客单价、客户公司各方面的数据，促成成交，年入百万提成也有望实现啦！

例如之前我们的学员，每天都需要快递录入大量的单号，就用python批量录入订单，快速的自动录入，并且自动分析和整理大量的快递单，并在基本信息上，做到自动录入，减轻了工作负担百倍~、

PYthon查快递.mp4

爬虫能通过网址获得网络中的数据、然后根据目标解析数据、存储目标信息，节省了大量的人力物力

吴枫老师也在课堂上提到，爬虫从本质上来说，就是利用程序在网上拿到对我们有价值的数据。爬虫能做很多事，能提高工作效率，能做商业分析，也能做生活助手。。

比如：分析北京近两年二手房成交均价是多少？深圳的Python工程师平均薪资是多少？北京哪家餐厅粤菜最好吃？等等。

这是个人利用爬虫所做到的事情，而组织，同样可以利用爬虫来实现巨大的商业价值。

比如你所熟悉的搜索引擎——百度和谷歌，它们的核心技术之一也是爬虫，而且是超级爬虫。
除此之外，酱酱还在网上收集了一些大家利用爬虫做的有趣的事：

什么是爬虫？爬虫能干嘛？ - 图7

什么是爬虫？爬虫能干嘛？ - 图8
除此之外，只要我们细心发掘，还可以挖掘出更多的潜在数据，而要分析这些数据，则必须要获取到这些用户数据，此时，我们可以使用网络爬虫技术轻松爬取到这些有用的用户信息。

举两个用户爬虫的例子：

有知乎网友对知乎的用户数据进行了爬取，然后进行对应的数据分析，便得到了知乎上大量的潜在数据，比如：

1、知乎上注册用户的男女比例：男生占例多于60%。
2、知乎上注册用户的地区：北京的人口占据比重最大，多于30%。
3、知乎上注册用户从事的行业：从事互联网行业的用户占据比重最大，同样多于30%。

同样，有网友爬取了3000万QQ空间的用户信息，并同样从中获得了大量潜在数据，比如：

1、QQ空间用户发说说的时间规律：晚上22点左右，平均发说说的数量是一天中最多的时候。
2、QQ空间用户的出生月份分布：1月份和10月份出生的用户较多。
3、QQ空间用户的年龄阶段分布：出生于1990年到1995年的用户相对来说较多。
4、QQ空间用户的性别分布：男生占比多于50%，女生占比多于30%，未填性别的占10%左右。

除了以上两个例子之外，用户爬虫还可以做很多事情，比如爬取淘宝的用户信息，可以分析淘宝用户喜欢什么商品，从而更有利于我们对商品的定位等。

当然还有很多很多很酷的例子，更多的内容大家随随便便去网上搜“爬虫可以做哪些好玩的事”都可以看得到。

总结一句：

1、爬虫的出现，可以在一定程度上代替手工访问网页，所以，原先我们需要人工去访问互联网信息的操作，现在都可以用爬虫自动化实现，这样可以更高效率地利用好互联网中的有效信息。
2、检索是一种行为，而索引是一种属性。如果有一个好的索引，则可以提高检索的效率，若没有索引，则检索的效率会很低。
3、用户爬虫是网络爬虫的其中一种类型。所谓用户爬虫，即专门用来爬取互联网中用户数据的一种爬虫。由于互联网中的用户数据信息，相对来说是比较敏感的数据信息，所以，用户爬虫的利用价值也相对较高。

无论是从事什么什么行业的，从事运营、策划、销售、HR、金融从业者、电商从业者、创业者…爬虫都有大用处。

希望大家在2019年懂得学习，懂得时间成本，懂得依靠知识和技能提升自己的收入！知识改变命运鸭！

什么是爬虫？爬虫能干嘛？ - 图9