Python网络爬虫是什么?

网络爬虫是一种互联网信息的自动化采集程序主要作用是代替人工对互联网中的数据进行自动采集与整理,以快速地、批量地获取目标数据。
如下所示,是网络爬虫可以做的一些事情:

  • 批量采集某个领域的招聘数据,对某个行业的招聘情况进行分析
  • 批量采集某个行业的电商数据,以分析出具体热销商品,进行商业决策
  • 采集目标客户数据,以进行后续营销
  • 批量爬取腾讯动漫的漫画,以实现脱网本地集中浏览
  • 开发一款火车票抢票程序,以实现自动抢票

正则表达式基础

正则表达式 · 语雀

XPath 表达式基础

  • / 逐层提取
  • text() 提取标签下面的文本
  • //标签名 提取所有名为 ** 的标签
  • //标签名[@属性=’属性值’] 提取属性为XX的标签
  • @属性名 代表取某个属性值