Python

https://docs.python.org/zh-cn/3/

Beautiful Soup

https://beautifulsoup.readthedocs.io/

编写爬虫的流程

爬虫程序与其他程序不同,它的的思维逻辑一般都是相似的, 所以无需我们在逻辑方面花费大量的时间。下面对 Python 编写爬虫程序的流程做简单地说明:
  1. 先由 urllib 模块的 request 方法打开 URL 得到网页 HTML 对象。
  2. 使用浏览器打开网页源代码分析网页结构以及元素节点。
  3. 通过 Beautiful Soup 或则正则表达式提取数据。
  4. 存储数据到本地磁盘或数据库。

爬虫注意事项

  1. 合法性问题:不能随意抓取他人网站上的数据,需要遵守相关法律法规。
  2. 频率问题:不能频繁地发送HTTP请求,以免对目标网站造成过大压力。
  3. 数据处理问题:需要对爬取到的数据进行去重、清洗、格式化等处理,以便后续分析使用。

教程链接