Python
https://docs.python.org/zh-cn/3/
Beautiful Soup
https://beautifulsoup.readthedocs.io/
编写爬虫的流程
爬虫程序与其他程序不同,它的的思维逻辑一般都是相似的, 所以无需我们在逻辑方面花费大量的时间。下面对 Python 编写爬虫程序的流程做简单地说明:- 先由 urllib 模块的 request 方法打开 URL 得到网页 HTML 对象。
- 使用浏览器打开网页源代码分析网页结构以及元素节点。
- 通过 Beautiful Soup 或则正则表达式提取数据。
- 存储数据到本地磁盘或数据库。
爬虫注意事项
- 合法性问题:不能随意抓取他人网站上的数据,需要遵守相关法律法规。
- 频率问题:不能频繁地发送HTTP请求,以免对目标网站造成过大压力。
- 数据处理问题:需要对爬取到的数据进行去重、清洗、格式化等处理,以便后续分析使用。