- 聚焦爬虫:爬取页面中指定的页面内容。
- 网络请求模块
- urllib模块(远古技术,不学)
- requests模块
- requests模块:python中原生的一款基于网络请求的模块,功能非常强大,简单便捷,效率极高。
- 作用:模拟浏览器发请求。
- 如何使用:(requests模块的编码流程)
if name == “main“:
# step_1:指定urlurl = 'https://www.sogou.com/'# step_2:发起请求# get方法会返回一个响应对象response = requests.get(url=url)# step_3:获取响应数据.text返回的是字符串形式的响应数据page_text = response.textprint(page_text)# step_4:持久化存储with open('./sogou.html', 'w', encoding='utf-8') as fp:fp.write(page_text)print('爬取数据结束!!!')
```
