- 聚焦爬虫:爬取页面中指定的页面内容。
- 网络请求模块
- urllib模块(远古技术,不学)
- requests模块
- requests模块:python中原生的一款基于网络请求的模块,功能非常强大,简单便捷,效率极高。
- 作用:模拟浏览器发请求。
- 如何使用:(requests模块的编码流程)
if name == “main“:
# step_1:指定url
url = 'https://www.sogou.com/'
# step_2:发起请求
# get方法会返回一个响应对象
response = requests.get(url=url)
# step_3:获取响应数据.text返回的是字符串形式的响应数据
page_text = response.text
print(page_text)
# step_4:持久化存储
with open('./sogou.html', 'w', encoding='utf-8') as fp:
fp.write(page_text)
print('爬取数据结束!!!')
```