聚焦爬虫

- 需求：爬取搜狗首页的页面数据

聚焦爬虫:爬取页面中指定的页面内容。
网络请求模块
- urllib模块（远古技术，不学）
- requests模块
requests模块：python中原生的一款基于网络请求的模块，功能非常强大，简单便捷，效率极高。
- 作用：模拟浏览器发请求。
如何使用：（requests模块的编码流程）
- 指定url
  - UA伪装
  - 请求参数的处理
- 发起请求
- 获取响应数据
- 持久化存储 ```python
  - 需求：爬取搜狗首页的页面数据
  import requests

if name == “main“:

# step_1:指定url
url = 'https://www.sogou.com/'
# step_2:发起请求
# get方法会返回一个响应对象
response = requests.get(url=url)
# step_3:获取响应数据.text返回的是字符串形式的响应数据
page_text = response.text
print(page_text)
# step_4:持久化存储
with open('./sogou.html', 'w', encoding='utf-8') as fp:
    fp.write(page_text)
print('爬取数据结束！！！')

```

- 需求：爬取搜狗首页的页面数据