• 聚焦爬虫:爬取页面中指定的页面内容。
  • 网络请求模块
    • urllib模块(远古技术,不学)
    • requests模块
  • requests模块:python中原生的一款基于网络请求的模块,功能非常强大,简单便捷,效率极高。
    • 作用:模拟浏览器发请求。
  • 如何使用:(requests模块的编码流程)
    • 指定url
      • UA伪装
      • 请求参数的处理
    • 发起请求
    • 获取响应数据
    • 持久化存储 ```python

      - 需求:爬取搜狗首页的页面数据

      import requests

if name == “main“:

  1. # step_1:指定url
  2. url = 'https://www.sogou.com/'
  3. # step_2:发起请求
  4. # get方法会返回一个响应对象
  5. response = requests.get(url=url)
  6. # step_3:获取响应数据.text返回的是字符串形式的响应数据
  7. page_text = response.text
  8. print(page_text)
  9. # step_4:持久化存储
  10. with open('./sogou.html', 'w', encoding='utf-8') as fp:
  11. fp.write(page_text)
  12. print('爬取数据结束!!!')

```