目标:
    1:掌握什么是动态网页
    2:掌握抓取动态网页的步骤以及方法
    3:掌握抓取动态网页的注意事项

    一:什么是动态网页

    答:动态网页应该具备下面其中一个特点

    特点1:网页的数据在源代码中查不到(网页源代码内没有你要找的数据)(比如腾讯招聘)

    特点2:当你在网页中点击下一页或者其他操作时,网页局部刷新(比如小米应用网)

    特点3:当你在网页中进行一些操作时(滑动滑轮等),数据才加载出来(比如豆瓣电影)

    动态网站:腾讯招聘、小米应用网、豆瓣电影、有道翻译等等

    二:抓取动态网页的步骤以及方法(小米应用网为例———局部刷新的url网站)

    第一步:按下F12进入检查,找到网络选项开始进行抓包

    第二步:动态加载的数据包一般都是json格式的,对动态网页进行操作让数据加载出来,然后直接筛选XHR格式的数据包即可


    image.png


    第三步:分析XHR选项内的数据包,找到真正要抓取的那个数据包(包含数据的数据包)

    image.png

    第四步:分析请求的url以及请求方式,如果是get请求,着重分析查询参数,post请求着重分析Form_data,找到所有动态加载的数据包其中的规律

    image.png

    第五步:利用python 程序模拟浏览器向上面的 url 发送请求即可(构建查询参数)

    三:抓取动态网页的注意事项

    1:动态加载的网页其中动态加载的数据包一般都是json格式(python中的字典格式)的字符串
    2:requests模块向目标url发送请求获取对象的 json 方法可以将 json 格式的字符串转换为 Python 格式的字典!