目标:
1:掌握什么是动态网页
2:掌握抓取动态网页的步骤以及方法
3:掌握抓取动态网页的注意事项
一:什么是动态网页
答:动态网页应该具备下面其中一个特点
特点1:网页的数据在源代码中查不到(网页源代码内没有你要找的数据)(比如腾讯招聘)
特点2:当你在网页中点击下一页或者其他操作时,网页局部刷新(比如小米应用网)
特点3:当你在网页中进行一些操作时(滑动滑轮等),数据才加载出来(比如豆瓣电影)
动态网站:腾讯招聘、小米应用网、豆瓣电影、有道翻译等等
二:抓取动态网页的步骤以及方法(小米应用网为例———局部刷新的url网站)
第一步:按下F12进入检查,找到网络选项开始进行抓包
第二步:动态加载的数据包一般都是json格式的,对动态网页进行操作让数据加载出来,然后直接筛选XHR格式的数据包即可

第三步:分析XHR选项内的数据包,找到真正要抓取的那个数据包(包含数据的数据包)

第四步:分析请求的url以及请求方式,如果是get请求,着重分析查询参数,post请求着重分析Form_data,找到所有动态加载的数据包其中的规律

第五步:利用python 程序模拟浏览器向上面的 url 发送请求即可(构建查询参数)
三:抓取动态网页的注意事项
1:动态加载的网页其中动态加载的数据包一般都是json格式(python中的字典格式)的字符串
2:requests模块向目标url发送请求获取对象的 json 方法可以将 json 格式的字符串转换为 Python 格式的字典!
