- 1.豆瓣电影分类排行榜
- http://scxk.nmpa.gov.cn:81/xk/)">2.爬取国家药品监督管理局中基于中华人民共和国化妆品生产许可证相关数据(http://scxk.nmpa.gov.cn:81/xk/)
1.豆瓣电影分类排行榜
在网页获取到的url携带有参数如下
https://movie.douban.com/j/new_search_subjects?sort=U&range=0,10&tags=&start=40&year_range=2021,2021
此时将“?”后的参数封装成为字典类型,
在网页查询最下方获取便捷参数
最终代码
2.爬取国家药品监督管理局中基于中华人民共和国化妆品生产许可证相关数据(http://scxk.nmpa.gov.cn:81/xk/)
在普通使用url爬取到的网页信息并没有各个公司的信息,是因为这些公司信息是AJAX动态请求请到的,但还是没有每个公司的详细信息
事实上,每个公司的url的域名都是一样的,点开每个公司的详细信息只有携带的id不一样,而这些id可用在首页对应的ajax请求的json串中获取,域名和id就能拼接出一个一个企业详细信息
又有一个问题,如果直接打开某一公司详细信息后requests获得的html数据里依旧没有公司详细信息,所以可以知道该信息是动态加载得到的
半成品代码:只有首页的15家公司的信息
想获取所有页的数据就把页码改成动态循环获取信息
