爬虫与反爬虫的斗争

动态加载的数据

方法一:抓包,通过XHL中找url,或者去all里面找
方法二:通过selenium加载,但是代码量多,运行速度慢

selenium

最开始是用作自动化测试工具,selenium+driver+浏览器
安装:pip install selenium
推荐使用火狐、谷歌浏览器
下载后的驱动放在python安装目录中

selenium使用

1、导入库from selenium import webdriver

2.实例化浏览器

3.打开网址get

4、操作页面—元素定位、输入值、点击、获取页面cookie、清除、推出页面、行为链、多页切换

5、常用方法

1、id、xpath、class_name、name 、tag_name、find_elements:获取多个标签、find_element(By.id,value=’’)
2、查看请求信息:driver.page_source 获取网页源码、driver.current_url、driver.get_cookies()、driver.switch_to_frame()切换到iframe页面、get_attribute(‘属性名’)可获取节点的属性值,比如说http,href等、text()、switch_to_window(driver.window_handles[1]切换到第二个页面
3、退出,driver.close()关闭当前运行窗口、driver.quit()全部关闭
4、执行js代码:第一、滑动页面driver.excute_script(‘window.scrollTo(0, document.body.scrollHeight)’) 第二、点击的第二种方法div_tag=,driver.excute_script(‘argument[0].click();’ , div_tag)

6、