笔记 - 笔记1-selenium - 《爬虫知识库》

爬虫与反爬虫的斗争
动态加载的数据
selenium
selenium使用

爬虫与反爬虫的斗争

动态加载的数据

方法一：抓包，通过XHL中找url，或者去all里面找
方法二：通过selenium加载，但是代码量多，运行速度慢

selenium

最开始是用作自动化测试工具，selenium+driver+浏览器
安装：pip install selenium
推荐使用火狐、谷歌浏览器
下载后的驱动放在python安装目录中

selenium使用

1、导入库from selenium import webdriver

2.实例化浏览器

3.打开网址get

4、操作页面—元素定位、输入值、点击、获取页面cookie、清除、推出页面、行为链、多页切换

5、常用方法

1、id、xpath、class_name、name 、tag_name、find_elements:获取多个标签、find_element(By.id,value=’’）
2、查看请求信息：driver.page_source 获取网页源码、driver.current_url、driver.get_cookies()、driver.switch_to_frame()切换到iframe页面、get_attribute(‘属性名’)可获取节点的属性值，比如说http，href等、text（）、switch_to_window(driver.window_handles[1]切换到第二个页面
3、退出，driver.close()关闭当前运行窗口、driver.quit(）全部关闭
4、执行js代码：第一、滑动页面driver.excute_script(‘window.scrollTo(0, document.body.scrollHeight)’) 第二、点击的第二种方法div_tag=，driver.excute_script(‘argument[0].click();’ , div_tag)

笔记1-selenium