自动化测试工具
爬虫中主要是为了解决 JavaScript 渲染的问题(Requests和 Urllib无法获取网页内容)
官方文档
http://selenium-python.readthedocs.io/
安装
pip3 install selenium
基本使用
from selenium import webdriver # 1 导入浏览器from selenium.webdriver.common.by import Byfrom selenium.webdriver.common.keys import Keysfrom selenium.webdriver.support import expected_conditions as ECfrom selenium.webdriver.support.wait import WebDriverWaitbrowser = webdriver.Chrome() # 1 导入浏览器 Chrometry:browser.get('https://www.baidu.com') # 打开百度input = browser.find_element_by_id('kw') #找到搜索功能input.send_keys('Python') #搜索pythoninput.send_keys(Keys.ENTER) # 回车wait = WebDriverWait(browser, 10) #等待10秒wait.until(EC.presence_of_element_located((By.ID, 'content_left'))) # 等待 content_left 加载完成print(browser.current_url) # 打印现在的 URLprint(browser.get_cookies()) # 打印 COOKIESprint(browser.page_source) # 打印现在的网站源代码finally:browser.close()
上面的代码只是简单演示,不用看懂,下面会进行详细的讲解。
这段代码执行报错,下面看完再来研究是什么问题。
环境变量
问题如下:
'chromedriver' executable needs to be in PATH.
查看环境变量路径
echo $PATH

每个:隔开一个路径,它会依次从前面的往后面的找Chromedriver。由于我们用了virtualenv 安装虚拟环境,所有默认的第一个路径是 虚拟环境里的,我们可以把Chromedriver 拷贝到以上任意一个路径,就会解决上面的问题。
下载ChromeDriver文件到环境变量路径
方法1:
WEGET 文件,然后解压拷贝文件进入那个目录
wget http://chromedriver.storage.googleapis.com/2.10/chromedriver_linux64.zipunzip chromedriver_linux64.zip -d /Users/mofu/git/v4/bin/
方法2
打开连接 https://sites.google.com/a/chromium.org/chromedriver/downloads
在后面连接,选择你的系统的 ChromeDriver 然后 移动到 上面的第一个目录,就可以了。
检查是否配置正确
在当前环境输入 chromedriver 如果出现如下内容,表示配置正确。
声明浏览器对象
from selenium import webdriverbrowser = webdriver.Chrome()browser = webdriver.Firefox()browser = webdriver.Edge()browser = webdriver.PhantomJS()browser = webdriver.Safari()
可以选择任意浏览器,前提是在本地已经安装了这个浏览器,要不然会报错。
访问页面
from selenium import webdriverbrowser = webdriver.Chrome() # 调用chrome 浏览器browser.get('https://www.taobao.com') #访问taobaoprint(browser.page_source) # 打印 taobao的源代码browser.close() #关闭浏览器
查找元素
单个元素
from selenium import webdriverbrowser = webdriver.Chrome()browser.get('https://www.taobao.com')input_first = browser.find_element_by_id('q')input_second = browser.find_element_by_css_selector('#q')input_third = browser.find_element_by_xpath('//*[@id="q"]')print(input_first,input_second,input_third)browser.close()
以上三种方法 都是可找到同一个对象
其他选择方法
- find_element_by_name
- find_element_by_xpath
- find_element_by_link_text
- find_element_by_partial_link_text
- find_element_by_tag_name
- find_element_by_class_name
- find_element_by_css_selector
其他写法
只是by_id 改成了 By.ID 写到了括号内。
这个需要多引用一个库
from selenium import webdriverfrom selenium.webdriver.common.by import Bybrowser = webdriver.Chrome()browser.get('https://www.taobao.com')input_first = browser.find_element(By.ID, 'q') #这里写法有点不一样print(input_first)browser.close()
多个元素
方法其实和上面的完全一样,只是在element后面加上一个s变成 elements。
from selenium import webdriverbrowser = webdriver.Chrome()browser.get('https://www.taobao.com')lis = browser.find_elements_by_css_selector('.service-bd li')print(lis)browser.close()
其他写法
这个需要多引用一个库
from selenium import webdriverfrom selenium.webdriver.common.by import Bybrowser = webdriver.Chrome()browser.get('https://www.taobao.com')lis = browser.find_elements(By.CSS_SELECTOR, '.service-bd li') # 这里写法有点不一样print(lis)browser.close()
元素交互操作
from selenium import webdriver #调用浏览器import time #调用时间browser = webdriver.Chrome() #引用浏览器 CHROMEbrowser.get('https://www.taobao.com') #打开淘宝input = browser.find_element_by_id('q') #找到淘宝搜索匡input.send_keys('iPhone') #输入iphonetime.sleep(2) #等待两秒input.clear() #轻松搜索内容input.send_keys('ipad') #搜索ipadbutton = browser.find_element_by_class_name('btn-search') #找到搜索按钮button.click() #点击搜索按钮
更多操作: http://selenium-python.readthedocs.io/api.html#module-selenium.webdriver.remote.webelement
交互动作 (拖拽)
from selenium import webdriverfrom selenium.webdriver import ActionChains #导入交互动作browser = webdriver.Chrome()url = 'http://www.runoob.com/try/try.php?filename=jqueryui-api-droppable'browser.get(url)browser.switch_to.frame('iframeResult') # 切换到这个framesource = browser.find_element_by_css_selector('#draggable') #定义对象1target = browser.find_element_by_css_selector('#droppable') #定义对象2actions = ActionChains(browser) #定义动作拖拽actions.drag_and_drop(source, target) #从对象1拖拽在对象2actions.perform() #执行以上动作
更多操作: http://selenium-python.readthedocs.io/api.html#module-selenium.webdriver.common.action_chains
执行JavaScript
from selenium import webdriverbrowser = webdriver.Chrome()browser.get('https://www.zhihu.com/explore')browser.execute_script('window.scrollTo(0, document.body.scrollHeight)')browser.execute_script('alert("To Bottom")')
获取元素信息
获取属性
from selenium import webdriverbrowser = webdriver.Chrome()url = 'https://www.zhihu.com/explore'browser.get(url)logo = browser.find_element_by_id('zh-top-link-logo')print(logo)print(logo.get_attribute('class')) #获取属性browser.close()
获取文本值
from selenium import webdriverbrowser = webdriver.Chrome()url = 'https://www.zhihu.com/explore'browser.get(url)input = browser.find_element_by_class_name('zu-top-add-question')print(input.text)
获取 id、位置、标签名、大小
from selenium import webdriverbrowser = webdriver.Chrome()url = 'https://www.zhihu.com/explore'browser.get(url)input = browser.find_element_by_class_name('zu-top-add-question')print(input.text)print(input.id)print(input.tag_name)print(input.size)
Frame
当在一个Frame 里的时候是获取不到外层或者其他 Frame里面的信息的。这个时候就需要移动到另外一个 Frame里面去。
import timefrom selenium import webdriverfrom selenium.common.exceptions import NoSuchElementExceptionbrowser = webdriver.Chrome()url = 'http://www.runoob.com/try/try.php?filename=jqueryui-api-droppable'browser.get(url)browser.switch_to.frame('iframeResult')source = browser.find_element_by_css_selector('#draggable')print(source)try:logo = browser.find_element_by_class_name('logo')except NoSuchElementException:print('NO LOGO')browser.switch_to.parent_frame()logo = browser.find_element_by_class_name('logo')print(logo)print(logo.text)
等待
隐藏式等待
给程序更长的加载时间,允许程序执行一定的时间,但是超过这个时间就报错。
from selenium import webdriverbrowser = webdriver.Chrome()browser.implicitly_wait(10)browser.get('https://www.zhihu.com/explore')input = browser.find_element_by_class_name('zu-top-add-question')print(input)
显示等待
from selenium import webdriverbrowser = webdriver.Chrome()browser.implicitly_wait(10)browser.get('https://www.zhihu.com/explore')input = browser.find_element_by_class_name('zu-top-add-question')print(input)
结果如下
- title_is 标题是某内容
- title_contains 标题包含某内容
- presence_of_element_located 元素加载出,传入定位元组,如(By.ID, ‘p’)
- visibility_of_element_located 元素可见,传入定位元组
- visibility_of 可见,传入元素对象
- presence_of_all_elements_located 所有元素加载出
- text_to_be_present_in_element 某个元素文本包含某文字
- text_to_be_present_in_element_value 某个元素值包含某文字
- frame_to_be_available_and_switch_to_it frame加载并切换
- invisibility_of_element_located 元素不可见
- element_to_be_clickable 元素可点击
- staleness_of 判断一个元素是否仍在DOM,可判断页面是否已经刷新
- element_to_be_selected 元素可选择,传元素对象
- element_located_to_be_selected 元素可选择,传入定位元组
- element_selection_state_to_be 传入元素对象以及状态,相等返回True,否则返回False
- element_located_selection_state_to_be 传入定位元组以及状态,相等返回True,否则返回False
- alert_is_present 是否出现Alert
详细内容:http://selenium-python.readthedocs.io/api.html#module-selenium.webdriver.support.expected_conditions
前进后退
from selenium import webdriverimport timebrowser = webdriver.Chrome()browser.get('https://www.baidu.com')browser.get('https://www.taobao.com')browser.get('https://www.python.org')time.sleep(1)browser.forward()browser.close()
依次打开,百度-淘宝-python-返回上一个-暂停1秒-前进到下一个-关闭浏览器
Cookies
from selenium import webdriverbrowser = webdriver.Chrome()browser.get('https://www.zhihu.com/explore')print(browser.get_cookies()) #打印现有的cookiesbrowser.add_cookie({'name': 'name', 'domain': 'www.zhihu.com', 'value': 'germey'}) #在现有的基础上添加 括号内的cookiesprint(browser.get_cookies()) # 打印添加后的cookiesbrowser.delete_all_cookies() #删除所有cookiesprint(browser.get_cookies()) #打印删除后的cookies
选项卡管理
from selenium import webdriverimport timebrowser = webdriver.Chrome()browser.get('https://www.baidu.com')browser.execute_script('window.open()') # 打开一个新的选项卡print(browser.window_handles) #打印选项卡列表browser.switch_to_window(browser.window_handles[1]) #选择第二个选项卡browser.get('https://www.taobao.com') #在第二个选项卡打开淘宝time.sleep(1)browser.switch_to_window(browser.window_handles[0]) #切换到第一个选项卡browser.get('https://python.org') #在第一个选项卡打开python.org
异常处理
from selenium import webdriverfrom selenium.common.exceptions import TimeoutException, NoSuchElementException #需要导入browser = webdriver.Chrome()try:browser.get('https://www.baidu.com')except TimeoutException:print('Time Out')try:browser.find_element_by_id('hello')except NoSuchElementException:print('No Element')finally:browser.close()
详细文档
http://selenium-python.readthedocs.io/api.html#module-selenium.common.exceptions
下面的内容转载自:
https://huilansame.github.io/huilansame.github.io/archivers/radio-button-checkbox
Python selenium —— 搞定网页单选框(radio button)、复选框(checkbox)
Sep 8, 2016
网页上有时候遇到checkbox和radio button,一般情况下这两种都是<input>标签,我们可以通过点击或者发送空格的方式进行选中
1.选择
试验网页代码checkandradio.html:
<html><body>Checkbox:<input type="checkbox" value="cv1" name="c1"><input type="checkbox" value="cv2"><input type="checkbox" value="cv3" name="c1"><input type="checkbox" value="cv4"><p>Radio:<input type="radio" value="rv1" name="r1"><input type="radio" value="rv2" name="r1"></body></html>
定位:就是普通的input标签,按照正常的定位方式定位就可以,不再赘述。
下面我们用selenium选中其中的checkbox(1、2)和radio1->radio2,上代码:
from selenium import webdriverfrom selenium.webdriver.common.keys import Keysfrom time import sleepdriver = webdriver.Firefox()driver.maximize_window()driver.get('file:///D:/checkboxandradio.html')# checkboxdriver.find_element_by_xpath('//input[@value="cv1"]').click() # clickdriver.find_element_by_xpath('//input[@value="cv2"]').send_keys(Keys.SPACE) # send space# radiodriver.find_element_by_xpath('//input[@value="rv1"]').send_keys(Keys.SPACE) # send spacesleep(1)driver.find_element_by_xpath('//input[@value="rv2"]').click() # clicksleep(1)driver.quit()
从上例可以看出我们对这种checkbox和radio button,可以通过直接点击或者发送空格的方式达到选中或者反选的目的。
2.检查某个框是否被选中
方法:
element.is_selected()
示例代码如下:
from selenium import webdriverfrom selenium.webdriver.common.keys import Keysfrom time import sleepdriver = webdriver.Firefox()driver.maximize_window()driver.get('file:///D:/checkboxandradio.html')# checkboxdriver.find_element_by_xpath('//input[@value="cv1"]').click() # clickdriver.find_element_by_xpath('//input[@value="cv2"]').send_keys(Keys.SPACE) # send spaceif driver.find_element_by_xpath('//input[@value="cv2"]').is_selected():print 'selected!'else:print 'not yet!'# radiodriver.find_element_by_xpath('//input[@value="rv1"]').send_keys(Keys.SPACE) # send spacesleep(1)driver.find_element_by_xpath('//input[@value="rv2"]').click() # clickif driver.find_element_by_xpath('//input[@value="rv1"]').is_selected():print 'selected!'else:print 'not yet!'sleep(1)driver.quit()
结果:
selected!not yet!
当然,选中和判断是否选中还有其他的方法,如模拟鼠标点击、用JS点击、JS修改标签属性选中;用JS、jQuery判断是否选中、用标签属性判断是否选中,不过针对大部分情况,以上方法足够用了。如果以上方法失效,可以考虑直接修改或获取标签属性,或者可能是其他因素如等待时间、页面遮挡等导致无法选中,可进行更多尝试。
更多关于python selenium的文章,请关注我的CSDN专栏:Python Selenium自动化测试详解
