官方文档
安装
基本使用
环境变量
- 查看环境变量路径
  - 下载ChromeDriver文件到环境变量路径
    - 检查是否配置正确
声明浏览器对象
访问页面
查找元素
- 单个元素
  - 其他选择方法
- 其他写法
多个元素
- 其他写法
元素交互操作
交互动作 (拖拽）
执行JavaScript
获取元素信息
等待
- 隐藏式等待
- 显示等待
前进后退
Python selenium —— 搞定网页单选框(radio button)、复选框(checkbox)
- 1.选择
- 2.检查某个框是否被选中

自动化测试工具

爬虫中主要是为了解决 JavaScript 渲染的问题（Requests和 Urllib无法获取网页内容）

官方文档

http://selenium-python.readthedocs.io/

安装

pip3 install selenium

基本使用

from selenium import webdriver   # 1 导入浏览器
from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.support.wait import WebDriverWait
browser = webdriver.Chrome()   # 1 导入浏览器 Chrome
try:
    browser.get('https://www.baidu.com')   # 打开百度
    input = browser.find_element_by_id('kw')  #找到搜索功能
    input.send_keys('Python')   #搜索python
    input.send_keys(Keys.ENTER)    # 回车
    wait = WebDriverWait(browser, 10)   #等待10秒
    wait.until(EC.presence_of_element_located((By.ID, 'content_left'))) # 等待 content_left 加载完成
    print(browser.current_url)   # 打印现在的 URL
    print(browser.get_cookies())   # 打印 COOKIES
    print(browser.page_source)    # 打印现在的网站源代码
finally:
    browser.close()

上面的代码只是简单演示，不用看懂，下面会进行详细的讲解。
这段代码执行报错，下面看完再来研究是什么问题。

环境变量

问题如下：'chromedriver' executable needs to be in PATH.

Selenium - 图1

查看环境变量路径

echo $PATH

Selenium - 图2
每个:隔开一个路径，它会依次从前面的往后面的找Chromedriver。由于我们用了virtualenv 安装虚拟环境，所有默认的第一个路径是虚拟环境里的，我们可以把Chromedriver 拷贝到以上任意一个路径，就会解决上面的问题。

下载ChromeDriver文件到环境变量路径

方法1：

WEGET 文件，然后解压拷贝文件进入那个目录

wget http://chromedriver.storage.googleapis.com/2.10/chromedriver_linux64.zip
unzip chromedriver_linux64.zip -d /Users/mofu/git/v4/bin/

方法2

打开连接 https://sites.google.com/a/chromium.org/chromedriver/downloads
Selenium - 图3
在后面连接，选择你的系统的 ChromeDriver 然后移动到上面的第一个目录，就可以了。

检查是否配置正确

在当前环境输入 chromedriver 如果出现如下内容，表示配置正确。
Selenium - 图4

声明浏览器对象

from selenium import webdriver
browser = webdriver.Chrome()
browser = webdriver.Firefox()
browser = webdriver.Edge()
browser = webdriver.PhantomJS()
browser = webdriver.Safari()

可以选择任意浏览器，前提是在本地已经安装了这个浏览器，要不然会报错。

访问页面

from selenium import webdriver
browser = webdriver.Chrome()  # 调用chrome 浏览器
browser.get('https://www.taobao.com')   #访问taobao
print(browser.page_source)   # 打印 taobao的源代码
browser.close()  #关闭浏览器

查找元素

单个元素

from selenium import webdriver
browser = webdriver.Chrome()
browser.get('https://www.taobao.com')
input_first = browser.find_element_by_id('q')
input_second = browser.find_element_by_css_selector('#q')
input_third = browser.find_element_by_xpath('//*[@id="q"]')
print(input_first,input_second,input_third)
browser.close()

以上三种方法都是可找到同一个对象

结果如下
Selenium - 图5

其他选择方法

find_element_by_name
find_element_by_xpath
find_element_by_link_text
find_element_by_partial_link_text
find_element_by_tag_name
find_element_by_class_name
find_element_by_css_selector
其他写法

只是by_id 改成了 By.ID 写到了括号内。

这个需要多引用一个库

from selenium import webdriver
from selenium.webdriver.common.by import By
browser = webdriver.Chrome()
browser.get('https://www.taobao.com')
input_first = browser.find_element(By.ID, 'q')   #这里写法有点不一样
print(input_first)
browser.close()

结果如下
Selenium - 图6

多个元素

方法其实和上面的完全一样，只是在element后面加上一个s变成 elements。

from selenium import webdriver
browser = webdriver.Chrome()
browser.get('https://www.taobao.com')
lis = browser.find_elements_by_css_selector('.service-bd li')
print(lis)
browser.close()

结果如下
Selenium - 图7

其他写法

这个需要多引用一个库

from selenium import webdriver
from selenium.webdriver.common.by import By
browser = webdriver.Chrome()
browser.get('https://www.taobao.com')
lis = browser.find_elements(By.CSS_SELECTOR, '.service-bd li')  # 这里写法有点不一样
print(lis)
browser.close()

元素交互操作

from selenium import webdriver #调用浏览器
import time  #调用时间
browser = webdriver.Chrome() #引用浏览器 CHROME
browser.get('https://www.taobao.com') #打开淘宝
input = browser.find_element_by_id('q') #找到淘宝搜索匡
input.send_keys('iPhone')  #输入iphone
time.sleep(2)  #等待两秒
input.clear()  #轻松搜索内容
input.send_keys('ipad')   #搜索ipad
button = browser.find_element_by_class_name('btn-search') #找到搜索按钮
button.click()  #点击搜索按钮

交互动作 (拖拽）

from selenium import webdriver
from selenium.webdriver import ActionChains   #导入交互动作
browser = webdriver.Chrome()
url = 'http://www.runoob.com/try/try.php?filename=jqueryui-api-droppable'
browser.get(url)
browser.switch_to.frame('iframeResult')  # 切换到这个frame
source = browser.find_element_by_css_selector('#draggable') #定义对象1
target = browser.find_element_by_css_selector('#droppable')  #定义对象2
actions = ActionChains(browser)  #定义动作拖拽
actions.drag_and_drop(source, target) #从对象1拖拽在对象2 
actions.perform()  #执行以上动作

执行JavaScript

from selenium import webdriver
browser = webdriver.Chrome()
browser.get('https://www.zhihu.com/explore')
browser.execute_script('window.scrollTo(0, document.body.scrollHeight)')
browser.execute_script('alert("To Bottom")')

获取元素信息

获取属性

from selenium import webdriver
browser = webdriver.Chrome()
url = 'https://www.zhihu.com/explore'
browser.get(url)
logo = browser.find_element_by_id('zh-top-link-logo')
print(logo)
print(logo.get_attribute('class'))  #获取属性
browser.close()

结果如下
Selenium - 图8

获取文本值

from selenium import webdriver
browser = webdriver.Chrome()
url = 'https://www.zhihu.com/explore'
browser.get(url)
input = browser.find_element_by_class_name('zu-top-add-question')
print(input.text)

结果如下
Selenium - 图9

获取 id、位置、标签名、大小

from selenium import webdriver
browser = webdriver.Chrome()
url = 'https://www.zhihu.com/explore'
browser.get(url)
input = browser.find_element_by_class_name('zu-top-add-question')
print(input.text)
print(input.id)
print(input.tag_name)
print(input.size)

结果
Selenium - 图10

Frame

当在一个Frame 里的时候是获取不到外层或者其他 Frame里面的信息的。这个时候就需要移动到另外一个 Frame里面去。

import time
from selenium import webdriver
from selenium.common.exceptions import NoSuchElementException
browser = webdriver.Chrome()
url = 'http://www.runoob.com/try/try.php?filename=jqueryui-api-droppable'
browser.get(url)
browser.switch_to.frame('iframeResult')
source = browser.find_element_by_css_selector('#draggable')
print(source)
try:
    logo = browser.find_element_by_class_name('logo')
except NoSuchElementException:
    print('NO LOGO')
browser.switch_to.parent_frame()
logo = browser.find_element_by_class_name('logo')
print(logo)
print(logo.text)

结果如下
Selenium - 图11

等待

隐藏式等待

给程序更长的加载时间，允许程序执行一定的时间，但是超过这个时间就报错。

from selenium import webdriver
browser = webdriver.Chrome()
browser.implicitly_wait(10)
browser.get('https://www.zhihu.com/explore')
input = browser.find_element_by_class_name('zu-top-add-question')
print(input)

等待10秒后出现的结果
Selenium - 图12

显示等待

from selenium import webdriver
browser = webdriver.Chrome()
browser.implicitly_wait(10)
browser.get('https://www.zhihu.com/explore')
input = browser.find_element_by_class_name('zu-top-add-question')
print(input)

结果如下
Selenium - 图13

title_is 标题是某内容
title_contains 标题包含某内容
presence_of_element_located 元素加载出，传入定位元组，如(By.ID, ‘p’)
visibility_of_element_located 元素可见，传入定位元组
visibility_of 可见，传入元素对象
presence_of_all_elements_located 所有元素加载出
text_to_be_present_in_element 某个元素文本包含某文字
text_to_be_present_in_element_value 某个元素值包含某文字
frame_to_be_available_and_switch_to_it frame加载并切换
invisibility_of_element_located 元素不可见
element_to_be_clickable 元素可点击
staleness_of 判断一个元素是否仍在DOM，可判断页面是否已经刷新
element_to_be_selected 元素可选择，传元素对象
element_located_to_be_selected 元素可选择，传入定位元组
element_selection_state_to_be 传入元素对象以及状态，相等返回True，否则返回False
element_located_selection_state_to_be 传入定位元组以及状态，相等返回True，否则返回False
alert_is_present 是否出现Alert

详细内容：http://selenium-python.readthedocs.io/api.html#module-selenium.webdriver.support.expected_conditions

前进后退

from selenium import webdriver
import time
browser = webdriver.Chrome()
browser.get('https://www.baidu.com')
browser.get('https://www.taobao.com')
browser.get('https://www.python.org')
time.sleep(1)
browser.forward()
browser.close()

依次打开，百度-淘宝-python-返回上一个-暂停1秒-前进到下一个-关闭浏览器

Cookies

from selenium import webdriver
browser = webdriver.Chrome()
browser.get('https://www.zhihu.com/explore')
print(browser.get_cookies())  #打印现有的cookies
browser.add_cookie({'name': 'name', 'domain': 'www.zhihu.com', 'value': 'germey'}) #在现有的基础上添加 括号内的cookies
print(browser.get_cookies())  # 打印添加后的cookies
browser.delete_all_cookies()  #删除所有cookies
print(browser.get_cookies()) #打印删除后的cookies

结果如下
Selenium - 图14

选项卡管理

from selenium import webdriver
import time
browser = webdriver.Chrome()
browser.get('https://www.baidu.com')
browser.execute_script('window.open()')  # 打开一个新的选项卡
print(browser.window_handles) #打印选项卡列表
browser.switch_to_window(browser.window_handles[1]) #选择第二个选项卡
browser.get('https://www.taobao.com') #在第二个选项卡打开淘宝
time.sleep(1)
browser.switch_to_window(browser.window_handles[0])  #切换到第一个选项卡
browser.get('https://python.org')  #在第一个选项卡打开python.org

选项卡列表
Selenium - 图15

异常处理

from selenium import webdriver
from selenium.common.exceptions import TimeoutException, NoSuchElementException  #需要导入
browser = webdriver.Chrome()
try:
    browser.get('https://www.baidu.com')
except TimeoutException:
    print('Time Out')
try:
    browser.find_element_by_id('hello')
except NoSuchElementException:
    print('No Element')
finally:
    browser.close()

结果如下
Selenium - 图16

详细文档

http://selenium-python.readthedocs.io/api.html#module-selenium.common.exceptions

下面的内容转载自：
https://huilansame.github.io/huilansame.github.io/archivers/radio-button-checkbox

Python selenium —— 搞定网页单选框(radio button)、复选框(checkbox)

Sep 8, 2016
网页上有时候遇到checkbox和radio button，一般情况下这两种都是<input>标签，我们可以通过点击或者发送空格的方式进行选中

1.选择

试验网页代码checkandradio.html：

<html>
<body>
Checkbox:
<input type="checkbox" value="cv1" name="c1">
<input type="checkbox" value="cv2">
<input type="checkbox" value="cv3" name="c1">
<input type="checkbox" value="cv4">
<p>
Radio:
<input type="radio" value="rv1" name="r1">
<input type="radio" value="rv2" name="r1">
</body>
</html>

定位：就是普通的input标签，按照正常的定位方式定位就可以，不再赘述。
下面我们用selenium选中其中的checkbox（1、2）和radio1->radio2，上代码：

from selenium import webdriver
from selenium.webdriver.common.keys import Keys
from time import sleep
driver = webdriver.Firefox()
driver.maximize_window()
driver.get('file:///D:/checkboxandradio.html')
# checkbox
driver.find_element_by_xpath('//input[@value="cv1"]').click()  # click
driver.find_element_by_xpath('//input[@value="cv2"]').send_keys(Keys.SPACE)  # send space
# radio
driver.find_element_by_xpath('//input[@value="rv1"]').send_keys(Keys.SPACE)  # send space
sleep(1)
driver.find_element_by_xpath('//input[@value="rv2"]').click()  # click
sleep(1)
driver.quit()

从上例可以看出我们对这种checkbox和radio button，可以通过直接点击或者发送空格的方式达到选中或者反选的目的。

2.检查某个框是否被选中

方法：

element.is_selected()

示例代码如下：

from selenium import webdriver
from selenium.webdriver.common.keys import Keys
from time import sleep
driver = webdriver.Firefox()
driver.maximize_window()
driver.get('file:///D:/checkboxandradio.html')
# checkbox
driver.find_element_by_xpath('//input[@value="cv1"]').click()  # click
driver.find_element_by_xpath('//input[@value="cv2"]').send_keys(Keys.SPACE)  # send space
if driver.find_element_by_xpath('//input[@value="cv2"]').is_selected():
    print 'selected!'
else:
    print 'not yet!'
# radio
driver.find_element_by_xpath('//input[@value="rv1"]').send_keys(Keys.SPACE)  # send space
sleep(1)
driver.find_element_by_xpath('//input[@value="rv2"]').click()  # click
if driver.find_element_by_xpath('//input[@value="rv1"]').is_selected():
    print 'selected!'
else:
    print 'not yet!'
sleep(1)
driver.quit()

结果：

selected!
not yet!

当然，选中和判断是否选中还有其他的方法，如模拟鼠标点击、用JS点击、JS修改标签属性选中；用JS、jQuery判断是否选中、用标签属性判断是否选中，不过针对大部分情况，以上方法足够用了。如果以上方法失效，可以考虑直接修改或获取标签属性，或者可能是其他因素如等待时间、页面遮挡等导致无法选中，可进行更多尝试。

更多关于python selenium的文章，请关注我的CSDN专栏：Python Selenium自动化测试详解