自动化测试工具

爬虫中主要是为了解决 JavaScript 渲染的问题(Requests和 Urllib无法获取网页内容)

官方文档

http://selenium-python.readthedocs.io/

安装

  1. pip3 install selenium

基本使用

  1. from selenium import webdriver # 1 导入浏览器
  2. from selenium.webdriver.common.by import By
  3. from selenium.webdriver.common.keys import Keys
  4. from selenium.webdriver.support import expected_conditions as EC
  5. from selenium.webdriver.support.wait import WebDriverWait
  6. browser = webdriver.Chrome() # 1 导入浏览器 Chrome
  7. try:
  8. browser.get('https://www.baidu.com') # 打开百度
  9. input = browser.find_element_by_id('kw') #找到搜索功能
  10. input.send_keys('Python') #搜索python
  11. input.send_keys(Keys.ENTER) # 回车
  12. wait = WebDriverWait(browser, 10) #等待10秒
  13. wait.until(EC.presence_of_element_located((By.ID, 'content_left'))) # 等待 content_left 加载完成
  14. print(browser.current_url) # 打印现在的 URL
  15. print(browser.get_cookies()) # 打印 COOKIES
  16. print(browser.page_source) # 打印现在的网站源代码
  17. finally:
  18. browser.close()

上面的代码只是简单演示,不用看懂,下面会进行详细的讲解。
这段代码执行报错,下面看完再来研究是什么问题。

环境变量

问题如下:'chromedriver' executable needs to be in PATH.

Selenium - 图1

查看环境变量路径

  1. echo $PATH

Selenium - 图2
每个:隔开一个路径,它会依次从前面的往后面的找Chromedriver。由于我们用了virtualenv 安装虚拟环境,所有默认的第一个路径是 虚拟环境里的,我们可以把Chromedriver 拷贝到以上任意一个路径,就会解决上面的问题。

下载ChromeDriver文件到环境变量路径

方法1:

WEGET 文件,然后解压拷贝文件进入那个目录

  1. wget http://chromedriver.storage.googleapis.com/2.10/chromedriver_linux64.zip
  2. unzip chromedriver_linux64.zip -d /Users/mofu/git/v4/bin/

方法2

打开连接 https://sites.google.com/a/chromium.org/chromedriver/downloads
Selenium - 图3
在后面连接,选择你的系统的 ChromeDriver 然后 移动到 上面的第一个目录,就可以了。

检查是否配置正确

在当前环境输入 chromedriver 如果出现如下内容,表示配置正确。
Selenium - 图4

声明浏览器对象

  1. from selenium import webdriver
  2. browser = webdriver.Chrome()
  3. browser = webdriver.Firefox()
  4. browser = webdriver.Edge()
  5. browser = webdriver.PhantomJS()
  6. browser = webdriver.Safari()

可以选择任意浏览器,前提是在本地已经安装了这个浏览器,要不然会报错。

访问页面

  1. from selenium import webdriver
  2. browser = webdriver.Chrome() # 调用chrome 浏览器
  3. browser.get('https://www.taobao.com') #访问taobao
  4. print(browser.page_source) # 打印 taobao的源代码
  5. browser.close() #关闭浏览器

查找元素

单个元素

  1. from selenium import webdriver
  2. browser = webdriver.Chrome()
  3. browser.get('https://www.taobao.com')
  4. input_first = browser.find_element_by_id('q')
  5. input_second = browser.find_element_by_css_selector('#q')
  6. input_third = browser.find_element_by_xpath('//*[@id="q"]')
  7. print(input_first,input_second,input_third)
  8. browser.close()

以上三种方法 都是可找到同一个对象

结果如下
Selenium - 图5

其他选择方法
  • find_element_by_name
  • find_element_by_xpath
  • find_element_by_link_text
  • find_element_by_partial_link_text
  • find_element_by_tag_name
  • find_element_by_class_name
  • find_element_by_css_selector

    其他写法

    只是by_id 改成了 By.ID 写到了括号内。

这个需要多引用一个库

  1. from selenium import webdriver
  2. from selenium.webdriver.common.by import By
  3. browser = webdriver.Chrome()
  4. browser.get('https://www.taobao.com')
  5. input_first = browser.find_element(By.ID, 'q') #这里写法有点不一样
  6. print(input_first)
  7. browser.close()

结果如下
Selenium - 图6

多个元素

方法其实和上面的完全一样,只是在element后面加上一个s变成 elements

  1. from selenium import webdriver
  2. browser = webdriver.Chrome()
  3. browser.get('https://www.taobao.com')
  4. lis = browser.find_elements_by_css_selector('.service-bd li')
  5. print(lis)
  6. browser.close()

结果如下
Selenium - 图7

其他写法

这个需要多引用一个库

  1. from selenium import webdriver
  2. from selenium.webdriver.common.by import By
  3. browser = webdriver.Chrome()
  4. browser.get('https://www.taobao.com')
  5. lis = browser.find_elements(By.CSS_SELECTOR, '.service-bd li') # 这里写法有点不一样
  6. print(lis)
  7. browser.close()

元素交互操作

  1. from selenium import webdriver #调用浏览器
  2. import time #调用时间
  3. browser = webdriver.Chrome() #引用浏览器 CHROME
  4. browser.get('https://www.taobao.com') #打开淘宝
  5. input = browser.find_element_by_id('q') #找到淘宝搜索匡
  6. input.send_keys('iPhone') #输入iphone
  7. time.sleep(2) #等待两秒
  8. input.clear() #轻松搜索内容
  9. input.send_keys('ipad') #搜索ipad
  10. button = browser.find_element_by_class_name('btn-search') #找到搜索按钮
  11. button.click() #点击搜索按钮

更多操作: http://selenium-python.readthedocs.io/api.html#module-selenium.webdriver.remote.webelement

交互动作 (拖拽)

  1. from selenium import webdriver
  2. from selenium.webdriver import ActionChains #导入交互动作
  3. browser = webdriver.Chrome()
  4. url = 'http://www.runoob.com/try/try.php?filename=jqueryui-api-droppable'
  5. browser.get(url)
  6. browser.switch_to.frame('iframeResult') # 切换到这个frame
  7. source = browser.find_element_by_css_selector('#draggable') #定义对象1
  8. target = browser.find_element_by_css_selector('#droppable') #定义对象2
  9. actions = ActionChains(browser) #定义动作拖拽
  10. actions.drag_and_drop(source, target) #从对象1拖拽在对象2
  11. actions.perform() #执行以上动作

更多操作: http://selenium-python.readthedocs.io/api.html#module-selenium.webdriver.common.action_chains

执行JavaScript

  1. from selenium import webdriver
  2. browser = webdriver.Chrome()
  3. browser.get('https://www.zhihu.com/explore')
  4. browser.execute_script('window.scrollTo(0, document.body.scrollHeight)')
  5. browser.execute_script('alert("To Bottom")')

获取元素信息

获取属性

  1. from selenium import webdriver
  2. browser = webdriver.Chrome()
  3. url = 'https://www.zhihu.com/explore'
  4. browser.get(url)
  5. logo = browser.find_element_by_id('zh-top-link-logo')
  6. print(logo)
  7. print(logo.get_attribute('class')) #获取属性
  8. browser.close()

结果如下
Selenium - 图8

获取文本值

  1. from selenium import webdriver
  2. browser = webdriver.Chrome()
  3. url = 'https://www.zhihu.com/explore'
  4. browser.get(url)
  5. input = browser.find_element_by_class_name('zu-top-add-question')
  6. print(input.text)

结果如下
Selenium - 图9

获取 id、位置、标签名、大小

  1. from selenium import webdriver
  2. browser = webdriver.Chrome()
  3. url = 'https://www.zhihu.com/explore'
  4. browser.get(url)
  5. input = browser.find_element_by_class_name('zu-top-add-question')
  6. print(input.text)
  7. print(input.id)
  8. print(input.tag_name)
  9. print(input.size)

结果
Selenium - 图10

Frame

当在一个Frame 里的时候是获取不到外层或者其他 Frame里面的信息的。这个时候就需要移动到另外一个 Frame里面去。

  1. import time
  2. from selenium import webdriver
  3. from selenium.common.exceptions import NoSuchElementException
  4. browser = webdriver.Chrome()
  5. url = 'http://www.runoob.com/try/try.php?filename=jqueryui-api-droppable'
  6. browser.get(url)
  7. browser.switch_to.frame('iframeResult')
  8. source = browser.find_element_by_css_selector('#draggable')
  9. print(source)
  10. try:
  11. logo = browser.find_element_by_class_name('logo')
  12. except NoSuchElementException:
  13. print('NO LOGO')
  14. browser.switch_to.parent_frame()
  15. logo = browser.find_element_by_class_name('logo')
  16. print(logo)
  17. print(logo.text)

结果如下
Selenium - 图11

等待

隐藏式等待

给程序更长的加载时间,允许程序执行一定的时间,但是超过这个时间就报错。

  1. from selenium import webdriver
  2. browser = webdriver.Chrome()
  3. browser.implicitly_wait(10)
  4. browser.get('https://www.zhihu.com/explore')
  5. input = browser.find_element_by_class_name('zu-top-add-question')
  6. print(input)

等待10秒后出现的结果
Selenium - 图12

显示等待

  1. from selenium import webdriver
  2. browser = webdriver.Chrome()
  3. browser.implicitly_wait(10)
  4. browser.get('https://www.zhihu.com/explore')
  5. input = browser.find_element_by_class_name('zu-top-add-question')
  6. print(input)

结果如下
Selenium - 图13

  • title_is 标题是某内容
  • title_contains 标题包含某内容
  • presence_of_element_located 元素加载出,传入定位元组,如(By.ID, ‘p’)
  • visibility_of_element_located 元素可见,传入定位元组
  • visibility_of 可见,传入元素对象
  • presence_of_all_elements_located 所有元素加载出
  • text_to_be_present_in_element 某个元素文本包含某文字
  • text_to_be_present_in_element_value 某个元素值包含某文字
  • frame_to_be_available_and_switch_to_it frame加载并切换
  • invisibility_of_element_located 元素不可见
  • element_to_be_clickable 元素可点击
  • staleness_of 判断一个元素是否仍在DOM,可判断页面是否已经刷新
  • element_to_be_selected 元素可选择,传元素对象
  • element_located_to_be_selected 元素可选择,传入定位元组
  • element_selection_state_to_be 传入元素对象以及状态,相等返回True,否则返回False
  • element_located_selection_state_to_be 传入定位元组以及状态,相等返回True,否则返回False
  • alert_is_present 是否出现Alert

详细内容:http://selenium-python.readthedocs.io/api.html#module-selenium.webdriver.support.expected_conditions

前进后退

  1. from selenium import webdriver
  2. import time
  3. browser = webdriver.Chrome()
  4. browser.get('https://www.baidu.com')
  5. browser.get('https://www.taobao.com')
  6. browser.get('https://www.python.org')
  7. time.sleep(1)
  8. browser.forward()
  9. browser.close()

依次打开,百度-淘宝-python-返回上一个-暂停1秒-前进到下一个-关闭浏览器

Cookies

  1. from selenium import webdriver
  2. browser = webdriver.Chrome()
  3. browser.get('https://www.zhihu.com/explore')
  4. print(browser.get_cookies()) #打印现有的cookies
  5. browser.add_cookie({'name': 'name', 'domain': 'www.zhihu.com', 'value': 'germey'}) #在现有的基础上添加 括号内的cookies
  6. print(browser.get_cookies()) # 打印添加后的cookies
  7. browser.delete_all_cookies() #删除所有cookies
  8. print(browser.get_cookies()) #打印删除后的cookies

结果如下
Selenium - 图14

选项卡管理

  1. from selenium import webdriver
  2. import time
  3. browser = webdriver.Chrome()
  4. browser.get('https://www.baidu.com')
  5. browser.execute_script('window.open()') # 打开一个新的选项卡
  6. print(browser.window_handles) #打印选项卡列表
  7. browser.switch_to_window(browser.window_handles[1]) #选择第二个选项卡
  8. browser.get('https://www.taobao.com') #在第二个选项卡打开淘宝
  9. time.sleep(1)
  10. browser.switch_to_window(browser.window_handles[0]) #切换到第一个选项卡
  11. browser.get('https://python.org') #在第一个选项卡打开python.org

选项卡列表
Selenium - 图15

异常处理

  1. from selenium import webdriver
  2. from selenium.common.exceptions import TimeoutException, NoSuchElementException #需要导入
  3. browser = webdriver.Chrome()
  4. try:
  5. browser.get('https://www.baidu.com')
  6. except TimeoutException:
  7. print('Time Out')
  8. try:
  9. browser.find_element_by_id('hello')
  10. except NoSuchElementException:
  11. print('No Element')
  12. finally:
  13. browser.close()

结果如下
Selenium - 图16

详细文档

http://selenium-python.readthedocs.io/api.html#module-selenium.common.exceptions


下面的内容转载自:
https://huilansame.github.io/huilansame.github.io/archivers/radio-button-checkbox

Python selenium —— 搞定网页单选框(radio button)、复选框(checkbox)

Sep 8, 2016
网页上有时候遇到checkboxradio button,一般情况下这两种都是<input>标签,我们可以通过点击或者发送空格的方式进行选中

1.选择

试验网页代码checkandradio.html:

  1. <html>
  2. <body>
  3. Checkbox:
  4. <input type="checkbox" value="cv1" name="c1">
  5. <input type="checkbox" value="cv2">
  6. <input type="checkbox" value="cv3" name="c1">
  7. <input type="checkbox" value="cv4">
  8. <p>
  9. Radio:
  10. <input type="radio" value="rv1" name="r1">
  11. <input type="radio" value="rv2" name="r1">
  12. </body>
  13. </html>

定位:就是普通的input标签,按照正常的定位方式定位就可以,不再赘述。
下面我们用selenium选中其中的checkbox(1、2)和radio1->radio2,上代码:

  1. from selenium import webdriver
  2. from selenium.webdriver.common.keys import Keys
  3. from time import sleep
  4. driver = webdriver.Firefox()
  5. driver.maximize_window()
  6. driver.get('file:///D:/checkboxandradio.html')
  7. # checkbox
  8. driver.find_element_by_xpath('//input[@value="cv1"]').click() # click
  9. driver.find_element_by_xpath('//input[@value="cv2"]').send_keys(Keys.SPACE) # send space
  10. # radio
  11. driver.find_element_by_xpath('//input[@value="rv1"]').send_keys(Keys.SPACE) # send space
  12. sleep(1)
  13. driver.find_element_by_xpath('//input[@value="rv2"]').click() # click
  14. sleep(1)
  15. driver.quit()

从上例可以看出我们对这种checkboxradio button,可以通过直接点击或者发送空格的方式达到选中或者反选的目的。

2.检查某个框是否被选中

方法:

element.is_selected()

示例代码如下:

  1. from selenium import webdriver
  2. from selenium.webdriver.common.keys import Keys
  3. from time import sleep
  4. driver = webdriver.Firefox()
  5. driver.maximize_window()
  6. driver.get('file:///D:/checkboxandradio.html')
  7. # checkbox
  8. driver.find_element_by_xpath('//input[@value="cv1"]').click() # click
  9. driver.find_element_by_xpath('//input[@value="cv2"]').send_keys(Keys.SPACE) # send space
  10. if driver.find_element_by_xpath('//input[@value="cv2"]').is_selected():
  11. print 'selected!'
  12. else:
  13. print 'not yet!'
  14. # radio
  15. driver.find_element_by_xpath('//input[@value="rv1"]').send_keys(Keys.SPACE) # send space
  16. sleep(1)
  17. driver.find_element_by_xpath('//input[@value="rv2"]').click() # click
  18. if driver.find_element_by_xpath('//input[@value="rv1"]').is_selected():
  19. print 'selected!'
  20. else:
  21. print 'not yet!'
  22. sleep(1)
  23. driver.quit()

结果:

  1. selected!
  2. not yet!

当然,选中和判断是否选中还有其他的方法,如模拟鼠标点击用JS点击JS修改标签属性选中用JS、jQuery判断是否选中用标签属性判断是否选中,不过针对大部分情况,以上方法足够用了。如果以上方法失效,可以考虑直接修改或获取标签属性,或者可能是其他因素如等待时间、页面遮挡等导致无法选中,可进行更多尝试。


更多关于python selenium的文章,请关注我的CSDN专栏:Python Selenium自动化测试详解