自动化测试工具
爬虫中主要是为了解决 JavaScript 渲染的问题(Requests和 Urllib无法获取网页内容)
官方文档
http://selenium-python.readthedocs.io/
安装
pip3 install selenium
基本使用
from selenium import webdriver # 1 导入浏览器
from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.support.wait import WebDriverWait
browser = webdriver.Chrome() # 1 导入浏览器 Chrome
try:
browser.get('https://www.baidu.com') # 打开百度
input = browser.find_element_by_id('kw') #找到搜索功能
input.send_keys('Python') #搜索python
input.send_keys(Keys.ENTER) # 回车
wait = WebDriverWait(browser, 10) #等待10秒
wait.until(EC.presence_of_element_located((By.ID, 'content_left'))) # 等待 content_left 加载完成
print(browser.current_url) # 打印现在的 URL
print(browser.get_cookies()) # 打印 COOKIES
print(browser.page_source) # 打印现在的网站源代码
finally:
browser.close()
上面的代码只是简单演示,不用看懂,下面会进行详细的讲解。
这段代码执行报错,下面看完再来研究是什么问题。
环境变量
问题如下:
'chromedriver' executable needs to be in PATH.
查看环境变量路径
echo $PATH
每个:
隔开一个路径,它会依次从前面的往后面的找Chromedriver
。由于我们用了virtualenv
安装虚拟环境,所有默认的第一个路径是 虚拟环境里的,我们可以把Chromedriver
拷贝到以上任意一个路径,就会解决上面的问题。
下载ChromeDriver文件到环境变量路径
方法1:
WEGET 文件,然后解压拷贝文件进入那个目录
wget http://chromedriver.storage.googleapis.com/2.10/chromedriver_linux64.zip
unzip chromedriver_linux64.zip -d /Users/mofu/git/v4/bin/
方法2
打开连接 https://sites.google.com/a/chromium.org/chromedriver/downloads
在后面连接,选择你的系统的 ChromeDriver 然后 移动到 上面的第一个目录,就可以了。
检查是否配置正确
在当前环境输入 chromedriver
如果出现如下内容,表示配置正确。
声明浏览器对象
from selenium import webdriver
browser = webdriver.Chrome()
browser = webdriver.Firefox()
browser = webdriver.Edge()
browser = webdriver.PhantomJS()
browser = webdriver.Safari()
可以选择任意浏览器,前提是在本地已经安装了这个浏览器,要不然会报错。
访问页面
from selenium import webdriver
browser = webdriver.Chrome() # 调用chrome 浏览器
browser.get('https://www.taobao.com') #访问taobao
print(browser.page_source) # 打印 taobao的源代码
browser.close() #关闭浏览器
查找元素
单个元素
from selenium import webdriver
browser = webdriver.Chrome()
browser.get('https://www.taobao.com')
input_first = browser.find_element_by_id('q')
input_second = browser.find_element_by_css_selector('#q')
input_third = browser.find_element_by_xpath('//*[@id="q"]')
print(input_first,input_second,input_third)
browser.close()
以上三种方法 都是可找到同一个对象
其他选择方法
- find_element_by_name
- find_element_by_xpath
- find_element_by_link_text
- find_element_by_partial_link_text
- find_element_by_tag_name
- find_element_by_class_name
- find_element_by_css_selector
其他写法
只是by_id 改成了 By.ID 写到了括号内。
这个需要多引用一个库
from selenium import webdriver
from selenium.webdriver.common.by import By
browser = webdriver.Chrome()
browser.get('https://www.taobao.com')
input_first = browser.find_element(By.ID, 'q') #这里写法有点不一样
print(input_first)
browser.close()
多个元素
方法其实和上面的完全一样,只是在element
后面加上一个s
变成 elements
。
from selenium import webdriver
browser = webdriver.Chrome()
browser.get('https://www.taobao.com')
lis = browser.find_elements_by_css_selector('.service-bd li')
print(lis)
browser.close()
其他写法
这个需要多引用一个库
from selenium import webdriver
from selenium.webdriver.common.by import By
browser = webdriver.Chrome()
browser.get('https://www.taobao.com')
lis = browser.find_elements(By.CSS_SELECTOR, '.service-bd li') # 这里写法有点不一样
print(lis)
browser.close()
元素交互操作
from selenium import webdriver #调用浏览器
import time #调用时间
browser = webdriver.Chrome() #引用浏览器 CHROME
browser.get('https://www.taobao.com') #打开淘宝
input = browser.find_element_by_id('q') #找到淘宝搜索匡
input.send_keys('iPhone') #输入iphone
time.sleep(2) #等待两秒
input.clear() #轻松搜索内容
input.send_keys('ipad') #搜索ipad
button = browser.find_element_by_class_name('btn-search') #找到搜索按钮
button.click() #点击搜索按钮
更多操作: http://selenium-python.readthedocs.io/api.html#module-selenium.webdriver.remote.webelement
交互动作 (拖拽)
from selenium import webdriver
from selenium.webdriver import ActionChains #导入交互动作
browser = webdriver.Chrome()
url = 'http://www.runoob.com/try/try.php?filename=jqueryui-api-droppable'
browser.get(url)
browser.switch_to.frame('iframeResult') # 切换到这个frame
source = browser.find_element_by_css_selector('#draggable') #定义对象1
target = browser.find_element_by_css_selector('#droppable') #定义对象2
actions = ActionChains(browser) #定义动作拖拽
actions.drag_and_drop(source, target) #从对象1拖拽在对象2
actions.perform() #执行以上动作
更多操作: http://selenium-python.readthedocs.io/api.html#module-selenium.webdriver.common.action_chains
执行JavaScript
from selenium import webdriver
browser = webdriver.Chrome()
browser.get('https://www.zhihu.com/explore')
browser.execute_script('window.scrollTo(0, document.body.scrollHeight)')
browser.execute_script('alert("To Bottom")')
获取元素信息
获取属性
from selenium import webdriver
browser = webdriver.Chrome()
url = 'https://www.zhihu.com/explore'
browser.get(url)
logo = browser.find_element_by_id('zh-top-link-logo')
print(logo)
print(logo.get_attribute('class')) #获取属性
browser.close()
获取文本值
from selenium import webdriver
browser = webdriver.Chrome()
url = 'https://www.zhihu.com/explore'
browser.get(url)
input = browser.find_element_by_class_name('zu-top-add-question')
print(input.text)
获取 id、位置、标签名、大小
from selenium import webdriver
browser = webdriver.Chrome()
url = 'https://www.zhihu.com/explore'
browser.get(url)
input = browser.find_element_by_class_name('zu-top-add-question')
print(input.text)
print(input.id)
print(input.tag_name)
print(input.size)
Frame
当在一个Frame 里的时候是获取不到外层或者其他 Frame里面的信息的。这个时候就需要移动到另外一个 Frame里面去。
import time
from selenium import webdriver
from selenium.common.exceptions import NoSuchElementException
browser = webdriver.Chrome()
url = 'http://www.runoob.com/try/try.php?filename=jqueryui-api-droppable'
browser.get(url)
browser.switch_to.frame('iframeResult')
source = browser.find_element_by_css_selector('#draggable')
print(source)
try:
logo = browser.find_element_by_class_name('logo')
except NoSuchElementException:
print('NO LOGO')
browser.switch_to.parent_frame()
logo = browser.find_element_by_class_name('logo')
print(logo)
print(logo.text)
等待
隐藏式等待
给程序更长的加载时间,允许程序执行一定的时间,但是超过这个时间就报错。
from selenium import webdriver
browser = webdriver.Chrome()
browser.implicitly_wait(10)
browser.get('https://www.zhihu.com/explore')
input = browser.find_element_by_class_name('zu-top-add-question')
print(input)
显示等待
from selenium import webdriver
browser = webdriver.Chrome()
browser.implicitly_wait(10)
browser.get('https://www.zhihu.com/explore')
input = browser.find_element_by_class_name('zu-top-add-question')
print(input)
结果如下
- title_is 标题是某内容
- title_contains 标题包含某内容
- presence_of_element_located 元素加载出,传入定位元组,如(By.ID, ‘p’)
- visibility_of_element_located 元素可见,传入定位元组
- visibility_of 可见,传入元素对象
- presence_of_all_elements_located 所有元素加载出
- text_to_be_present_in_element 某个元素文本包含某文字
- text_to_be_present_in_element_value 某个元素值包含某文字
- frame_to_be_available_and_switch_to_it frame加载并切换
- invisibility_of_element_located 元素不可见
- element_to_be_clickable 元素可点击
- staleness_of 判断一个元素是否仍在DOM,可判断页面是否已经刷新
- element_to_be_selected 元素可选择,传元素对象
- element_located_to_be_selected 元素可选择,传入定位元组
- element_selection_state_to_be 传入元素对象以及状态,相等返回True,否则返回False
- element_located_selection_state_to_be 传入定位元组以及状态,相等返回True,否则返回False
- alert_is_present 是否出现Alert
详细内容:http://selenium-python.readthedocs.io/api.html#module-selenium.webdriver.support.expected_conditions
前进后退
from selenium import webdriver
import time
browser = webdriver.Chrome()
browser.get('https://www.baidu.com')
browser.get('https://www.taobao.com')
browser.get('https://www.python.org')
time.sleep(1)
browser.forward()
browser.close()
依次打开,百度-淘宝-python-返回上一个-暂停1秒-前进到下一个-关闭浏览器
Cookies
from selenium import webdriver
browser = webdriver.Chrome()
browser.get('https://www.zhihu.com/explore')
print(browser.get_cookies()) #打印现有的cookies
browser.add_cookie({'name': 'name', 'domain': 'www.zhihu.com', 'value': 'germey'}) #在现有的基础上添加 括号内的cookies
print(browser.get_cookies()) # 打印添加后的cookies
browser.delete_all_cookies() #删除所有cookies
print(browser.get_cookies()) #打印删除后的cookies
选项卡管理
from selenium import webdriver
import time
browser = webdriver.Chrome()
browser.get('https://www.baidu.com')
browser.execute_script('window.open()') # 打开一个新的选项卡
print(browser.window_handles) #打印选项卡列表
browser.switch_to_window(browser.window_handles[1]) #选择第二个选项卡
browser.get('https://www.taobao.com') #在第二个选项卡打开淘宝
time.sleep(1)
browser.switch_to_window(browser.window_handles[0]) #切换到第一个选项卡
browser.get('https://python.org') #在第一个选项卡打开python.org
异常处理
from selenium import webdriver
from selenium.common.exceptions import TimeoutException, NoSuchElementException #需要导入
browser = webdriver.Chrome()
try:
browser.get('https://www.baidu.com')
except TimeoutException:
print('Time Out')
try:
browser.find_element_by_id('hello')
except NoSuchElementException:
print('No Element')
finally:
browser.close()
详细文档
http://selenium-python.readthedocs.io/api.html#module-selenium.common.exceptions
下面的内容转载自:
https://huilansame.github.io/huilansame.github.io/archivers/radio-button-checkbox
Python selenium —— 搞定网页单选框(radio button)、复选框(checkbox)
Sep 8, 2016
网页上有时候遇到checkbox
和radio button
,一般情况下这两种都是<input>
标签,我们可以通过点击或者发送空格的方式进行选中
1.选择
试验网页代码checkandradio.html:
<html>
<body>
Checkbox:
<input type="checkbox" value="cv1" name="c1">
<input type="checkbox" value="cv2">
<input type="checkbox" value="cv3" name="c1">
<input type="checkbox" value="cv4">
<p>
Radio:
<input type="radio" value="rv1" name="r1">
<input type="radio" value="rv2" name="r1">
</body>
</html>
定位:就是普通的input
标签,按照正常的定位方式定位就可以,不再赘述。
下面我们用selenium选中其中的checkbox(1、2)和radio1->radio2,上代码:
from selenium import webdriver
from selenium.webdriver.common.keys import Keys
from time import sleep
driver = webdriver.Firefox()
driver.maximize_window()
driver.get('file:///D:/checkboxandradio.html')
# checkbox
driver.find_element_by_xpath('//input[@value="cv1"]').click() # click
driver.find_element_by_xpath('//input[@value="cv2"]').send_keys(Keys.SPACE) # send space
# radio
driver.find_element_by_xpath('//input[@value="rv1"]').send_keys(Keys.SPACE) # send space
sleep(1)
driver.find_element_by_xpath('//input[@value="rv2"]').click() # click
sleep(1)
driver.quit()
从上例可以看出我们对这种checkbox
和radio button
,可以通过直接点击或者发送空格的方式达到选中或者反选的目的。
2.检查某个框是否被选中
方法:
element.is_selected()
示例代码如下:
from selenium import webdriver
from selenium.webdriver.common.keys import Keys
from time import sleep
driver = webdriver.Firefox()
driver.maximize_window()
driver.get('file:///D:/checkboxandradio.html')
# checkbox
driver.find_element_by_xpath('//input[@value="cv1"]').click() # click
driver.find_element_by_xpath('//input[@value="cv2"]').send_keys(Keys.SPACE) # send space
if driver.find_element_by_xpath('//input[@value="cv2"]').is_selected():
print 'selected!'
else:
print 'not yet!'
# radio
driver.find_element_by_xpath('//input[@value="rv1"]').send_keys(Keys.SPACE) # send space
sleep(1)
driver.find_element_by_xpath('//input[@value="rv2"]').click() # click
if driver.find_element_by_xpath('//input[@value="rv1"]').is_selected():
print 'selected!'
else:
print 'not yet!'
sleep(1)
driver.quit()
结果:
selected!
not yet!
当然,选中和判断是否选中还有其他的方法,如模拟鼠标点击、用JS点击、JS修改标签属性选中;用JS、jQuery判断是否选中、用标签属性判断是否选中,不过针对大部分情况,以上方法足够用了。如果以上方法失效,可以考虑直接修改或获取标签属性,或者可能是其他因素如等待时间、页面遮挡等导致无法选中,可进行更多尝试。
更多关于python selenium的文章,请关注我的CSDN专栏:Python Selenium自动化测试详解