目标:
1:掌握什么是selenium以及selenium怎么实现抓取网页数据
2:掌握怎么查看python安装在哪个路径的指令(win与linux)
3:掌握怎么安装 selenium 工具(库)
4:掌握安装 selenium + 浏览器工具的环境步骤
一:什么是selenium以及selenium怎么实现抓取网页数据
答:selenium是web自动化测试工具,不是浏览器,它常常配合浏览器来实现网站的自动化测试,也就是说selenium可以自动化操作留浏览器进行一些行为,selenium配合浏览器就可以实现数据的抓取(可见即可得)
二:怎么查看python安装在哪个路径的指令(win与linux)
window指令:where python

linux指令:whereis python

三:怎么安装 selenium 工具(库)
Windows + linux指令:pip3 install selenium
四:安装 selenium + 浏览器工具的环境步骤
使用selenium + 浏览器最常见的四种组合如下:
1:selenium + PhantomJS
2:selenium + Chrome + chromedriver
3:selenium + Firefox + geckodriver
4:selenium + Edge +
注意:其中后面带有driver就是浏览器驱动程序,PhantomJS是无头浏览器因此不需要驱动(行为都在内存中发生!)
安装步骤:
注意:下面常用的程序都可以在淘宝镜像网站中下载: https://npm.taobao.org/mirrors
第一步:首先确保你的电脑(windows与linux)都安装了这四个浏览器以及 selenium 工具,剩下的就是安装对应的浏览器驱动
PhantomJS下载地址:PhantomJS Mirror (taobao.org)
第二步:下载每个浏览器的驱动(下载windows以及linxu版本)
chromedriver下载地址(下载与chrome版本一致的驱动):ChromeDriver Mirror (taobao.org) 注意:没有一致的版本就下载最接近的
geckodriver下载地址(下载版本最大的那个驱动):geckodriver Mirror (taobao.org)

第三步:下载完成驱动后将驱动解压(所有压缩文件全部解压),剪切到对应文件夹下面
windows:python路径下面的Scripts文件夹下

linux:家目录下的usr文件夹下的bin文件夹放入成功后,将这个驱动程序权限更改为最高权限
注意:在linux下放入指定文件夹下的浏览器驱动程序是解压完成的程序,不是压缩文件!!
对应指令:sudo cp 驱动文件名 /usr/bin 将驱动放入对应文件
sudo chmod 777 /use/bin/驱动文件名

第四步:进行测试,可以正常打开浏览器并且不闪退即可

