目标:
    1:掌握什么是selenium以及selenium怎么实现抓取网页数据
    2:掌握怎么查看python安装在哪个路径的指令(win与linux)
    3:掌握怎么安装 selenium 工具(库)
    4:掌握安装 selenium + 浏览器工具的环境步骤

    一:什么是selenium以及selenium怎么实现抓取网页数据

    答:selenium是web自动化测试工具,不是浏览器,它常常配合浏览器来实现网站的自动化测试,也就是说selenium可以自动化操作留浏览器进行一些行为,selenium配合浏览器就可以实现数据的抓取(可见即可得)

    二:怎么查看python安装在哪个路径的指令(win与linux)

    window指令:where python

    image.png

    linux指令:whereis python

    image.png


    三:怎么安装 selenium 工具(库)

    Windows + linux指令:pip3 install selenium



    四:安装 selenium + 浏览器工具的环境步骤

    使用selenium + 浏览器最常见的四种组合如下:

    1:selenium + PhantomJS

    2:selenium + Chrome + chromedriver

    3:selenium + Firefox + geckodriver

    4:selenium + Edge +

    注意:其中后面带有driver就是浏览器驱动程序,PhantomJS是无头浏览器因此不需要驱动(行为都在内存中发生!)

    安装步骤:

    注意:下面常用的程序都可以在淘宝镜像网站中下载: https://npm.taobao.org/mirrors

    第一步:首先确保你的电脑(windows与linux)都安装了这四个浏览器以及 selenium 工具,剩下的就是安装对应的浏览器驱动

    PhantomJS下载地址:PhantomJS Mirror (taobao.org)


    第二步:下载每个浏览器的驱动(下载windows以及linxu版本)

    chromedriver下载地址(下载与chrome版本一致的驱动):ChromeDriver Mirror (taobao.org) 注意:没有一致的版本就下载最接近的

    geckodriver下载地址(下载版本最大的那个驱动):geckodriver Mirror (taobao.org)

    image.png

    第三步:下载完成驱动后将驱动解压(所有压缩文件全部解压),剪切到对应文件夹下面

    windows:python路径下面的Scripts文件夹下

    image.png

    linux:家目录下的usr文件夹下的bin文件夹放入成功后,将这个驱动程序权限更改为最高权限

    注意:在linux下放入指定文件夹下的浏览器驱动程序是解压完成的程序,不是压缩文件!!

    对应指令:sudo cp 驱动文件名 /usr/bin 将驱动放入对应文件
    sudo chmod 777 /use/bin/驱动文件名

    image.png


    第四步:进行测试,可以正常打开浏览器并且不闪退即可

    image.png