Selenium 是用于浏览器自动化的 Python 模块。 您可以使用它来抓取 html 代码,该网页由什么构成:超文本标记语言(HTML)。
要获取它,首先启动 Web 浏览器并加载页面。 然后,您可以获取它。 为此,必须安装 Web 驱动程序。
获取 html
Selenium 获取 html
下面的代码启动 Firefox Web rbowser,使用get()
方法打开一个网页,最后使用browser.page_source
存储该网页 html。
#_*_coding: utf-8_*_
from selenium import webdriver
import time
# start web browser
browser=webdriver.Firefox()
# get source code
browser.get("https://en.wikipedia.org")
html = browser.page_source
time.sleep(2)
print(html)
# close web browser
browser.close()