原文: https://pythonbasics.org/selenium_get_html/

Selenium 是用于浏览器自动化的 Python 模块。 您可以使用它来抓取 html 代码,该网页由什么构成:超文本标记语言(HTML)。

要获取它,首先启动 Web 浏览器并加载页面。 然后,您可以获取它。 为此,必须安装 Web 驱动程序。

获取 html

Selenium 获取 html

下面的代码启动 Firefox Web rbowser,使用get()方法打开一个网页,最后使用browser.page_source存储该网页 html。

  1. #_*_coding: utf-8_*_
  2. from selenium import webdriver
  3. import time
  4. # start web browser
  5. browser=webdriver.Firefox()
  6. # get source code
  7. browser.get("https://en.wikipedia.org")
  8. html = browser.page_source
  9. time.sleep(2)
  10. print(html)
  11. # close web browser
  12. browser.close()

Selenium 获取 HTML - 图1

下载示例