hackhttp现已开源,仓库地址 https://github.com/BugScanTeam/hackhttp
#coding=utf-8
#本项目在python2下面运行
from bs4 import BeautifulSoup
import hackhttp
# 1. 定义url, 访问url,获取html内容
url = "https://movie.douban.com/chart"
hh = hackhttp.hackhttp()
code, head, html, redirect_url, log = hh.http(url)
# 2. 解析html内容, 使用lxml解析器
soup = BeautifulSoup(html, "lxml");
#content = soup.find_all('div',class_="p12" ) #尝试获取节点,因为calss和关键字冲突,所以改名class_
# 3. 从解析的网页对象中获取对应的内容
for k in soup.find_all('div',class_='pl2'):#,找到div并且class为pl2的标签
a = k.find_all('span') #在每个对应div标签下找span标签,会发现,一个a里面有四组span
print(a[0].string) #取第一组的span中的字符串