hackhttp现已开源,仓库地址 https://github.com/BugScanTeam/hackhttp

    1. #coding=utf-8
    2. #本项目在python2下面运行
    3. from bs4 import BeautifulSoup
    4. import hackhttp
    5. # 1. 定义url, 访问url,获取html内容
    6. url = "https://movie.douban.com/chart"
    7. hh = hackhttp.hackhttp()
    8. code, head, html, redirect_url, log = hh.http(url)
    9. # 2. 解析html内容, 使用lxml解析器
    10. soup = BeautifulSoup(html, "lxml");
    11. #content = soup.find_all('div',class_="p12" ) #尝试获取节点,因为calss和关键字冲突,所以改名class_
    12. # 3. 从解析的网页对象中获取对应的内容
    13. for k in soup.find_all('div',class_='pl2'):#,找到div并且classpl2的标签
    14. a = k.find_all('span') #在每个对应div标签下找span标签,会发现,一个a里面有四组span
    15. print(a[0].string) #取第一组的span中的字符串