hackhttp现已开源,仓库地址 https://github.com/BugScanTeam/hackhttp
#coding=utf-8#本项目在python2下面运行from bs4 import BeautifulSoupimport hackhttp# 1. 定义url, 访问url,获取html内容url = "https://movie.douban.com/chart"hh = hackhttp.hackhttp()code, head, html, redirect_url, log = hh.http(url)# 2. 解析html内容, 使用lxml解析器soup = BeautifulSoup(html, "lxml");#content = soup.find_all('div',class_="p12" ) #尝试获取节点,因为calss和关键字冲突,所以改名class_# 3. 从解析的网页对象中获取对应的内容for k in soup.find_all('div',class_='pl2'):#,找到div并且class为pl2的标签a = k.find_all('span') #在每个对应div标签下找span标签,会发现,一个a里面有四组spanprint(a[0].string) #取第一组的span中的字符串
