3.爬取豆瓣电影榜单 - 《windows逆向大师之路》

hackhttp现已开源，仓库地址 https://github.com/BugScanTeam/hackhttp

#coding=utf-8
#本项目在python2下面运行
from bs4 import BeautifulSoup
import hackhttp
# 1. 定义url, 访问url,获取html内容
url = "https://movie.douban.com/chart"
hh = hackhttp.hackhttp()
code, head, html, redirect_url, log = hh.http(url)
# 2. 解析html内容, 使用lxml解析器
soup = BeautifulSoup(html, "lxml");
#content = soup.find_all('div',class_="p12" )   #尝试获取节点，因为calss和关键字冲突，所以改名class_
# 3. 从解析的网页对象中获取对应的内容
for k in soup.find_all('div',class_='pl2'):#,找到div并且class为pl2的标签
   a = k.find_all('span')       #在每个对应div标签下找span标签，会发现，一个a里面有四组span
   print(a[0].string)           #取第一组的span中的字符串