前言
没啥好说的,第二章,爬虫。
爬虫部分/数据清洗部分
一、第一题
BeautifulSoup过时了,改使用BeautifulSoup4进行数据清洗,维基百科进不去,改成百度。
发现后面需要那个网址的表格,蚌埠住了 ,开代理!
# 构造 BeautifulSoup,使用html.parser 解析 ,还有lxml解析格式变成树节点格式soup = BeautifulSoup(html_doc, 'html.parser')
需要使用代理,python requests 代理代码如下:
ssr 需要修改:
代理模式:PAC
代理规则:全局
url = "http://www.google.com/"proxies = {'https': 'https://127.0.0.1:1080','http': 'http://127.0.0.1:1080'}content = requests.get(url=url, proxies=proxies, timeout=2)# 如果没有报错,说明正常print(content)
浏览器验证
代码验证:
修改题目给出的代码:
#url = "http://www.baidu.com"url="https://en.wikipedia.org/wiki/List_of_U.S._states_by_historical_population"proxies = {'https': 'https://127.0.0.1:1080','http': 'http://127.0.0.1:1080'}# 设置代理,r = requests.get(url, proxies=proxies,timeout=3,verify=False)print(r)
PS: 给出的代码是错误的,由于网页变动或者其他,并不能得出结果,具体已经修改,问题是,居然花了一下午?蛋疼,坑真多!
