第1周-实现豆瓣读书主页的存储 - 《爬虫课程实验报告》

学期：2021-2022学年第一学期

学院	大数据与智能工程学院	年级、专业、班	18级数据科学与大数据技术（专升本）一班	姓名		学号
实验项目名称		实现豆瓣读书主页的存储

实验学时： 3h 同组学生姓名：王美琴、尤博欣、周青青、李昕辰实验地点： 9317
实验日期：实验成绩：批改教师：批改时间：
指导教师评阅：

实验目的：编写程序，实现豆瓣读书主页数据存储
实验原理：requests请求
实验环境：win10、python3.9、vscode、edge
实验步骤：
1. Requests网页请求，获取网页源代码
2. 返回豆瓣读书主页数据保存为html文件

核心代码：

import urllib.request as urlreq
url=r"https://www.douban.com/"
header={'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:92.0) Gecko/20100101 Firefox/92.0'}
ret=urlreq.Request(url,headers=header)
response=urlreq.urlopen(ret) 
print(response.getcode())
data = response.read().decode("utf-8")
print(data)
with open("douban.html","w",encoding="utf-8") as file:   
 file.write(data)
print("--保存好了--")

实验结果及分析：

通过requests库,并添加网页请求头，使用代理IP，请求网页url，得到网页数据源代码，且将数据进行整理提取，最后存入html文件。

实验总结：

通过这次实验豆瓣读书主页存储的实验，小组成员了解到python爬虫的基本框架与操作具体化，同时学习到了网络爬虫的定义与技术体系，还对云服务器的重要性有了更深的认识，在云服务器上爬虫可以一直运行，但是在本地电脑爬虫要一直运行电脑就不能关机。。