学期:2021-2022学年第一学期

    学 院 大数据与智能工程学院 年 级、 专 业、 班 18级数据科学与大数据技术(专升本)一班 姓 名
    学号
    实验项目 名称 实现豆瓣读书主页的存储

    实验学时: 3h 同组学生姓名: 王美琴、尤博欣、周青青、李昕辰 实验地点: 9317
    实验日期: 实验成绩: 批改教师: 批改时间:
    指导教师评阅:

    1. 实验目的:编写程序,实现豆瓣读书主页数据存储
    2. 实验原理:requests请求
    3. 实验环境 :win10、python3.9、vscode、edge
    4. 实验步骤:
      1. Requests网页请求,获取网页源代码
      2. 返回豆瓣读书主页数据保存为html文件

    核心代码:

    1. import urllib.request as urlreq
    2. url=r"https://www.douban.com/"
    3. header={'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:92.0) Gecko/20100101 Firefox/92.0'}
    4. ret=urlreq.Request(url,headers=header)
    5. response=urlreq.urlopen(ret)
    6. print(response.getcode())
    7. data = response.read().decode("utf-8")
    8. print(data)
    9. with open("douban.html","w",encoding="utf-8") as file:
    10. file.write(data)
    11. print("--保存好了--")
    1. 实验结果及分析:

    通过requests库,并添加网页请求头,使用代理IP,请求网页url,得到网页数据源代码,且将数据进行整理提取,最后存入html文件。

    1. 实验总结:

    通过这次实验豆瓣读书主页存储的实验,小组成员了解到python爬虫的基本框架与操作具体化,同时学习到了网络爬虫的定义与技术体系,还对云服务器的重要性有了更深的认识,在云服务器上爬虫可以一直运行,但是在本地电脑爬虫要一直运行电脑就不能关机。。