1. 网络收集电影数据-爬虫
电影天堂网爬取分析
网站: https://www.ttdytt.net/
无反爬虫限制,如下图:
分为如下:
- 动作电影 https://www.ttdytt.net/dongzuodianying/
- 科幻电影 https://www.ttdytt.net/kehuandianying/
- 恐怖电影 https://www.ttdytt.net/kongbudianying/
- 喜剧电影 https://www.ttdytt.net/xijudianying/
- 爱情电影 https://www.ttdytt.net/aiqingdianying/
- 剧情电影 https://www.ttdytt.net/juqingdianying/
- 战争电影 https://www.ttdytt.net/zhanzhengdianying/
- 动画片 https://www.ttdytt.net/donghuapian/
- 纪录片 https://www.ttdytt.net/jilupian/
以上每类电影都是一样的页面结构,按人气排序抓取比较方便。
动作电影-按人气:https://www.ttdytt.net/dongzuodianying/top/1.html
按人气页面分析:
分为两部分,上边是页面详情,下边是分页。然后页面详情取一个item。
先爬取总页数,然后分页爬取详情即可。
29视频网站爬取分析
网站:http://www.29spc.com
网站午
分为以下几个模块,每个模块都是一样的页面结构:
- 动作 http://www.29spc.com/dongzuo/
- 喜剧 http://www.29spc.com/xiju/
- 爱情 http://www.29spc.com/aiqing/
- 科幻 http://www.29spc.com/kehuan/
- 恐怖 http://www.29spc.com/kongbu/
- 战争 http://www.29spc.com/zhanzheng/
- 剧情 http://www.29spc.com/juqing/
上边是分页,下边是总页数,点击item打开是详情页,可以在线播放
在线播放是一个iframe
爬取思路:
先爬取总分页,然后分页爬取每个页面,然后每个页面的每个详情页,记录电影播放的iframe
电影天堂网站爬取分析
网站:https://www.ygdy8.net/
无反爬虫限制
网站分为以下模块:
- 电影
- 电视剧
- 综艺
- 动漫资源 https://www.ygdy8.net/html/dongman/index.html
页面结构分析:
分页模式,上边是页面详情,下边是分页。先获得总页数,然后分页爬取即可。
电影,电视类别的都可以《》中获得电影名称如下图
综艺和动漫需要去掉[]中的文字
2. 存储
暂存MySQL,数据大了再优化。