爬虫1:去哪儿网站爬虫
- tourjingdianprovince.py:各个省份景点信息获取,对应mysql中 cityjingdian_table表cityjingdiandetail_table表
- tourjingdianzhixiashi.py:直辖市景点信息获取,对应mysql中 cityjingdian_table表和cityjingdiandetail_table表
- tourjiudian.py :酒店信息获取 对应mysql中的cityjiudian_table表
- tourmeishi.py :美食信息获取 对应mysql中的citymeishi_table表和citymeishidetail_table表
- tourmeishi.py :中间件做ip代理和随机UA
- pipelines.py :获取的数据写进mysql
- settings.py :配置文件 (开启管道等操作)
- start.py :启动爬虫
爬虫2:国家数据旅游数据爬虫
- nationalannualtourismdataspider1.py :旅游业发展情况爬虫
- nationalannualtourismdataspider2.py :国内旅游发展情况爬虫
- nationalannualtourismdataspider3.py :国际旅游外汇收入构成爬虫 没用到
- guojilvyouwaihuishourugoucheng.json : 国际旅游外汇收入构成数据 没用到
- guoneilvyouqingkuang.json :国内旅游发展情况数据
- lvyoufazhanqingkuang.json :旅游发展情况数据
- jsondatatomysql1.py :把旅游发展情况数据数据写入mysql 对应mysql中guojilvyouwaihuishourus表
- jsondatatomysql2.py :把国内旅游发展情况数据数据写入mysql, 对应mysql中 chengzhenjumingguoneilvyouzonghuafeis表和nongcunjumingguoneilvyouzonghuafeis表
数据分析
touranalysis.py:读取mysql数据 做一些指标分析再写回mysql
- _全国个省份旅游热度(人数) 对应 mysql _hotjingdianofcity表
- _全国各个省份景点数量 对应mysql _jingdiannumberofcity表
- _全国热门景点top100门票数 对应mysql _top20jingdianticket表
- _景区价格区间数据 对应mysql _avgpriceofjingdiannums表
- _hot20酒店分析 对应MySQl _hot20jiudian表