爬虫1:去哪儿网站爬虫

image.png

  1. tourjingdianprovince.py:各个省份景点信息获取,对应mysql中 cityjingdian_table表cityjingdiandetail_table表
  2. tourjingdianzhixiashi.py:直辖市景点信息获取,对应mysql中 cityjingdian_table表和cityjingdiandetail_table表
  3. tourjiudian.py :酒店信息获取 对应mysql中的cityjiudian_table表
  4. tourmeishi.py :美食信息获取 对应mysql中的citymeishi_table表和citymeishidetail_table表
  5. tourmeishi.py :中间件做ip代理和随机UA
  6. pipelines.py :获取的数据写进mysql
  7. settings.py :配置文件 (开启管道等操作)
  8. start.py :启动爬虫

爬虫2:国家数据旅游数据爬虫

image.png

  1. nationalannualtourismdataspider1.py :旅游业发展情况爬虫
  2. nationalannualtourismdataspider2.py :国内旅游发展情况爬虫
  3. nationalannualtourismdataspider3.py :国际旅游外汇收入构成爬虫 没用到
  4. guojilvyouwaihuishourugoucheng.json : 国际旅游外汇收入构成数据 没用到
  5. guoneilvyouqingkuang.json :国内旅游发展情况数据
  6. lvyoufazhanqingkuang.json :旅游发展情况数据
  7. jsondatatomysql1.py :把旅游发展情况数据数据写入mysql 对应mysql中guojilvyouwaihuishourus表
  8. jsondatatomysql2.py :把国内旅游发展情况数据数据写入mysql, 对应mysql中 chengzhenjumingguoneilvyouzonghuafeis表和nongcunjumingguoneilvyouzonghuafeis表

数据分析

image.png
touranalysis.py:读取mysql数据 做一些指标分析再写回mysql

  1. _全国个省份旅游热度(人数) 对应 mysql _hotjingdianofcity表
  2. _全国各个省份景点数量 对应mysql _jingdiannumberofcity表
  3. _全国热门景点top100门票数 对应mysql _top20jingdianticket表
  4. _景区价格区间数据 对应mysql _avgpriceofjingdiannums表
  5. _hot20酒店分析 对应MySQl _hot20jiudian表