1、将log日志进行清洗,获取到时间、IP、流量、访问地址(课程类型、课程代码)、HTTP状态码信息。

2、通过sparkcontext将处理好的初步数据存储到dfs中。(或者hive,后续操作,通过IDEA编程直接存入hive数据库中)

3、通过JDBC方式连接hive,并对其进行操作。

4、使用sparkSQL编程对hive中的数据进行处理,将得到的数据存入到MySQL中。(具体数据,同一个IP出现的次数、访问成功比例、学习最多次数的城市、最受欢迎的课程(每个城市),进行相应的推荐。

5、Echart+VUE进行展示。