项目目标

· 1.如何一步步构建我们的实时处理系统(Flume+Kafka+Storm+hbase+mysql);

· 2.hive。MapReduce的离线批处理流程

· (Flume+hdfs+hive+mapreduce+sqoop+mysql);

· 3.实时处理网站的用户访问日志,并统计出某一天的订单总额,每个省份某一天的订单总额;

· 4.实时处理某个类别,某个商品某一天或者每一月的订单量和交易额;

· 5.统计出前10的商品/类别

· 5.离线处理该网站的pv,uv,每一省份某一天的pv,uv;(HIVE/MapReduce)

· 6.将实时分析出的数据动态地展示在我们的前台页面上;(servlet+jsp)

为什么要记录访问日志的行为

通过日志我们可以得到网站页面的访问量,网站的黏性,推荐用户行为分析,
是指在获得网站访问量基本数据的情况下,对有关数据进行统计、分析,从中发现用户访问网站的规律,
并将这些规律与网络营销策略等相结合,
从而发现目前网络营销活动中可能存在的问题,并为进一步修正或重新制定网络营销策略提供依据。
这是狭义的只指网络上的用户行为分析

日志的产生

页面的点击,搜索
日志产生的日志格式 ip 点击时间 点击类别 对应的url 访问状态 用户名
日志的获取路径:数据库中,从网站直接发送,爬虫

1. 实现功能一:实时统计出某一天的总交易额和每个省份某一天的总交易额

日志字段以及说明

ip 订单编号 订单金额 商品类别 商品名称 商品价格 商品数据 订单时间
192.168.53.123 0-001 100 手机 小米8 99 2 20181112(timeStamp)