- 项目目标
- · 1.如何一步步构建我们的实时处理系统(Flume+Kafka+Storm+hbase+mysql);
- · 2.hive。MapReduce的离线批处理流程
- · (Flume+hdfs+hive+mapreduce+sqoop+mysql);
- · 3.实时处理网站的用户访问日志,并统计出某一天的订单总额,每个省份某一天的订单总额;
- · 4.实时处理某个类别,某个商品某一天或者每一月的订单量和交易额;
- · 5.统计出前10的商品/类别
- · 5.离线处理该网站的pv,uv,每一省份某一天的pv,uv;(HIVE/MapReduce)
- · 6.将实时分析出的数据动态地展示在我们的前台页面上;(servlet+jsp)
- 为什么要记录访问日志的行为
- 日志的产生
- 1. 实现功能一:实时统计出某一天的总交易额和每个省份某一天的总交易额
项目目标
· 1.如何一步步构建我们的实时处理系统(Flume+Kafka+Storm+hbase+mysql);
· 2.hive。MapReduce的离线批处理流程
· (Flume+hdfs+hive+mapreduce+sqoop+mysql);
· 3.实时处理网站的用户访问日志,并统计出某一天的订单总额,每个省份某一天的订单总额;
· 4.实时处理某个类别,某个商品某一天或者每一月的订单量和交易额;
· 5.统计出前10的商品/类别
· 5.离线处理该网站的pv,uv,每一省份某一天的pv,uv;(HIVE/MapReduce)
· 6.将实时分析出的数据动态地展示在我们的前台页面上;(servlet+jsp)
为什么要记录访问日志的行为
通过日志我们可以得到网站页面的访问量,网站的黏性,推荐用户行为分析,
是指在获得网站访问量基本数据的情况下,对有关数据进行统计、分析,从中发现用户访问网站的规律,
并将这些规律与网络营销策略等相结合,
从而发现目前网络营销活动中可能存在的问题,并为进一步修正或重新制定网络营销策略提供依据。
这是狭义的只指网络上的用户行为分析
日志的产生
页面的点击,搜索
日志产生的日志格式 ip 点击时间 点击类别 对应的url 访问状态 用户名
日志的获取路径:数据库中,从网站直接发送,爬虫
1. 实现功能一:实时统计出某一天的总交易额和每个省份某一天的总交易额
日志字段以及说明
ip | 订单编号 | 订单金额 | 商品类别 | 商品名称 | 商品价格 | 商品数据 | 订单时间 |
---|---|---|---|---|---|---|---|
192.168.53.123 | 0-001 | 100 | 手机 | 小米8 | 99 | 2 | 20181112(timeStamp) |