https://www.bilibili.com/video/BV1CU4y1N7Sh?p=86
背景介绍 :
陌陌作为聊天平台每天都会有大量的用户在线,会出现大量的聊天数据,通过对聊天数据的统计分析,可以更好的对用户构建精准的用户画像,为用户提供更好的服务以及实现高ROI的平台运营推广,给公司的发展决策提供精确的数据支撑。
目标 :
基于Hadoop和Hive实现聊天数据统计分析,构建聊天数据分析报表
需求 :
(1)统计今日总消息量
(2)统计今日每小时消息量、发送和接收用户数
(3)统计今日各地区发送消息数据量
(4)统计今日发送消息和接收消息的用户数
(5)统计今日发送消息最多的Top10用户
(6)统计今日接收消息最多的Top10用户
(7)统计发送人的手机型号分布情况
(8)统计发送人的设备操作系统分布情况
数据内容 :
数据大小:两个文件共14万条数据
列分隔符: 制表符 \t
数据字典及样例数据