https://www.bilibili.com/video/BV1CU4y1N7Sh?p=86
    背景介绍
    陌陌作为聊天平台每天都会有大量的用户在线,会出现大量的聊天数据,通过对聊天数据的统计分析,可以更好的对用户构建精准的用户画像,为用户提供更好的服务以及实现高ROI的平台运营推广,给公司的发展决策提供精确的数据支撑。
    目标
    基于Hadoop和Hive实现聊天数据统计分析,构建聊天数据分析报表
    需求
    (1)统计今日总消息量
    (2)统计今日每小时消息量、发送和接收用户数
    (3)统计今日各地区发送消息数据量
    (4)统计今日发送消息和接收消息的用户数
    (5)统计今日发送消息最多的Top10用户
    (6)统计今日接收消息最多的Top10用户
    (7)统计发送人的手机型号分布情况
    (8)统计发送人的设备操作系统分布情况

    数据内容
    数据大小:两个文件共14万条数据
    列分隔符: 制表符 \t
    数据字典及样例数据
    image.png