大数据项目

基于大数据的购物网站数据及行为的分析研究

项目描述: 随着移动互联技术的迅速发展,人们已经离不开网络。本项目主要基于大数据分析,针对于用
户在购物网站的访问数据进行复杂的分析。用统计分析出来的数据,进行相应的服务设计。最终达到用大数据
技术来帮助企业营销或者个人个性化服务的目标。
架构描述:
使用 ZooKeeper+Flume+Hadoop+Hive+Sqoop+Mysql。
责任描述:
1. 使用 Flume 对产生的日志进行收集,Flume 会将收集到的日志自动存储到 HDFS 中。
2. 通过 Hive 进行数据清洗。本项目以天为单位,统计 Page View 页面访问量,独立的访客数(UV)
以及用户的平均访问深度等数据,将分析好的数据存入 Hive 表中。
3. 使用 Sqoop 将数据导出到 Mysql 数据库中,最后通过 web 前端进行数据展示。

火瀑日志文件分析

l 项目描述
服务器中会记录游戏中的事件,每时每刻对所有用户进行数据收集并产生日志存储下来。本项目就是以这些数
据日志为基础,进行大数据分析,收集所有用户所处场景、行为、投诉,同时根据业务场景及多种类型进行分
类统计得出分析结果,进而达到游戏优化、版本更新、策划改进和广告投放等。
l 架构描述
1、使用 Flume 监控日志存放目录,一旦有日志更新,Flume 会在第一时间收集日志并存入 HDFS 中
2、使用 Hadoop 的 MapReduce,编写代码对日志进行清洗和筛选
3、处理完成后的数据根据记录时间存入 HDFS 中
4、使用 Hive 创建外部表管理 HDFS 中存放的数据,根据 HDFS 中存放标记创建分区信息
5、在 Hive 中根据不同需求创建含有所需字段的表筛选数据
6、通过 Sqoop 将数据导入到 MySQL 中,并根据数据进行可视化操作
l 责任描述
使用 Flume 监控日志存放目录,每次日志更新后 Flume 会自动将日志收集过来然后存放到 HDFS 系统指定的
文件夹下。使用 Hive 工具创建外部表管理筛选下来存放在 HDFS 中的数据,然后使用 Sqoop 将数据导出 到
数据库中

火瀑游戏官网访问量分析项目

l 项目描述
对网站进行流量分析是改进网站服务的手段之一,通过获取数据并加以分析得出网站的访问量、受欢迎程度和
网页的内部问题,从而进一步对网站进行优化。收集日志后主要分析出的数据有:页面访问量、独立访客数、
访问次数、跳出率、新增访问 ip、平均在线时长、访问深度。
l 架构描述
1、使用 Zookeeper 分布式协调服务管理 Hadoop 集群,实现集群的高可用
2、在前台页面中加入埋点,用户访问该页面时会获得相应数据保存进日志文件中
3、使用 Flume 将日志文件存入 HDFS 中存储以供离线分析
4、另外将日志输送到 Kafka 消息队列中以供实时分析,将 Kafka 消息队列中的数据输送入 Storm 中,通过
开发不同组件对数据实时分析,然后将数据存入 Hbase 或 Redis 中
l 责任描述
使用 Flume 将产生的日志存入 HDFS 中以供后期离线分析。另外同时将产生的日志文件输送到 Kafka 中。
使用 Storm 实时计算框架获取消息队列中的数据,编写 Spout、Bolt、Topology 组件将所需数据清洗出来, 然
后连接 Hbase,创建相应的数据表将清洗完成的数据存入到 Hbase 中。

火瀑游戏官网分布式部署

l 项目描述
传统网站只能支持少量用户同时访问,为了抗击大量用户高并发的访问网站,需要改变传统架构,实现高并发
和高可用。使用 nginx、MySQL、Redis 和 RabbitMQ 技术实现高可用。
架构描述:
1、 使用nginx服务器,动态的将请求转发到不同的服务器上实现服务器的分布式来有效的防止高并发;
2、 为了防止存入数据库中的数据丢失,配置Mysql数据库的主从复制,并通过Amoeba实现读写分离来降低数据库的访问压力;
3、 在面临大量访问请求是由于数据库查询压力大,配置Redis缓存数据库来分担压力,查询数据库的返回结果存入Redis缓存中来降低多次相同请求重复访问数据库,并且搭建Redis集群实现高可用
4、 为了防止访问量过于庞大时数据库访问压力过大宕机,访问数据库的请求会先进入RabbitMQ队列中,数据库从队列中获取请求来执行,降低数据库的访问压力
责任描述:
配置mysql数据库的主从复制和读写分离,配置Redis缓存降低数据库的压力同时保证Redis本身的高可用

唐唐书斋 网站日志分析系统 ( 第三届 “互联网+ + ”大赛 )

l 项目描述
唐唐书斋网站日志分析系统是参加第三届 “互联网+”大赛时做的一个对唐唐书斋网站的日志分析统,当有客户在网站上面买书或者浏览网站时就会产生大量的日志数据,我们根据这些日志数据分析了以下指标:页面访问时长,跳出率,购物车支付转化率,浏览下单转化率,客户重复购买率,月入总金额等等。将这些指标进行可视化展示,使站长更好的了解用户的需求,分析数据不断调整网站中出现的问题,达到可持续发展的稳定状态。
l 架构描述
Zookeeper +Flume+HDFS+ SparkSQL+sparkstreaming+kafka+Redis+echarts
l 责任描述
1. 我的计算指标是:当天总金额,商品分类的成交金额,各个省的成交总额的实时数据。
2. 使用 SparkSQL 对 ip 日志中的数据与省份 ip 规则表进行匹配提取,将整理好的数据写到内存。
3. 使用 SparkSteaming 的直连方式读取 Kafka 中的数据。
4. 使用 zookeeper 记录实时数据偏移量
5. 在 Executor 端创建 Jedis 连接,将数据存储在 redis。

个人网站流量 分析系统 ( 毕业设计 )

l 项目描述
个人网站日志分析系统是对自己的简历网站进行流量监控的系统,当有人访问我的网站时,就会记录一天之内整个网站中的页面被访问的次数,访问网站的人数,网站新用户增长的情况,一次访问的时间长度,根据这些数据分析,帮助我更好的了解网站目前对用户的粘性大小以及网站对人吸引力,从而使我更好的完善我的网站。
l 架构描述
Nginx+Zookeeper+Flume+HDFS+ MR+Hive+sqoop+Mysql+echarts
l 责任描述:
1. 我的计算指标是:网站点击量,独立访客数,新增 ip 总数,平均访问时长的离线数据。
2. 日志服务器通过 Log4jAppender 发给 FlumAgent 进行数据收集。
3. 使用 FlumAgent 将数据通过随机分发在两个中心服务器上。
4. 把中心服务器的数据按日期存储在 HDFS 上。
5. 用 hive 对 HDFS 上的数据进行清洗 ,并 通过定时任务,使 hive 自己加载数据进行处理。
6. 使用 sqoop 自己导出到 mysql 中。
7. 使用 echarts 可视化展示

一重绿色物流平台(大数据分析模块)

þ 项目描述:基于一重绿色物流平台。实现了对日志信息进行采集、汇总、清洗、聚合、分析的完整过程,并将日志数据分别存储到了离线和实时处理模块中,使得分析系统可以通过离线和实时两个角度对数据进行分析统计。其中,离线模块主要分析用户基本信息、会话相关信息、订单信息、热门品类等业务指标;实时分析模块主要分析用户浏览种类、商品相关指标,实现实时推荐。
þ 架构描述:Flume+HDFS+Hive +Spark+MySql
þ 责任描述:
n 会话分析:利用 SparkSQL 从 hive 中,取出用户访问行为数据,经过计算,分析出不同时长和步长的 session 占比
n 热门品类分析:分析用户访问行为表,计算出各品类被点击、下单、支付的次数,按点击—>下单—>支付的顺序,进行二次排序
n 热门商品分析:分析用户访问行为表,计算出各商品被点击、下单、支付的次数,按点击—>下单—>支付的顺序,进行二次排序
n 订单分析:分析用户访问行为表,分别按品类和商品分析用户取消订单和退款的数据,通过这四个分析指标的数据,了解订单情况

一重绿色物流平台

项目描述:一重绿色冷链平台是一个综合性的 B2B2C 平台。网站采用商家入驻的模式,商家入驻平台提交申请,有平台进行资质审核,审核通过后,商家拥有独立的管理后台录入商品信息。商品经过平台审核后即可发布。平台主要分为网站前台、运营商后台、商家管理后台三个子系统,以及对平台流量进行分析的大数据统计分析模块。
架构描述:Spring+SpringMVC+MyBatis+
SpringBoot+SpringCloud+Maven+MySql+Mycat+Nginx+Redis+RabbitMQ
þ 责任描述:
限时抢购模块
n 接收到用户的秒杀请求,查询 redis 检查商品是否有库存
n 如果有库存,则在 redis 中预减库存,并将用户的秒杀请求存入 RabbitMQ
n 消费 RabbitMQ 中的消息,生成订单,存入订单库,并扣减库存,同时,将该订单 id 存入RabbitMQ,并设置超时时间
n 对于 RabbitMQ 中超时的订单,进入死信队列,对死信队列中的订单,依次去数据库中查询,如果该订单已支付,则不进行操作,如果未支付,则在数据库中取消订单,并在数据库和 redis中恢复库存

金属加工 APP 信息统计分析系统

þ 项目描述:为公司的金属加工 APP 开发的信息统计分析系统。该 APP 为机械从业人员提供服务,在充分利用现有公共文献服务平台巨量的期刊、图书、报告等资源的基础上,提供移动图书馆,专题,常用查询等功能模块。对该 APP 的 5 中类型的用户日志进行离线分析,包括各模块用户访问量,独立访客数,页面跳出率,访问时长,查询关键字等数据,从而对用户兴趣倾向做出分析,完善相关资料,提供更全面的服务。
þ 架构描述: Nginx+Flume+Kafka+Hive+Mysql
þ 责任描述:
n 对用户访问产生的日志进行相应处理后存入 Kafka 不同主题
n Flume 消费 Kafka 中的数据,把数据存入 HDFS(自定义拦截器)
n 通过 Crontab 任务调度,定时把 HDFS 中的数据拷贝到 Hive 中
n 使用 Hive 对用户启动日志进行分析(时间相关的 UDF)
n 将分析结果写入 MySQL,方便可视化展示时的查询

诸葛大师数据平台

描述: 诸葛大师数据平台是面向营销总部运营与管理人员,满足千人千面的用户需求,最终实现提升销售收入、提高运营效率的目标,其应用架构上包括诸葛大师门户系统,诸葛大师神器系统,诸葛大师罗盘系统三大模块;在技术上分成数据采集,数据分析,数据展示三大模块,实时增量数据通过从kafka-storm集群的初步处理后再由spark集群从kafka中拉流通过sparkStreaming处理Libra聚流处理成近实时数据流后存储到实时数仓中,实时数仓中主要存储Druid数据集,Kylin数据集,ES数据集,然后再由转换成json格式数据通过RSF通信传输到数据展示系统,离线增量数据会增量的被flume采集到hdfs中再通过hive处理成数仓后经过MR任务和Spark任务离线分析后形成数据聚合层后后导入到由DB2和mysql构成的诸葛DB中后经过JDBC查询显示在数据展示层,展示层结合与cognos平台还可产生数据报表
主要职责:
1负责生产问题排查与处理
2对接其他接入部门和同部门其他小组接入使用提供技术支持
3参与离线计算模型和实时计算模型的设计与对离线计算功能整体实现
4部分实时计算功能的实现

翻东西网上购物系统(课设项目)-java

项目描述: 翻东西网上购物系统针对的是在校大学生可以将闲置的物品挂卖到本系统上进行销售,本系统实现
注册登录,浏览商品,架构收藏,支付结算等功能,为在校大学生提供了一个方便的闲置商品购物平台,对于
大四毕业生来说是尤为喜爱。
架构描述:
使用 SpringMVC+Spring+Mybatis 框架,使用 Nginx+SSO 单点登录+redis+数据库双机热备
+ElasticSearch 搜索引擎等互联网架构技术。
责任描述:
1. 使用 Nginx 反向代理使服务器实现负载均衡,对二级域名的分发。
2. 为了保证数据存储的可靠性,在数据库的设计方面采用双机热备技术,同时使用 MyCat 数据库中间件实
现数据库读写分离,提高了数据库的使用效率。
3. 由于整个项目涉及到多个系统,使用 SSO 单点登录来实现只需登录一次便可对多个系统进行访问。
4.使用使用 Redis 缓存技术,把频繁操作的数据缓存起来减轻数据库的压力。

基于大数据的购物网站数据及行为的分析研究(毕设项目)

项目描述: 随着移动互联技术的迅速发展,人们已经离不开网络。本项目主要基于大数据分析,针对于用
户在购物网站的访问数据进行复杂的分析。用统计分析出来的数据,进行相应的服务设计。最终达到用大数据
技术来帮助企业营销或者个人个性化服务的目标。
架构描述:
使用 ZooKeeper+Flume+Hadoop+Hive+Sqoop+Mysql。
责任描述:
1. 使用 Flume 对产生的日志进行收集,Flume 会将收集到的日志自动存储到 HDFS 中。
2. 通过 Hive 进行数据清洗。本项目以天为单位,统计 Page View 页面访问量,独立的访客数(UV)
以及用户的平均访问深度等数据,将分析好的数据存入 Hive 表中。
3. 使用 Sqoop 将数据导出到 Mysql 数据库中,最后通过 web 前端进行数据展示。


苏宁易购中台大数据部门平台研发部
平台 描述: 诸葛大师数据平台是面向营销总部运营与管理人员,满足千人千面的
用户需求,最终实现提升销售收入、提高运营效率的目标,其应用架构上包括诸葛大师
门户系统,诸葛大师神器系统,诸葛大师罗盘系统三大模块;在技术上分成数据采集,
数据分析,数据展示三大模块,实时增量数据通过从kafka-storm集群的初步处理后再
由spark集群从kafka中拉流通过sparkStreaming处理Libra聚流处理成近实时数据流
后存储到实时数仓中,实时数仓中主要存储Druid数据集,Kylin数据集,ES数据集,然
后再由转换成json格式数据通过RSF通信传输到数据展示系统,离线增量数据会增量的
被flume采集到hdfs中再通过hive处理成数仓后经过MR任务和Spark任务离线分析后
形成数据聚合层后后导入到由DB2和mysql构成的诸葛DB中后经过JDBC查询显示在数
据展示层,展示层结合与cognos平台还可产生数据报表
主要职责:
1负责生产问题排查与处理
2对接其他接入部门和同部门其他小组接入使用提供技术支持
3参与离线计算模型和实时计算模型的设计与对离线计算功能整体实现
4部分实时计算功能的实现

用户行为分析系统

1、项目简介:对用户行为分析是改进网站服务的重要手段之一,通过埋点服务器将网页 url 信息按照需求经过收集、清洗、转化、加载到数据库中,通过搭建实时计算系统进行数据的计算、分析获取用户在网站的行为,可以分析出哪些内容受到欢迎,哪些页面存在问题,从而使网站改进活动更具有针对性。
2、技术架构:JS + Hadoop + Zookeeper + Flume + Hive + Sqoop + MySQL 等
3、责任描述:通过埋点服务器,在用户访问的页面嵌入 JS 脚本,将用户访问日志提交到日志服务器,通过配置 log4j 文件,将数据收集到 flume,最终存储到 hdfs 系统中;创建外部分区表,管理 hdfs 上存储的数据,建立数据清洗之后的表,去除多余字段,保留需要的字段,统计相关指标,插入创建的业务表中。

BI系统

1、项目简介:BI 系统是北京微播易科技股份有限公司旗下的一款数据可视化分析平台。该系统的架构模式主要包括数据层、业务层和应用层三部分。数据层基本上就是 ETL 过程,是将数据从来源端 hive 数据仓库经过抽取、转换、加载至目标端 ES 的过程。业务层主要是 OLAP和 Data Mining 的过程。在应用层里主要运用 node.js 脚本语言将数据展示。
2、技术架构: node.js + ElasticSearch + JS + Session + Cookie + mysql + hive + scala +
sparksql 等
3、责任描述:通过 sparksql 进行数据清洗,生成数据表,将数据写入到 hive 表新建 hive 外部表将数据写入到 ElasticSearch 中,ElasticSearch 将数据存储起来运用 ElasticSearch 的 search API 和 node.js 脚本语言完成后端开发,将数据返回到页面。


项目名称: 公司 实时数据分析、用户画像、风险控制 平台

项目描述:
该平台对公司线上业务全线路的用户活动数据进行实时分析,为线上业务提供低延迟的用户数据反馈,完成跨策略的用户数据打通,实现既定的策略要求。对线上 亿级日活用户进行实时画像,实时喜好分析,为 推荐系统提供数据支撑。同时,基于用户在活动中的参与行为的实时分析,完成 亿级日活用户的 风控分析、防范羊毛党的非法行为,保障公司实际经济效益。
技 术 描 述 : Kafka+Storm+SparkMlib+Redis+LogisticRegressionModel 算 法+Kmeans 算 法+Springboot+SSM+Hive
责任描述:
1. 使用 Kafka 完成线上用户 TB 级数据的收集;
2. 负责设计及实现基于 Redis、Hbase 的线上 实时用户行为库;
3. 负责设计及实现基于 Redis、Hbase 的 实时 用户安全等级库;
4. 使用 Storm 实现 亿级 日活用户 行为及喜好实时分析,并实时更新用户喜好库;
5. 使用 Storm,Redis 实现亿级用户的 运营商标签、职业标签、年代标签等的画像维度扩展;
6. 使用 GeoHash 算法实现用户 商圈标签的画像;
7. 修改 SparkMlib 中 多分类逻辑回归算法(LogisticRegressionModel) 源码,以实现公司 推荐系统的 冷启动算法;
8. 负责基于 Hive、Spark 对线上业务数据 ODS 层数据进行处理导入 DM 层;
9. 使用 Storm 及 Redis 实时用户行为库,完成 亿级 用户异常行为实时侦测、风险控制、并实时增量更新用户安全等级库;
10. 使用 Springboot+SSM 完成推荐系统、风控系统接口的开发;

项目名称: 利码联能力开放平台数据分析模块

项目描述:
该项目为利码联平台提供客户合作数据分析的数据支撑,完成 TB级营销数据指标的秒级实时统计,完成 TB 级用户数据的维度扩展、数据清洗环境,并提供可靠的亿级用户行为分析、用户属性分析及用户画像等分析指标。
技术描述:Hadoop+Kafka+Redis+Flink+Hive+Zookeeper+MySQL+Sqoop+MapReduce
责任描述:
1. 负责平台 数据 Pipeline 设计及实现;
2. 负责平台实时、离线数据 ETL 、DM 层数据处理等环节;
3. 编写 Hive 脚本,开发 MapReduce 完成平台各个 离线分析指标的计算;
4. 使用 Flink 实现平台分项目扫码 pv、累计 uv 等 TB 级数据的 实时统计指标的实现;
5. 使用 Flink 实现 数据维度扩展,完成用户运营商、活动喜好程度、奖品等级、新老用户标签等的 实时 用户画像;
6. 使用 Kmeans 算法,并使用 springboot 开发相应实时接口,完成 实时用户职业画像。


项目名称: 公司 实时用 高可用 Data Pipeline 、数仓建设

项目描述:
公司日志数据量及实时需求日益增长,老旧的数据链路的数据延迟日益增大,已无法满足实时统计、用户行为分析、用户画像、推荐系统、风控的实时性及稳定性。因此设计并开发了基于 zookeeper、kafka 的高可用数据链路,并为了降低线上业务对 kafka 集群的硬性连接设计开发了分布式日志代理。
技术描述: 阻塞式队列+SSM+Kafka+Springboot+Zookeeper+ 分布式高可用 logAgent 集群
责任描述:
1. 独立完成 实时数据链路的 高可用架构设计及实现;
2. 独立完成 Kafka 主从集群高可用的设计及实现;
3. 使用 Springboot+SSM 完成 分布式用 高可用 logAgent 的设计与开发;
4. 使用 ArrayBlockingQueue 模拟 Kafka 消息处理机制在 logAgent 节点中实现初级 消息缓存,降低对 Kafka 集群的压力, 提高数据的可靠性;
5. 采用式 分布式 Master-worker 理念,基于 Zookeeper,开发 logAgentMaster 节点,实现对worker 节点的存活监控、性能监控、自动恢复机制 、告警等的功能;
6. 搭建 Kafka Manager 实现对线上高可用集群的监控、管理;

项目名称: 中国电信集团大数据能力开放平台

项目描述:
该项目在电信集团内部大数据开发资源进行统一规划管理的基础上,完成集团内部大数据开发平台、数据挖掘平台等平台的实现,为集团提供一个企业级大数据能力开放平台。
技术描述:Nginx+Kafka+Redis+HBase+ ZooKeeper +Hadoop+Kerbose+Pageworkthrough
责任描述:
1. 编写 MapReduce 完成 Hive 表 PB 级 级 数据分布式导出功能的设计、开发及优化;
2. 负责平台 Hive 数据导出功能的界面设计;
3. 负责平台 Hive 数据导出功能的流程及可视化开发;
4. 参与开发工具模块 基于 Antlr 的 的 sql 解析实现;
5. 参与 Hive 脚本结果数据加密环节的开发;
6. 参与项目技术及开发瓶颈的讨论与解决;
7. 负责 基于 Kafka 的审批子系统的开发;



特殊旅客管理系统 – 2016/04-2016/11

项目说明
一套内部针对常投诉、恶意索赔旅客的管理系统,其功能是为了实现全国联动对于特殊旅客进行统一跟踪管理,记录用户行为,实现用户画像制作,规避服务风险,实现可视化信息预警,提供服务决策支持,为内部员工管理培训提供案例库。
责任描述
1、 负责可视化的设计,通过地图热点、环形图等呈现实时特殊旅客处理情况
2、 负责SQL语句的设计与规范
3、 负责接口文件的编写

WorldTracer档案操作文件仓库开发 – 2017/3-2017/11

项目说明
这是一套收集数据的系统。它基于WorldTracer行李运输信息系统供应商提供的接口,对WorldTracer流入流出的信息进行拦截存储,定期转储到HDFS进行离线管理,为后期不定期的数据挖掘工作提供数据源
责任描述
1、 负责设计Flume部署模型,定制高可用策略,确保数据不丢失
2、 负责设计Spark数据处理策略

行李运输车辆实时监控调度系统 – 2015/11-2017/02

项目说明
这是一套对行李运输车辆进行实时监控的系统,能实现调度建议的提供。它基于雷达定位感知,对在机场作业范围内的行李运输车辆进行实时监控调度,进行数据存储,对行车速度、车辆轨迹、行车范围进行监控,对于超速、超范围驾驶,以及出现在非指定范围的情况进行警报,根据调度任务规划选区最优调度对象以及最短路径,给调度员提供调度信息支持。
责任描述
1、 负责调研实际业务需求,设计最优任务调度方案的计算算子
2、 协助完成数据仓库的设计工作
3、 定期根据监控情况,提交运行分析报告

行李追踪分布式系统部署 – 2016/11 – 2018/02

项目说明
这是一套用于实时跟踪行李轨迹的系统。根据IATA航空联盟的要求,航空公司需对行李信息进行跟踪。这套系统引入RFID技术,结合值机岛行李收运信息与行李分拣系统的定点扫描信息,将获取到的信息注入数据库,最终将信息接入内部APP的行李追踪模块、分拣系统槽口显示屏、手持PDA终端等终端中,并将实时信息映射到可视化大屏。
责任描述
1、 参与Hadoop集群的搭建工作
2、 基于调研结果,参与Spark算子的设计工作
3、 参与HBase表结构的设计
4、 负责可视化呈现的设计

行李服务质量核心指标挖掘与建模 – 2017/03-2018/03

项目说明
这个是一个旨在提升旅客对行李服务质量满意度的系统。通过爬虫、问卷调研、投诉信息等方法获取旅客的服务体验情况,根据CRISP-DM模型实现项目,挖掘影响行李服务的核心指标,搭建指标监测模型,根据模型反馈的结果,制定预警值,并抽取实时关键指标为管理决策提出合理化建议。
责任描述
1、 负责项目的统筹管理,成功在半年内将行李类服务满意度提升了4.3%
2、 负责核心指标的建模、调试工作