- 数据流程:数据产生,数据采集和传输,数据存储处理,数据应用。
- 数据源头系统的类型
- 业务系统:pos销售系统、订单/库存/供应链管理的ERP系统、财务系统等
- web系统
- 手机app
- 外部系统(爬虫)
- 人工整理
- 数据埋点(SDK)
- 数据采集和传输
- sqoop:用于hive于mysql等关系型数据库
- flume:实时的数据采集,可以收集诸如日志,时间等数据
- kafka:由于flume采集数据的速度和下游处理的速度通常不同步,因此实时平台会用一个消息中间件来缓冲kafka。高吞吐率。类似的中间件有rabbitMQ,activeMQ,zeroMQ
- 数据存储处理
- 存储:hbase,mysql,redis缓存数据库提供
- hbase:列式存储系统,需要实时读写并随机访问超大规模数据集等场景hbase不是关系型数据库,也不支持sql
- 表特点:大(上亿行,上百万行),列式存储,
- 稀疏:为空(null)的列并不占用存储空间,因此表可以设计非常稀疏
- 数据多版本:每个单元中的数据可以有多个版本
- 数据类型单一:HBase的数据都是字符串,没有类型。
- hbase:列式存储系统,需要实时读写并随机访问超大规模数据集等场景hbase不是关系型数据库,也不支持sql
- 计算:mapreduce,spark,storm,flink,beam
- 存储:hbase,mysql,redis缓存数据库提供
- 数据应用
- Drill:实时大数据分布式查询引擎。可以处理PB级别数据。
- tensorflow:为了机器学习和神经网络开发。是基于数据流图的处理框架。
