大数据生态圈

下图是中国信通院企业采购大数据软件调研报告(2017年),从企业的角度来看,有53.9%的企业选择了开源软件商业版,有32.7%的企业选择了开源软件社区版,总计共有86.6%的企业选择基于开源软件构建自己的大数据处理业务。不难发现,目前国内开源发展情况与全球趋势是一致的。
image.png
移动互联网把网络化数据社会与现实社会有机融合、互动协调,形成大数据感知、管理、分析与应用服务的新一代信息技术架构,并由大数据垂直应用形成互为增益的闭环生态系统。将全球大数据生态分为七大阵营。

大数据基础架构阵营(INFRASTRUCTURE)

image.png

大数据分析阵营(**ANALYTICS & MACHINE INTELLIGENCE**)

image.png

大数据应用阵营(APPLICATIONS - ENTERPRISE & INDUSTRY)

image.png

架构与分析跨界阵营(CROSS-INFRASTRUCTURE/ANALYTICS)

image.png

大数据开源阵营(OPEN SOURCE)

image.png

数据源与API阵营(DATA SOURCES & APIs)

image.png

孵化器与培训阵营(**DATA RESOURCES**)

image.png
七大阵营包括大数据基础架构阵营、大数据分析阵营、大数据应用阵营、架构与分析跨界阵营、大数据开源阵营、数据源与API阵营和孵化器与培训阵营。通过这些不同阵营的合作,可以为企业和组织提供端到端的完整大数据解决方案。

开源生态圈

■ Hadoop

image.png

■ Spark

Spark生态系统有一个简称叫做BDAS,那么什么叫做BDAS?BDAS其实就是Berkeley Data Analytics Stack的简写。
sss.png
2.png

■ Flink

1.png
数据流图:
flink-home-graphic.png
内部生态:
1a.png
1a.png
外部生态:
222222222222222.png
AI生态:
1a.png
容器化:
1a.png
云生态:
1a.png

■ FunsionInsight(商业软件)

FusionInsight是华为面向众多行业客户推出的,基于Apache开源社区软件进行功能增强的企业级大数据存储、查询和分析的统一平台。它以海量数据处理引擎和实时数据处理引擎为核心,并针对金融、运营商等数据密集型行业的运行维护、应用开发等需求,打造了敏捷、智慧、可信的平台软件、建模中间件及OM系统,让企业可以更快、更准、更稳的从各类繁杂无序的海量数据中发现全新价值点和企业商机。
FusionInsight HD:
华为FusionInsight HD是一个分布式数据处理系统,对外提供大容量的数据存储、分析查询和实时流式数据处理分析能力。
1.jpg
2.jpg
1a.png
FusionInsight Libra
原名MPPDP/GaussDB 200,是华为云提供的一款MPP数据仓库,基于Postgres-XC研发。
FusionInsight LibrA V100R002C80SPC502 产品文档 01.jpg

■ Cloudera(逐步开源)

Cloudera成立于2008年,在企业和大型机构在寻求解决棘手的大数据问题时,往往会使用开源软件基础架构Hadoop的服务。Cloudera提供一个可伸缩,稳定,综合的企业级数据管理平台,用于管理快速增长的数据,使用户可以快速部署和管理Hadoop 及相关大数据处理框架,操作、分析企业级数据,并保证数据的安全性。
2019年7月10日,合并(Cloudera与Hortonworks合并)后的Cloudera宣布了新的开源许可模式,并计划对所有产品的新版本实施许可证变更,不追溯已经发布的版本,合并后产品命名:Cloudera Data Pladfrom(CDP)。
cdh-diagram1.png
L3Byb3h5L2h0dHBzL2ltYWdlczIwMTguY25ibG9ncy5jb20vY2.jpg
Cloudera Manager免费与收费版的对比:

CDH features 免费版 付费版
Deployment、Configuration & Management
Automated Deployment & Hadoop Readiness Checks 自动化部署及快速检查
Install the complete CDH stack in minutes and ensure optimal settings 安装完整的CDH及优化配置
Service Management 服务管理
Configure and manage all CDH services, including Impala and Search, from a central interface 提供统一的界面管理与配置全部的CDH服务,包括cloudera impala及cloudera search
Security Management 安全
Configure and manage security across the cluster – including Kerberos authentication and role-based (administrator and read-only) administration 跨群集的安全管理与配置(包括Kerberos认证及基于角色的管理)
Resource Management 资源管理
Allocate cluster resources by workload or by user/group/application to eliminate contention and ensure Quality-of-Service (QoS) 根据工作量分配资源,或根据/user/group/application文件消除争用,保证QoS
High Availability HA
Easily configure and manage High Availability for various services like HDFS, MapReduce, Oozie, YARN, HBase 为多种服务配置HA:HDFS,MapReduce,Oozie,YARN,Hbase
Client Configuration Management 管理客户端配置
Centrally configure all client access to the cluster 集中配置连接到群集的客户端
Node Templating 节点模板
Easily deploy and expand heterogeneous clusters by creating templates for node roles 通过为节点角色创造模板,来部署和扩展不同的群集
Comprehensive Workflows 全面的工作流
Perform end-to-end tasks such as start/stop/restart clusters, services and roles, add/delete hosts, decommission nodes etc. 执行端到端的任务,如群集、服务、角色级别的启停,增删主机,解除节点等。
Multi-Cluster Management 多群集管理
Manage multiple CDH clusters from a single instance of Cloudera Manager 一个Manager管理多个CDH群集
Monitor
Service, Host & Activity Monitoring 服务、主机、活动的监控
Get a consolidated, real-time view of the state of all services, hosts and activities running in the cluster 对服务、主机、活动的统一的实时的监控
Events & Alerts 事件和警报
Create, aggregate and receive alerts on relevant Hadoop events pertaining to system health, log messages, user actions and activities Set thresholds and create custom alerts for metrics collected by CM 创建、合计、接收Hadoop相关的系统健康、日志信息、用户动作和活动的警报。设置阈值并创建用户警报。
Diagnose
Global Time Control 全程控制
Correlate all views along a configurable timeline to simplify diagnosis 通过可配置的时间线串联所有视图,简化诊断。
Proactive Health Checks 健康预检
Monitor dozens of service performance metrics and get alerts you when you approach critical thresholds 监控服务性能,当达到阈值时向用户报警。
Heatmaps 热度图
Visualize health status and metrics across the cluster to quickly identify problem nodes and take action 图形化展示群集的健康状态,便于发现故障节点并修复。
Customizable Charts 可定制的图表
Report and visualize on key time-series metrics about services, roles and hosts 按照时间顺序提供服务、角色和主机的形象报告。
Intelligent Log Management 智能日志管理
Gather, view and search Hadoop logs collected from across the cluster 可以收集、观察和查询从群集中获得的Hadoop日志。
Integrate
Comprehensive API 广泛的API
Easily integrate Cloudera Manager with your existing enterprise-wide management and monitoring tools 可以简单的将CM与现有的企业范围的管理和监控工具集成起来。
3rd Party Application Management 对第三方应用的管理
Deploy, manage and monitor services for 3rd party applications running on the cluster (e.g. data integration tools, math/machine learning applications, non-CDH services etc.) 部署、管理和监控运行在群集上的第三方应用服务。
Advanced Management Features (Enabled by Subscription)
Operational Report & Quota Management 操作报告和配额管理
Visualize current and historical disk usage; set user and group-based quotas; and track MapReduce, Impala, YARN and HBase usage 1.当前及历史磁盘用量展示
2.基于用户和组的配额设置
3.跟踪MapReduce、Impala、YARN和Hbase的用量
Configuration History & Rollbacks 记录配置历史及回滚
Maintain a trail of all actions and a complete record of configuration changes, including the ability to roll back to previous states 保留所有活动及配置变化的痕迹档案,包含回滚到之前状态的能力。
Rolling Updates 滚动升级
Stage service updates and restarts to portions of the cluster sequentially to minimize downtime when upgrading or updating your cluster 分阶段升级和重启群集各部分,最小化宕机时间。
AD Kerberos Integration AD与Kerberos的集成
Integrate directly with Active Directory to get started easily with Kerberos 直接与AD集成,可以方便的与Kerberos一起工作
Kerberos Wizard Kerberos向导
Easily configure Kerberos and trigger automated workflows to secure clusters 方便配置Kerberos,可以自动触发工作流来保证群集安全。
Hadoop SSL Related Configs Hadoop SSL相关配置
Simplify configs and eliminates need for safety valves 简化配置并减少安全阀的需求
LDAP/SAML Integration LDAP/SAML的集成
Integrate user credentials with Active Directory and enable single sign-on (SSO) capabilities 集成了基于AD的用户验证,并提供了SSO能力。
SNMP Support 对SNMP的支持
Send Hadoop-specific events and alerts to global monitoring tools as SNMP traps 以SNMP 异常报告的方式向全局监控工具发送Hadoop特定的事件和告警。(参见文末 注1)
Scheduled Diagnostics cloudera技术诊断的支持
Take a snapshot of the cluster state and automatically send it to Cloudera support to assist with optimization and issue resolution 优化和解决问题时,收集群集状态快照并自动发送至cloudera支持。
Automated Backup & Disaster Recovery 自动化备份和灾难恢复
Centrally configure and manage snapshotting and replication workflows for HDFS, Hive and HBase 集中配置和管理快照,复制HDFS、Hive、HBase工作流。

CDH 6.3.3以及更高版本的升级,需要有效的cloudera enterprise或者cdp数据中心授权,cloudera express已停产,社区版提供升级最高停留在了CDH 6.3.2

产品列表 停止支持时间
Cloudera Enterprise 6.3 2022年3月
Cloudera Enterprise 6.2 2022年3月
Cloudera Enterprise 6.1 2021年12月
Cloudera Enterprise 6.0 2021年8月
Cloudera Enterprise 5.16 2020年12月
Cloudera Enterprise 5.15 2020年12月
Cloudera Enterprise 5.14 2020年12月
Cloudera Enterprise 5.13 2020年10月
Cloudera Enterprise 5.12 2020年7月
Cloudera Enterprise 5.11 已停止
Cloudera Enterprise 5.10 已停止
Cloudera Enterprise 5.9 已停止

■ Hortonworks

Hortonworks是企业级全球数据管理平台,服务和解决方案的领先供应商,可为超过一半的财富100强企业提供任何类型数据的可操作情报.Hortonworks致力于推动开源社区的创新,为其提供独特的价值。企业客户与其合作伙伴一起,Hortonworks提供技术,专业知识和支持,以便企业客户可以采用现代数据架构。
2018年国庆期间,大数据领域的两大巨头公司Cloudera和Hortonworks宣布平等合并,Cloudera以股票方式收购Hortonworks,Cloudera股东最终获得合并公司60%的股份。
1.png
HDP-3.0.0+支持Data Lake,支持TensorFlow,Caffe等深度学习框架,改善Ambari UI,支持5000个节点的管理,并支持容器化、GPU。

参考

CAICT:中国信息通信研究院
http://www.caict.ac.cn
大数据全景图(2018):http://mattturck.com/wp-content/uploads/2018/06/Matt-Turck-FirstMark-Big-Data-Landscape-2018.png
大数据全景图(2019):http://mattturck.com/wp-content/uploads/2019/07/2019_Matt_Turck_Big_Data_Landscape_Final_Fullsize.png