大数据生态圈
下图是中国信通院企业采购大数据软件调研报告(2017年),从企业的角度来看,有53.9%的企业选择了开源软件商业版,有32.7%的企业选择了开源软件社区版,总计共有86.6%的企业选择基于开源软件构建自己的大数据处理业务。不难发现,目前国内开源发展情况与全球趋势是一致的。
移动互联网把网络化数据社会与现实社会有机融合、互动协调,形成大数据感知、管理、分析与应用服务的新一代信息技术架构,并由大数据垂直应用形成互为增益的闭环生态系统。将全球大数据生态分为七大阵营。
■ 大数据基础架构阵营(INFRASTRUCTURE)
■ 大数据分析阵营(**ANALYTICS & MACHINE INTELLIGENCE**)
■ 大数据应用阵营(APPLICATIONS - ENTERPRISE & INDUSTRY)
■ 架构与分析跨界阵营(CROSS-INFRASTRUCTURE/ANALYTICS)
■ 大数据开源阵营(OPEN SOURCE)
■ 数据源与API阵营(DATA SOURCES & APIs)
■ 孵化器与培训阵营(**DATA RESOURCES**)
七大阵营包括大数据基础架构阵营、大数据分析阵营、大数据应用阵营、架构与分析跨界阵营、大数据开源阵营、数据源与API阵营和孵化器与培训阵营。通过这些不同阵营的合作,可以为企业和组织提供端到端的完整大数据解决方案。
开源生态圈
■ Hadoop
■ Spark
Spark生态系统有一个简称叫做BDAS,那么什么叫做BDAS?BDAS其实就是Berkeley Data Analytics Stack的简写。
■ Flink
■ FunsionInsight(商业软件)
FusionInsight是华为面向众多行业客户推出的,基于Apache开源社区软件进行功能增强的企业级大数据存储、查询和分析的统一平台。它以海量数据处理引擎和实时数据处理引擎为核心,并针对金融、运营商等数据密集型行业的运行维护、应用开发等需求,打造了敏捷、智慧、可信的平台软件、建模中间件及OM系统,让企业可以更快、更准、更稳的从各类繁杂无序的海量数据中发现全新价值点和企业商机。
FusionInsight HD:
华为FusionInsight HD是一个分布式数据处理系统,对外提供大容量的数据存储、分析查询和实时流式数据处理分析能力。
FusionInsight Libra
原名MPPDP/GaussDB 200,是华为云提供的一款MPP数据仓库,基于Postgres-XC研发。
■ Cloudera(逐步开源)
Cloudera成立于2008年,在企业和大型机构在寻求解决棘手的大数据问题时,往往会使用开源软件基础架构Hadoop的服务。Cloudera提供一个可伸缩,稳定,综合的企业级数据管理平台,用于管理快速增长的数据,使用户可以快速部署和管理Hadoop 及相关大数据处理框架,操作、分析企业级数据,并保证数据的安全性。
2019年7月10日,合并(Cloudera与Hortonworks合并)后的Cloudera宣布了新的开源许可模式,并计划对所有产品的新版本实施许可证变更,不追溯已经发布的版本,合并后产品命名:Cloudera Data Pladfrom(CDP)。
Cloudera Manager免费与收费版的对比:
CDH features | 免费版 | 付费版 | |
---|---|---|---|
Deployment、Configuration & Management | |||
Automated Deployment & Hadoop Readiness Checks | 自动化部署及快速检查 | • | • |
Install the complete CDH stack in minutes and ensure optimal settings | 安装完整的CDH及优化配置 | ||
Service Management | 服务管理 | • | • |
Configure and manage all CDH services, including Impala and Search, from a central interface | 提供统一的界面管理与配置全部的CDH服务,包括cloudera impala及cloudera search | ||
Security Management | 安全 | • | • |
Configure and manage security across the cluster – including Kerberos authentication and role-based (administrator and read-only) administration | 跨群集的安全管理与配置(包括Kerberos认证及基于角色的管理) | ||
Resource Management | 资源管理 | • | • |
Allocate cluster resources by workload or by user/group/application to eliminate contention and ensure Quality-of-Service (QoS) | 根据工作量分配资源,或根据/user/group/application文件消除争用,保证QoS | ||
High Availability | HA | • | • |
Easily configure and manage High Availability for various services like HDFS, MapReduce, Oozie, YARN, HBase | 为多种服务配置HA:HDFS,MapReduce,Oozie,YARN,Hbase | ||
Client Configuration Management | 管理客户端配置 | • | • |
Centrally configure all client access to the cluster | 集中配置连接到群集的客户端 | ||
Node Templating | 节点模板 | • | • |
Easily deploy and expand heterogeneous clusters by creating templates for node roles | 通过为节点角色创造模板,来部署和扩展不同的群集 | ||
Comprehensive Workflows | 全面的工作流 | • | • |
Perform end-to-end tasks such as start/stop/restart clusters, services and roles, add/delete hosts, decommission nodes etc. | 执行端到端的任务,如群集、服务、角色级别的启停,增删主机,解除节点等。 | ||
Multi-Cluster Management | 多群集管理 | • | • |
Manage multiple CDH clusters from a single instance of Cloudera Manager | 一个Manager管理多个CDH群集 | ||
Monitor | |||
Service, Host & Activity Monitoring | 服务、主机、活动的监控 | • | • |
Get a consolidated, real-time view of the state of all services, hosts and activities running in the cluster | 对服务、主机、活动的统一的实时的监控 | ||
Events & Alerts | 事件和警报 | • | • |
Create, aggregate and receive alerts on relevant Hadoop events pertaining to system health, log messages, user actions and activities Set thresholds and create custom alerts for metrics collected by CM | 创建、合计、接收Hadoop相关的系统健康、日志信息、用户动作和活动的警报。设置阈值并创建用户警报。 | ||
Diagnose | |||
Global Time Control | 全程控制 | • | • |
Correlate all views along a configurable timeline to simplify diagnosis | 通过可配置的时间线串联所有视图,简化诊断。 | ||
Proactive Health Checks | 健康预检 | • | • |
Monitor dozens of service performance metrics and get alerts you when you approach critical thresholds | 监控服务性能,当达到阈值时向用户报警。 | ||
Heatmaps | 热度图 | • | • |
Visualize health status and metrics across the cluster to quickly identify problem nodes and take action | 图形化展示群集的健康状态,便于发现故障节点并修复。 | ||
Customizable Charts | 可定制的图表 | • | • |
Report and visualize on key time-series metrics about services, roles and hosts | 按照时间顺序提供服务、角色和主机的形象报告。 | ||
Intelligent Log Management | 智能日志管理 | • | • |
Gather, view and search Hadoop logs collected from across the cluster | 可以收集、观察和查询从群集中获得的Hadoop日志。 | ||
Integrate | |||
Comprehensive API | 广泛的API | • | • |
Easily integrate Cloudera Manager with your existing enterprise-wide management and monitoring tools | 可以简单的将CM与现有的企业范围的管理和监控工具集成起来。 | ||
3rd Party Application Management | 对第三方应用的管理 | • | • |
Deploy, manage and monitor services for 3rd party applications running on the cluster (e.g. data integration tools, math/machine learning applications, non-CDH services etc.) | 部署、管理和监控运行在群集上的第三方应用服务。 | ||
Advanced Management Features (Enabled by Subscription) | |||
Operational Report & Quota Management | 操作报告和配额管理 | ⊙ | • |
Visualize current and historical disk usage; set user and group-based quotas; and track MapReduce, Impala, YARN and HBase usage | 1.当前及历史磁盘用量展示 2.基于用户和组的配额设置 3.跟踪MapReduce、Impala、YARN和Hbase的用量 |
||
Configuration History & Rollbacks | 记录配置历史及回滚 | ⊙ | • |
Maintain a trail of all actions and a complete record of configuration changes, including the ability to roll back to previous states | 保留所有活动及配置变化的痕迹档案,包含回滚到之前状态的能力。 | ||
Rolling Updates | 滚动升级 | ⊙ | • |
Stage service updates and restarts to portions of the cluster sequentially to minimize downtime when upgrading or updating your cluster | 分阶段升级和重启群集各部分,最小化宕机时间。 | ||
AD Kerberos Integration | AD与Kerberos的集成 | ⊙ | • |
Integrate directly with Active Directory to get started easily with Kerberos | 直接与AD集成,可以方便的与Kerberos一起工作 | ||
Kerberos Wizard | Kerberos向导 | ⊙ | • |
Easily configure Kerberos and trigger automated workflows to secure clusters | 方便配置Kerberos,可以自动触发工作流来保证群集安全。 | ||
Hadoop SSL Related Configs | Hadoop SSL相关配置 | ⊙ | • |
Simplify configs and eliminates need for safety valves | 简化配置并减少安全阀的需求 | ||
LDAP/SAML Integration | LDAP/SAML的集成 | ⊙ | • |
Integrate user credentials with Active Directory and enable single sign-on (SSO) capabilities | 集成了基于AD的用户验证,并提供了SSO能力。 | ||
SNMP Support | 对SNMP的支持 | ⊙ | • |
Send Hadoop-specific events and alerts to global monitoring tools as SNMP traps | 以SNMP 异常报告的方式向全局监控工具发送Hadoop特定的事件和告警。(参见文末 注1) | ||
Scheduled Diagnostics | cloudera技术诊断的支持 | ⊙ | • |
Take a snapshot of the cluster state and automatically send it to Cloudera support to assist with optimization and issue resolution | 优化和解决问题时,收集群集状态快照并自动发送至cloudera支持。 | ||
Automated Backup & Disaster Recovery | 自动化备份和灾难恢复 | ⊙ | • |
Centrally configure and manage snapshotting and replication workflows for HDFS, Hive and HBase | 集中配置和管理快照,复制HDFS、Hive、HBase工作流。 |
CDH 6.3.3以及更高版本的升级,需要有效的cloudera enterprise或者cdp数据中心授权,cloudera express已停产,社区版提供升级最高停留在了CDH 6.3.2。
产品列表 | 停止支持时间 |
---|---|
Cloudera Enterprise 6.3 | 2022年3月 |
Cloudera Enterprise 6.2 | 2022年3月 |
Cloudera Enterprise 6.1 | 2021年12月 |
Cloudera Enterprise 6.0 | 2021年8月 |
Cloudera Enterprise 5.16 | 2020年12月 |
Cloudera Enterprise 5.15 | 2020年12月 |
Cloudera Enterprise 5.14 | 2020年12月 |
Cloudera Enterprise 5.13 | 2020年10月 |
Cloudera Enterprise 5.12 | 2020年7月 |
Cloudera Enterprise 5.11 | 已停止 |
Cloudera Enterprise 5.10 | 已停止 |
Cloudera Enterprise 5.9 | 已停止 |
■ Hortonworks
Hortonworks是企业级全球数据管理平台,服务和解决方案的领先供应商,可为超过一半的财富100强企业提供任何类型数据的可操作情报.Hortonworks致力于推动开源社区的创新,为其提供独特的价值。企业客户与其合作伙伴一起,Hortonworks提供技术,专业知识和支持,以便企业客户可以采用现代数据架构。
2018年国庆期间,大数据领域的两大巨头公司Cloudera和Hortonworks宣布平等合并,Cloudera以股票方式收购Hortonworks,Cloudera股东最终获得合并公司60%的股份。
HDP-3.0.0+支持Data Lake,支持TensorFlow,Caffe等深度学习框架,改善Ambari UI,支持5000个节点的管理,并支持容器化、GPU。
参考
CAICT:中国信息通信研究院
http://www.caict.ac.cn
大数据全景图(2018):http://mattturck.com/wp-content/uploads/2018/06/Matt-Turck-FirstMark-Big-Data-Landscape-2018.png
大数据全景图(2019):http://mattturck.com/wp-content/uploads/2019/07/2019_Matt_Turck_Big_Data_Landscape_Final_Fullsize.png