Hadoop概述 - 《Hadoop》

大数据的简介
- 大数据的特点
- Hadoop 的简介

大数据的简介

⼤数据是指⽆法在⼀定时间范围内⽤常规软件⼯具进⾏捕捉、管理和处理的数据集合，是需要新处理模式才能具有更强的决策⼒、洞察发现⼒和流程优化能⼒的海量、⾼增⻓率和多样化的信息资产。

简而言之：我认为大数据是一种新的数据存储和计算模式，相比较于传统的Oracle数仓等，以hadoop的hdfs文件系统作为比较，其存储数据的方式不同。前者关心每条数据具体的强关系，后者则更注重于数据能否完好存储，不要出现数据的损失为主，发现数据价值的工作则交给各种各样的计算框架来完成。从某种意义上来说，这是一种数据存储和关联的解耦，带来的好处是：大量数据的存储便利和低廉的维护成本，以及架设在分布式生态环境上的分布式计算带来的高速数据计算。

大数据的特点

大量
不用多说，PB级别的数据，传统的数据库不堪重负。
高速
高速体现在数据的创建、存储、分析上，无论是从前就有的离线的指标的计算，例如T+1计算信用卡用户的消费最大金额，通过该指标来分发相应的权益；又或许是实时计算用户的大额分期的消费，实时给顾客发送活动达标的奖励通知，达到激励消费的目的。
在现有的Lambda架构上，传统的数据库难以达到离线处理大量数据计算指标的目的，更不要说怎么去实现实时的指标计算。
多样
数据的多样化是现在高速互联网的一个显著的特点，例如抖音快手的短视频，以及社交平台上分享的照片，生产上后台不停叠加的日志文件等。无论是结构化数据，半结构化数据，非结构化数据等，都需要能够存储和处理。
真实
没啥说的，保证数据的真实性，是数据分析的大前提。这里涉及ETL的数据清洗，脏数据影响到数据分析的真实性。
低价值
数据的低价值可以说是大数据的一个弊端，当然这也发展的选择，在硬件相对廉价的现在，企业都宁愿花钱在存储设备上，也不愿意抛弃数据，这不像传统的数据库都存储着有直接价值的数据，大数据阶段更愿意对数据的价值抱有一种“宁可信其有不可信其无”的想法，因为事实证明，对大量数据的分析，能够得到一个接近真实情况的结论，这个结论可以带来更多的业务拓展机会，会跟赚钱，赚的钱又可以买更多的服务器，真是一个良性循环。

Hadoop 的简介

The Apache Hadoop software library is a framework that allows for the distributed processing of large data sets across clusters of computers using simple programming models.

在狭义上： Hadoop 是一个集大数据分布式存储和计算一体的平台。
在广义上： Hadoop 代表大数据的一个技术生态圈，主要表现在其hdfs的强大以及yarn的通用性。
如果有人问你，Spark和Hadoop 最大的不同是什么，记得回答Speak只是一个计算框架，而Hadoop 则即有存储的能力也有计算的能力。

Hadoop 的起源

Hadoop最早起源于Nutch，Nutch 的创始⼈是Doug Cutting 老生常谈，说起Hadoop 的起源，不可不讲谷歌的三驾马车。这三架马车其实是Google的三篇论文： GFS：Google的分布式文件系统，后来演变出HDFS。 MapReduce：Google的分布式计算框架，后来演变为Hadoop上的MapRuduce（注意：两者虽名字相同，但不是一个东西）。 BigTable：大型的非关系型分布式数据库，后来演变出Hbase。

Hadoop 的特点

扩容能力
Hadoop 的集群可以很方便得拓展节点。
低成本
Hadoop 集群使用的服务器可以是低廉的机器，节省成本。
高效率
在节点之间传输数据的动态并行的方式，速度快。
可靠性
虽然集群的节点可以是低廉的机器，但是hdfs上的文件通常都会有多份备份，在数据节点宕机的情况下，Hadoop 会备份节点上的数据到新的节点上，动态维护文件的备份数量。并且失败的任务也会自动重新部署。

Hadoop 的发行版本

Apache Hadoop 原始开源版本
优点：拥有全世界的开源贡献，代码更新版本⽐较快
缺点：版本的升级，版本的维护，以及版本之间的兼容性，学习⾮常⽅便
Apache所有软件的下载地址（包括各种历史版本）：http://archive.apache.org/dist/
软件收费版本ClouderaManager CDH版本 —⽣产环境使⽤
官⽹地址：https://www.cloudera.com/
Cloudera主要是美国⼀家⼤数据公司在Apache开源Hadoop 的版本上，通过⾃⼰公司内部的各种
补丁，实现版本之间的稳定运⾏，⼤数据⽣态圈的各个版本的软件都提供了对应的版本，解决了版
本的升级困难，版本兼容性等各种问题，⽣产环境强烈推荐使⽤
免费开源版本HortonWorks HDP版本—⽣产环境使⽤
官⽹地址：https://hortonworks.com/ hortonworks主要是雅⻁主导Hadoop 开发的副总裁，带领
⼆⼗⼏个核⼼成员成⽴Hortonworks，核⼼产品软件HDP（ambari），HDF免费开源，并且提供
⼀整套的web管理界⾯，供我们可以通过web界⾯管理我们的集群状态，web管理界⾯软件HDF⽹
址（http://ambari.apache.org/）
先已经被Cloudera公司收购，今后可能推出舞台。

Hadoop 的优缺点

Hadoop 的优点
- Hadoop 具有存储和处理数据能⼒的⾼可靠性。
- Hadoop 通过可⽤的计算机集群分配数据，完成存储和计算任务，这些集群可以⽅便地扩展到数以
  千计的节点中，具有⾼扩展性。
- Hadoop能够在节点之间进⾏动态地移动数据，并保证各个节点的动态平衡，处理速度⾮常快，具
  有⾼效性。
- Hadoop能够⾃动保存数据的多个副本，并且能够⾃动将失败的任务重新分配，具有⾼容错性。
Hadoop 的缺点
- Hadoop不适⽤于低延迟数据访问。
- Hadoop不能⾼效存储⼤量⼩⽂件。
- Hadoop不⽀持多⽤户写⼊并任意修改⽂件。