大数据的简介

⼤数据是指⽆法在⼀定时间范围内⽤常规软件⼯具进⾏捕捉、管理和处理的数据集合,是需要新处理模 式才能具有更强的决策⼒、洞察发现⼒和流程优化能⼒的海量、⾼增⻓率和多样化的信息资产。

简而言之:我认为大数据是一种新的数据存储和计算模式,相比较于传统的Oracle数仓等,以hadoop的hdfs文件系统作为比较,其存储数据的方式不同。前者关心每条数据具体的强关系,后者则更注重于数据能否完好存储,不要出现数据的损失为主,发现数据价值的工作则交给各种各样的计算框架来完成。从某种意义上来说,这是一种数据存储和关联的解耦,带来的好处是:大量数据的存储便利和低廉的维护成本,以及架设在分布式生态环境上的分布式计算带来的高速数据计算。

大数据的特点

  • 大量
    不用多说,PB级别的数据,传统的数据库不堪重负。
  • 高速
    高速体现在数据的创建、存储、分析上,无论是从前就有的离线的指标的计算,例如T+1计算信用卡用户的消费最大金额,通过该指标来分发相应的权益;又或许是实时计算用户的大额分期的消费,实时给顾客发送活动达标的奖励通知,达到激励消费的目的。
    在现有的Lambda架构上,传统的数据库难以达到离线处理大量数据计算指标的目的,更不要说怎么去实现实时的指标计算。
  • 多样
    数据的多样化是现在高速互联网的一个显著的特点,例如抖音快手的短视频,以及社交平台上分享的照片,生产上后台不停叠加的日志文件等。无论是结构化数据,半结构化数据,非结构化数据等,都需要能够存储和处理。
  • 真实
    没啥说的,保证数据的真实性,是数据分析的大前提。这里涉及ETL的数据清洗,脏数据影响到数据分析的真实性。
  • 低价值
    数据的低价值可以说是大数据的一个弊端,当然这也发展的选择,在硬件相对廉价的现在,企业都宁愿花钱在存储设备上,也不愿意抛弃数据,这不像传统的数据库都存储着有直接价值的数据,大数据阶段更愿意对数据的价值抱有一种“宁可信其有不可信其无”的想法,因为事实证明,对大量数据的分析,能够得到一个接近真实情况的结论,这个结论可以带来更多的业务拓展机会,会跟赚钱,赚的钱又可以买更多的服务器,真是一个良性循环。

Hadoop 的简介

The Apache Hadoop software library is a framework that allows for the distributed processing of large data sets across clusters of computers using simple programming models.

在狭义上: Hadoop 是一个集大数据分布式存储和计算一体的平台。
在广义上: Hadoop 代表大数据的一个技术生态圈,主要表现在其hdfs的强大以及yarn的通用性。
如果有人问你,Spark和Hadoop 最大的不同是什么,记得回答Speak只是一个计算框架,而Hadoop 则即有存储的能力也有计算的能力。

Hadoop 的起源

Hadoop最早起源于Nutch,Nutch 的创始⼈是Doug Cutting 老生常谈,说起Hadoop 的起源,不可不讲谷歌的三驾马车。 这三架马车其实是Google的三篇论文: GFS:Google的分布式文件系统, 后来演变出HDFS。 MapReduce:Google的分布式计算框架,后来演变为Hadoop上的MapRuduce(注意:两者虽名字相同,但不是一个东西)。 BigTable:大型的非关系型分布式数据库,后来演变出Hbase。

Hadoop 的特点

  • 扩容能力
    Hadoop 的集群可以很方便得拓展节点。
  • 低成本
    Hadoop 集群使用的服务器可以是低廉的机器,节省成本。
  • 高效率
    在节点之间传输数据的动态并行的方式,速度快。
  • 可靠性
    虽然集群的节点可以是低廉的机器,但是hdfs上的文件通常都会有多份备份,在数据节点宕机的情况下,Hadoop 会备份节点上的数据到新的节点上,动态维护文件的备份数量。并且失败的任务也会自动重新部署。

Hadoop 的发行版本

  • Apache Hadoop 原始开源版本
    优点:拥有全世界的开源贡献,代码更新版本⽐较快
    缺点:版本的升级,版本的维护,以及版本之间的兼容性,学习⾮常⽅便
    Apache所有软件的下载地址(包括各种历史版本):http://archive.apache.org/dist/
  • 软件收费版本ClouderaManager CDH版本 —⽣产环境使⽤
    官⽹地址:https://www.cloudera.com/
    Cloudera主要是美国⼀家⼤数据公司在Apache开源Hadoop 的版本上,通过⾃⼰公司内部的各种
    补丁,实现版本之间的稳定运⾏,⼤数据⽣态圈的各个版本的软件都提供了对应的版本,解决了版
    本的升级困难,版本兼容性等各种问题,⽣产环境强烈推荐使⽤
  • 免费开源版本HortonWorks HDP版本—⽣产环境使⽤
    官⽹地址:https://hortonworks.com/ hortonworks主要是雅⻁主导Hadoop 开发的副总裁,带领
    ⼆⼗⼏个核⼼成员成⽴Hortonworks,核⼼产品软件HDP(ambari),HDF免费开源,并且提供
    ⼀整套的web管理界⾯,供我们可以通过web界⾯管理我们的集群状态,web管理界⾯软件HDF⽹
    址(http://ambari.apache.org/
    先已经被Cloudera公司收购,今后可能推出舞台。

Hadoop 的优缺点

  • Hadoop 的优点
    • Hadoop 具有存储和处理数据能⼒的⾼可靠性。
    • Hadoop 通过可⽤的计算机集群分配数据,完成存储和计算任务,这些集群可以⽅便地扩展到数以
      千计的节点中,具有⾼扩展性。
    • Hadoop能够在节点之间进⾏动态地移动数据,并保证各个节点的动态平衡,处理速度⾮常快,具
      有⾼效性。
    • Hadoop能够⾃动保存数据的多个副本,并且能够⾃动将失败的任务重新分配,具有⾼容错性。
  • Hadoop 的缺点
    • Hadoop不适⽤于低延迟数据访问。
    • Hadoop不能⾼效存储⼤量⼩⽂件。
    • Hadoop不⽀持多⽤户写⼊并任意修改⽂件。