Spark架构

    1. 集群管理器
    2. 运行作业任务的工作节点
    3. 每个应用的任务控制节点
    4. 每个工作节点上负责具体任务的执行进程Executor

    nosql数据库例子

    1. 键值数据库(Redis、Riak)
    2. 列族数据库(Hbase、BigTable、HadoopDB)
    3. 文档数据库(MongoDB)
    4. 图数据库(Neo4J)

    nosql数据库特点

    1. 灵活的可扩展性
    2. 灵活的数据模型
    3. 与云计算紧密结合

    BASE基本含义

    1. 基本可用(BA)
    2. 软状态(S)
    3. 最终一致性(E)

    Hadoop
    创建用户:
    $sudo useradd -m hadoop -s /bin/bash
    设置密码为hadoop:
    $sudo passwd hadoop
    为hadoop用户增加管理员权限:
    $sudo adduser hadoop sudo
    Hadoop特性:

    1. 高可靠性
    2. 高效性
    3. 高可扩展性
    4. 高容错性
    5. 成本低
    6. 运行在Linux操作系统上 (基于JAVA开发的)
    7. 支持多种语言编程(C++)

    HDFS名称节点和数据节点的具体功能:

    • 名称节点负责管理分布式文件系统的命名空间,保存了FsImage和EditLog,前者用来维护文件系统树,后者用来记录操作。
    • 数据节点负责数据的存储和读取