大数据

白天 夜间 首页 下载 阅读记录
  我的书签   添加书签   移除书签

原理概念[目录]

浏览 97 扫码 分享 2023-11-13 09:53:38

    https://www.yuque.com/docs/share/1ab4d1cf-2d15-4659-87d2-7c797b5e9725?# 《MySQL与HBase对比》

    若有收获,就点个赞吧

    0 人点赞

    上一篇:
    下一篇:
    • 书签
    • 添加书签 移除书签
    • Flink[大目录]
    • Phoenix
      • Sql操作
        • 01.对HBase表操作
      • Scala代码操作Phoenix客户端
        • 01.Scala封装Phoenix工具类操作Hbase
      • 二级索引
        • 09.异步创建索引
        • 08.索引函数
        • 07.覆盖索引
        • 06.Phoenix的Explain
        • 05.删除二级索引
        • 04.创建二级索引
        • 03.配置 HBase 支持 Phoenix 创建二级索引
        • 02.Phoenix索引分类概念
        • 01.HBase二级索引概念
    • 相关文章
      • 海量数据处理的方法
      • 海量数据处理题目
      • 讲一个电商网站订单下降的数据分析案例-李智慧
      • 数据可视化图表与数据监控-李智慧
      • 互联网运营常用数据指标-李智慧
      • 讲盘点可供中小企业参考的商业大数据平台-李智慧
      • 知名大厂如何搭建大数据平台-李智慧
      • 数据从哪里来-李智慧
      • 流式计算的代表:Storm、Flink、SparkStreaming-李智慧
    • Spark
      • 其它概念
        • spark实际⼯作中,是怎么来根据任务量,判定需要多少资源的?
        • Task 和 Stage 的分类
        • groupByKey 和 reduceByKey 是属于 Transformation 还是 Action?
        • 说说 map 和 mapPartitions 的区别
        • 可以解释一下这两段程序的异同吗
        • Transformation 和 action 是什么?区别?举几个常用方法
        • Spark 优越性
        • RDD 如何通过记录更新的方式容错
        • Spark 经常说的 Repartition 有什么作用
        • 说说 Spark Local 和 Standalone 有什么区别
        • 说说 Worker 和 Executor 的区别
        • 简单说说 Spark 支持的4种集群管理器
        • 为什么要用 Yarn 来部署 Spark?
        • Spark 作业提交流程是怎么样的
        • RDD, DAG, Stage, Task 和 Job 怎么理解?
        • Spark为什么快,Spark SQL 一定比 Hive 快吗
        • 数据倾斜的产⽣和解决办法?
        • spark解决了hadoop的哪些问题?
        • spark⽀持故障恢复的⽅式?
        • Spark主备切换机制原理剖析?
        • SparkContext初始化原理?
        • Spark yarn-client架构?
        • Spark yarn-cluster架构?
        • spark内核架构原理
        • Spark的三种提交模式是什么?
        • 搭建spark集群步骤?
        • Spark的特点是什么?
        • spark常⽤的计算框架
        • spark streaming中有状态转化操作
        • 宽依赖和窄依赖
        • 说说updateStateByKey
        • spark性能优化有哪些
        • spark核⼼编程原理?
        • 说说Spark⼯作流程?
        • spark大多数算子总结
        • spark有哪些组件?
        • DStream以及基本⼯作原理?
        • Spark streaming以及基本⼯作原理?
        • RDD机制?
        • Spark Streaming和Storm有何区别?
        • checkpoint和持久化机制的区别?
        • checkpoint检查点机制?
        • RDD持久化原理?
        • hadoop和spark的相同点和不同点?
        • spark如何保证宕机迅速恢复?
        • hadoop和spark使⽤场景?
        • Spark的Shuffle原理及调优
      • 概念
        • Spark概述
      • SparkCore
        • 04.行动算子
          • 13.foreach(func) 遍历RDD中每一个元素
          • 12.saveAsObjectFile(path)序列化成对象保存到文件
          • 11.saveAsSequenceFile(path)保存成Sequencefile文件
          • 10.saveAsTextFile(path)保存成Text文件
          • 09.countByKey()统计每种key的个数
          • 08.fold
          • 07.aggregate
          • 06.takeOrdered(n, [ordering])返回该RDD排序后前n个元素组成的数组
          • 05.first
          • 04.take(n)
          • 03.count()
          • 02.collect
          • 01.reduce(func)
          • 概述
        • 03.转换算子
          • 03.Key-Value 类型
            • 10.Cogroup类似全连接,但是在同一个RDD中对key聚合
            • 09.join连接 将相同key对应的多个value关联在一起
            • 08.mapValues只对V进行操作
            • 07.sortByKey根据key排序
            • 06.combineByKey[C])转换结构后分区内和分区间操作
            • 05.reduceByKey和groupByKey的区别
            • 04.groupByKey()
            • 03.reduceByKey(func, [numTasks])按照K聚合V
            • 02.自定义分区器
            • 01.partitionBy按照Key重新分区
            • 概述
          • 02.双 Value 类型交互
            • 04.zip(otherDataset)拉链
            • 03.intersection(otherDataset)交集
            • 02.subtract (otherDataset)差集
            • 01.union(otherDataset)合并
            • 概述
          • 01.Value类型
            • 15.pipe(command, [envVars])调用脚本
            • 14.sortBy(func,[ascending], [numTasks])
            • 13.增加缩减分区
            • 12.distinct([numTasks]))去重复
            • 11.takeSample按个数取样
            • 10.sample(withReplacement, fraction, seed)采样
            • 09.filter(func)
            • 08.GroupBy之WordCount
            • 07.groupBy(func)
            • 06.glom()分区转换数组
            • 05.flatMap(func)压平
            • 04.map()和mapPartitions()的区别
            • 03.mapPartitionsWithIndex(func)
            • 02.mapPartitions(func)
            • 01.map(func)
          • 概述
        • 02.RDD创建方式
          • 02.从外部存储创建 RDD
          • 01.从集合中创建 RDD
        • 01.RDD概念
          • RDD编程模型
          • RDD概述和特点
        • 安装配置
          • Spark配置启动LZO压缩
          • Spark安装和环境变量配置
        • 操作
          • 共享变量
            • 共享变量概念
            • 广播变量的概念和使用(Spark)
            • 累加器的概念和使用(Spark)
            • Spark自定义int类型的累加器
            • Spark自定义Map类型的累加器
          • spark的Local模式运行官方求pi的案例
          • Spark-shell执行wordcount案例
          • Scala语言在Idea Maven项目编写wordcount
          • Spark往HBase读写数据(Scala语言)
          • Yarn上执行Spark的wordCount的demo
      • SparkSql
        • 一.原理概念
          • 关于SparkSql和SparkCore哪个用的多
          • 简单介绍SparkSql
        • 二.DataSet和DataFrame
          • RDD和DataFrame和 DataSet 之间的关系
          • DataSet
            • 05. DataSet转成DataFrame
            • 04.DataSet和DataFrame互相转换
            • 03.RDD 和 DataSet 互相转换
            • 02.创建DataSet
            • 01.什么是 DataSet
          • DataFrame
            • 08.DataFrame转成DataSet
            • 07.DataFrame转RDD
            • 06.RDD转DataFrame
            • 05.创建DataFrame
            • 04.SparkShell创建表
            • 03.SparkShell读取json文件
            • 02.DataFrame编程概述
            • 01.什么是 DataFrame
        • MySQL相关
          • SparkSql 读写MySQL里面的数据(scala语言)
        • Hive相关
          • SparkSql整合Hive
          • SparkSql使用spark-sql cli查询Hive里面的数据
          • SparkSQL使用hiveserver2 beeline查询Hive里面的数据
          • SparkSql 用Scala代码查询Hive里面的指定的表
          • SparkSql 用Scala语言操作Hive创建库,表,并且insert数据
        • 基础入门操作
          • Shell操作
            • SparkShell读取json文件
            • SparkShell创建表
          • SparkSql创建DataFrame(Scala语言 )
          • SparkSql创建DataSet(Scala语言)
          • SparkSql DataSet和RDD互相转换 (Scala语言)
          • SparkSql RDD转DataFrame (scala语言)
          • SparkSql DataFrame转RDD (scala语言)
          • SparkSql DataSet和DataFrame互相转换 (scala语言)
          • SparkSql自定义函数(scala语言)
      • 相关文章
        • 讲我们并没有觉得MapReduce速度慢,直到Spark出现
    • HBase
      • 原理概念[目录]
        • 原理概念
          • HBase为什么适合海量数据场景
          • HBase是强一致性的
          • HBase作为一个NoSQL数据库,有哪些架构上的特点
          • HBase的对象表现形式
          • HBase的RegionServer的架构解释
          • HBase的MemStore Flush
          • HBase的StoreFile Compaction
          • HBase的VERSIONS的意思
          • HBase的Region Split
          • HBase读流程
          • HBase写流程
          • HBase存储数据结构LSM树
          • HBase可扩展数据模型列族
          • HBase数据模型介绍
          • HBas介绍,CAP中的CA,特点,优缺点总结.快速理解Hbase
      • 运维安装
        • HBase集群的启动和停止操作
        • HBase配置环境变量
        • HBase集群的安装和启动停止
      • 实际操作
        • HBase的Linux Shell操作
        • HBase的web控制台说明
        • HBase的bin目录和conf目录
      • 扩展
        • HBase的高可用
        • HBase 是列式存储数据库吗
        • 为什么不建议在 HBase 中使用过多的列族
        • RowKey设计
    • Hive
      • 概念实操
        • 数据类型
          • hive的数据类型
          • hive的类型转换
        • 对表操作
          • hive 抽样查询(有时间再研究研究)
          • hive 分区表和分桶表区别
          • hive 列转行函数Lateral View explode
          • hive分区表一级分区的基本使用
          • hive 分区表的概念和意义
          • hive多级分区表的使用
          • hive分桶表排序
          • hive分桶表的意义和作用
          • hive的分桶表的基本使用
          • hive动态分区
          • hive四种排序Order By , Sort By ,Distribute By ,Cluster By
          • hive查看表的描述
          • hive 将本地文件导入到hive案例
        • hive将写好的函数放到HDFS上面关联生成永久函数
        • hive基本操作建表啥的
        • hive和关系型数据库对比
        • hive行转列的函数与demo
        • hive加载配置文件的参数读取顺序
        • hive读取直接放到hdfs的数据,将目录加载到分区表中
        • hive本地模式执行hive,减少sql处理结果用的时间
        • hive简介以及优缺点
        • 在hive上面执行hdfs 或者Linux命令
      • 安装部署
        • hive元数据存到MySQL中
        • hive后台运行另外使用beeline进行连接
        • jdbc方式连接hive
        • hive 重启后台hive服务
        • 修改hive的数据仓库位置
        • hive 配置查询后台信息显示
        • hive配置运行日志到自己需要的指定目录下面
        • hive后台运行另外使用beeline进行连接
        • Linux安装单体Hive demo
        • Hive整合Tez
        • hive1.2.1 用Datagrip连接
        • hive 修改Linux控制台日志输出级别
    • Flume
      • 拦截器
        • 拦截器概念
        • Flume编写拦截器
      • Flume事务
      • Flume将Tomcat日志收集到Kafka里面
      • Flume之两个Agent串联接收消息
      • Flume 实时监控单个配置文件上传到HDFS上面去
      • Flume之负载均衡Load balancing Sink Processor和案例
      • Flume自定义Source
      • Flume故障转移Failover Sink Processor和demo
      • Flume根据Header里面的属性来判断发送到哪个机器上面
      • Flume的多路复用案例
      • Flume监控端口的内容
      • Flume之将两个Flume的数据聚合到第三个Flume里面.
      • Flume 配置环境变量
    • YARN
      • Yarn资源调度器和Hadoop作业类型
      • 简述Yarn工作流程
    • HDFS
      • HDFS默认在本地存储文件的位置?如何设置
      • HDFS的高可用
      • HDFS的机架感知
      • HDFS读写数据的流程
      • HDFS管理工具HDFS Explorer
    • Hadoop
      • Hadoop支持LZO压缩配置*_张俊杰 的博客-CSDN博客
      • Hadoop执行WordCount官方demo案例
    • Sqoop
      • Sqoop的安装
    • Azkaban
      • Azkaban创建运行Job
      • Azkaban安装部署和启动
      • Azkaban概念
    暂无相关搜索结果!

      让时间为你证明

      展开/收起文章目录

      分享,让知识传承更久远

      文章二维码

      手机扫一扫,轻松掌上读

      文档下载

      请下载您需要的格式的文档,随时随地,享受汲取知识的乐趣!
      PDF文档 EPUB文档 MOBI文档

      书签列表

        阅读记录

        阅读进度: 0.00% ( 0/0 ) 重置阅读进度

          思维导图备注