大数据
白天
夜间
首页
下载
阅读记录
书签管理
我的书签
添加书签
移除书签
spark解决了hadoop的哪些问题?
浏览
102
扫码
分享
2022-07-13 23:27:45
若有收获,就点个赞吧
0 人点赞
上一篇:
下一篇:
Flink[大目录]
Phoenix
Sql操作
01.对HBase表操作
Scala代码操作Phoenix客户端
01.Scala封装Phoenix工具类操作Hbase
二级索引
09.异步创建索引
08.索引函数
07.覆盖索引
06.Phoenix的Explain
05.删除二级索引
04.创建二级索引
03.配置 HBase 支持 Phoenix 创建二级索引
02.Phoenix索引分类概念
01.HBase二级索引概念
相关文章
海量数据处理的方法
海量数据处理题目
讲一个电商网站订单下降的数据分析案例-李智慧
数据可视化图表与数据监控-李智慧
互联网运营常用数据指标-李智慧
讲盘点可供中小企业参考的商业大数据平台-李智慧
知名大厂如何搭建大数据平台-李智慧
数据从哪里来-李智慧
流式计算的代表:Storm、Flink、SparkStreaming-李智慧
Spark
其它概念
spark实际⼯作中,是怎么来根据任务量,判定需要多少资源的?
Task 和 Stage 的分类
groupByKey 和 reduceByKey 是属于 Transformation 还是 Action?
说说 map 和 mapPartitions 的区别
可以解释一下这两段程序的异同吗
Transformation 和 action 是什么?区别?举几个常用方法
Spark 优越性
RDD 如何通过记录更新的方式容错
Spark 经常说的 Repartition 有什么作用
说说 Spark Local 和 Standalone 有什么区别
说说 Worker 和 Executor 的区别
简单说说 Spark 支持的4种集群管理器
为什么要用 Yarn 来部署 Spark?
Spark 作业提交流程是怎么样的
RDD, DAG, Stage, Task 和 Job 怎么理解?
Spark为什么快,Spark SQL 一定比 Hive 快吗
数据倾斜的产⽣和解决办法?
spark解决了hadoop的哪些问题?
spark⽀持故障恢复的⽅式?
Spark主备切换机制原理剖析?
SparkContext初始化原理?
Spark yarn-client架构?
Spark yarn-cluster架构?
spark内核架构原理
Spark的三种提交模式是什么?
搭建spark集群步骤?
Spark的特点是什么?
spark常⽤的计算框架
spark streaming中有状态转化操作
宽依赖和窄依赖
说说updateStateByKey
spark性能优化有哪些
spark核⼼编程原理?
说说Spark⼯作流程?
spark大多数算子总结
spark有哪些组件?
DStream以及基本⼯作原理?
Spark streaming以及基本⼯作原理?
RDD机制?
Spark Streaming和Storm有何区别?
checkpoint和持久化机制的区别?
checkpoint检查点机制?
RDD持久化原理?
hadoop和spark的相同点和不同点?
spark如何保证宕机迅速恢复?
hadoop和spark使⽤场景?
Spark的Shuffle原理及调优
概念
Spark概述
SparkCore
04.行动算子
13.foreach(func) 遍历RDD中每一个元素
12.saveAsObjectFile(path)序列化成对象保存到文件
11.saveAsSequenceFile(path)保存成Sequencefile文件
10.saveAsTextFile(path)保存成Text文件
09.countByKey()统计每种key的个数
08.fold
07.aggregate
06.takeOrdered(n, [ordering])返回该RDD排序后前n个元素组成的数组
05.first
04.take(n)
03.count()
02.collect
01.reduce(func)
概述
03.转换算子
03.Key-Value 类型
10.Cogroup类似全连接,但是在同一个RDD中对key聚合
09.join连接 将相同key对应的多个value关联在一起
08.mapValues只对V进行操作
07.sortByKey根据key排序
06.combineByKey[C])转换结构后分区内和分区间操作
05.reduceByKey和groupByKey的区别
04.groupByKey()
03.reduceByKey(func, [numTasks])按照K聚合V
02.自定义分区器
01.partitionBy按照Key重新分区
概述
02.双 Value 类型交互
04.zip(otherDataset)拉链
03.intersection(otherDataset)交集
02.subtract (otherDataset)差集
01.union(otherDataset)合并
概述
01.Value类型
15.pipe(command, [envVars])调用脚本
14.sortBy(func,[ascending], [numTasks])
13.增加缩减分区
12.distinct([numTasks]))去重复
11.takeSample按个数取样
10.sample(withReplacement, fraction, seed)采样
09.filter(func)
08.GroupBy之WordCount
07.groupBy(func)
06.glom()分区转换数组
05.flatMap(func)压平
04.map()和mapPartitions()的区别
03.mapPartitionsWithIndex(func)
02.mapPartitions(func)
01.map(func)
概述
02.RDD创建方式
02.从外部存储创建 RDD
01.从集合中创建 RDD
01.RDD概念
RDD编程模型
RDD概述和特点
安装配置
Spark配置启动LZO压缩
Spark安装和环境变量配置
操作
共享变量
共享变量概念
广播变量的概念和使用(Spark)
累加器的概念和使用(Spark)
Spark自定义int类型的累加器
Spark自定义Map类型的累加器
spark的Local模式运行官方求pi的案例
Spark-shell执行wordcount案例
Scala语言在Idea Maven项目编写wordcount
Spark往HBase读写数据(Scala语言)
Yarn上执行Spark的wordCount的demo
SparkSql
一.原理概念
关于SparkSql和SparkCore哪个用的多
简单介绍SparkSql
二.DataSet和DataFrame
RDD和DataFrame和 DataSet 之间的关系
DataSet
05. DataSet转成DataFrame
04.DataSet和DataFrame互相转换
03.RDD 和 DataSet 互相转换
02.创建DataSet
01.什么是 DataSet
DataFrame
08.DataFrame转成DataSet
07.DataFrame转RDD
06.RDD转DataFrame
05.创建DataFrame
04.SparkShell创建表
03.SparkShell读取json文件
02.DataFrame编程概述
01.什么是 DataFrame
MySQL相关
SparkSql 读写MySQL里面的数据(scala语言)
Hive相关
SparkSql整合Hive
SparkSql使用spark-sql cli查询Hive里面的数据
SparkSQL使用hiveserver2 beeline查询Hive里面的数据
SparkSql 用Scala代码查询Hive里面的指定的表
SparkSql 用Scala语言操作Hive创建库,表,并且insert数据
基础入门操作
Shell操作
SparkShell读取json文件
SparkShell创建表
SparkSql创建DataFrame(Scala语言 )
SparkSql创建DataSet(Scala语言)
SparkSql DataSet和RDD互相转换 (Scala语言)
SparkSql RDD转DataFrame (scala语言)
SparkSql DataFrame转RDD (scala语言)
SparkSql DataSet和DataFrame互相转换 (scala语言)
SparkSql自定义函数(scala语言)
相关文章
讲我们并没有觉得MapReduce速度慢,直到Spark出现
HBase
原理概念[目录]
原理概念
HBase为什么适合海量数据场景
HBase是强一致性的
HBase作为一个NoSQL数据库,有哪些架构上的特点
HBase的对象表现形式
HBase的RegionServer的架构解释
HBase的MemStore Flush
HBase的StoreFile Compaction
HBase的VERSIONS的意思
HBase的Region Split
HBase读流程
HBase写流程
HBase存储数据结构LSM树
HBase可扩展数据模型列族
HBase数据模型介绍
HBas介绍,CAP中的CA,特点,优缺点总结.快速理解Hbase
运维安装
HBase集群的启动和停止操作
HBase配置环境变量
HBase集群的安装和启动停止
实际操作
HBase的Linux Shell操作
HBase的web控制台说明
HBase的bin目录和conf目录
扩展
HBase的高可用
HBase 是列式存储数据库吗
为什么不建议在 HBase 中使用过多的列族
RowKey设计
Hive
概念实操
数据类型
hive的数据类型
hive的类型转换
对表操作
hive 抽样查询(有时间再研究研究)
hive 分区表和分桶表区别
hive 列转行函数Lateral View explode
hive分区表一级分区的基本使用
hive 分区表的概念和意义
hive多级分区表的使用
hive分桶表排序
hive分桶表的意义和作用
hive的分桶表的基本使用
hive动态分区
hive四种排序Order By , Sort By ,Distribute By ,Cluster By
hive查看表的描述
hive 将本地文件导入到hive案例
hive将写好的函数放到HDFS上面关联生成永久函数
hive基本操作建表啥的
hive和关系型数据库对比
hive行转列的函数与demo
hive加载配置文件的参数读取顺序
hive读取直接放到hdfs的数据,将目录加载到分区表中
hive本地模式执行hive,减少sql处理结果用的时间
hive简介以及优缺点
在hive上面执行hdfs 或者Linux命令
安装部署
hive元数据存到MySQL中
hive后台运行另外使用beeline进行连接
jdbc方式连接hive
hive 重启后台hive服务
修改hive的数据仓库位置
hive 配置查询后台信息显示
hive配置运行日志到自己需要的指定目录下面
hive后台运行另外使用beeline进行连接
Linux安装单体Hive demo
Hive整合Tez
hive1.2.1 用Datagrip连接
hive 修改Linux控制台日志输出级别
Flume
拦截器
拦截器概念
Flume编写拦截器
Flume事务
Flume将Tomcat日志收集到Kafka里面
Flume之两个Agent串联接收消息
Flume 实时监控单个配置文件上传到HDFS上面去
Flume之负载均衡Load balancing Sink Processor和案例
Flume自定义Source
Flume故障转移Failover Sink Processor和demo
Flume根据Header里面的属性来判断发送到哪个机器上面
Flume的多路复用案例
Flume监控端口的内容
Flume之将两个Flume的数据聚合到第三个Flume里面.
Flume 配置环境变量
YARN
Yarn资源调度器和Hadoop作业类型
简述Yarn工作流程
HDFS
HDFS默认在本地存储文件的位置?如何设置
HDFS的高可用
HDFS的机架感知
HDFS读写数据的流程
HDFS管理工具HDFS Explorer
Hadoop
Hadoop支持LZO压缩配置*_张俊杰 的博客-CSDN博客
Hadoop执行WordCount官方demo案例
Sqoop
Sqoop的安装
Azkaban
Azkaban创建运行Job
Azkaban安装部署和启动
Azkaban概念
暂无相关搜索结果!
让时间为你证明
分享,让知识传承更久远
×
文章二维码
×
手机扫一扫,轻松掌上读
文档下载
×
请下载您需要的格式的文档,随时随地,享受汲取知识的乐趣!
PDF
文档
EPUB
文档
MOBI
文档
书签列表
×
阅读记录
×
阅读进度:
0.00%
(
0/0
)
重置阅读进度
×
思维导图备注