Redis命令区分大小写。
Redis每个数据库对外都是以一个从0开始的递增数字命名,支持自定义
Structured Streaming中逻辑计划的优化是通过Catalyst优化器完成
Flume的一个Source可以和多个Channel关联。
ElasticSearch的recovery在集群新增或删除节点时发生。
GES既支持分布式部署也支持单机部署。
Spark是基于内存的,处理数据时产生的中间产物(计算结果)是存放在内存中,减少了对磁盘的I/O操作,大大提升了数据的处理速度。
Spark执行效率高的一个关键因素是在处理数据时产生的中间产物(计算结果)存放在内存中,减少了对磁盘的/O操作。
大数据场景中对于数据的大小而言指的是数据的总量需要大,对于数据的数量要求不高。
大数据技术的解决方案思路是聚焦在单台机器上,思考如何提升单机的性能,寻找更贵更好的服务器。
某公司大数据业务存在多种计算任务,包括使用CPU,GPU等多种异构计算芯片,为了保证资源的合理利用调度,可以依据华为云Stack架构,构建一站式平台,资源统一管理,按需分配。
Flink可以通过保持现有的计算状态以及依赖关系来进行长期的流式数据计算任务。
开启BloomFilter会有一定的磁盘存储空间及内存cache的额外开销。
ElasticSearch是一个基于内存的NoSQL的数据库,每一份文档都会被切分成128NB大小的数据块,通过三副本机制提高数据稳定性。
通过一句话搜索整篇文章,这是在描述ElasticSearch的倒排索引机制。
Hive中的左半开连接(LEFT SEMI JOIN)比通常的内连接(INNER JOIN)要更高效,因为对于左表中一条指定的记录,在右边表中一旦找到匹配的记录,Hive就会立即停止扫描。即遇到右表重复记录,左表会跳过,而INNER JOIN塔则会一直遍历。
Spark执行效率高的一个关键因素是在处理数据时产生的中间产物(计算结果)存放在内存中,减少了对磁盘的I/O操作。
离线分析平台主要进行数据处理和加工,将原始数据加工成明细数据。以及进行离线跑批作业产生结果数据,供上层应用调用。
华为Fusionlnsight支持在数据湖上直接扩展AI分析能力,通过机器学习平台,支撑数据分析师构建机器学习分析模型,并下发到数据湖上运行。
由于大数据本身的特性,一般大数据场景中不合适频繁的读取数据,而适合频繁的修改数据。
Redis每个数据库对外都是以一个从1开始的递增数字命名。
华为实时流处理技术架构中,用于数据实时处理的框架是Flink
Redis不支持在服务器端进行集合的交并补运算。
Flume是一个分布式、高可靠和高可用的海量日志采集、聚合与传输的系统,支持在系统中定制各类数据发送方,用于收 集数据。
华为云GES图搜索引擎服务可以为知识图谱技术提供数据存储和查询功能。
在进行HDFS元数据持久化时,NameNode可以周期性触发EditLog和Fslmage的合并。
在Hive的SQL语句执行中,因为group by等关键字的使用会导致数据倾斜。因此为了表面数据倾斜,应禁止该类操作执 行。
离线批处理对数据处理的时延要求高,处理的数据量较大,占用的计算存储资源较多,通常通过MR作业、Spark作业或者 HQL作业实现。
离线批处理,是指对海量历史数据进处理和分析,生成结果数据,供下一步数据应用使用的过程。
Hive表在创建为内部表后不允许变更为外部表,所以在一开始确定表的存储方式时就需要格外的注意。
Hive中删除外部表时,元数据和数据会一起被删除。
华为Fusioninsight提供基于YARN的资源统一调度能力,再结合华为自研Superior(苏比列尔)调度骼,能够很好的解决在多 任务场景的资源共享问题,它支持CPU、GPU统一调度,单集群每秒可运行7500个作业的大吞吐量,可以从容的面对海量分析任务 的场景。
数智融合是当前大数据领域最受关注的趋势之一,主要体现在大数据平台的数据分析智能化以及数据治理的智能化。
某公司大数据业务存在早高峰特点,因此可以借助于华为云MRS服务依据用户的预设策略,自动调整计算资源,使节点 数自动随业务负载变化而变化,保、业务峰值时集群平稳健康运行,并降低整体使用成本。
Structured Streaming持续处理可以实现室秒级延迟。
实时布控场景中,数据实时采集可以通过警务数据共享交换平台与边界平台,实时获取出行/住宿/通讯/视频数据。
在编写自定义函数时,UDF、UDIF和UDAF继承的类都是一样的。
GES可以借助MapReduce等分布式计算组件,完成海量数据的实时分析。
F1ink既可以用作批处理场景,也可以用作流处理场景。
Header用来存放该event下的一些属性信息,通常使用<Key,Va1ue>的结构
Kafka最初由Linkedin公司开发,使用Sca1a语言编写,之后成为Apache项目的一部分。
Hive教据存储模型中分区对应着表所在路径的一个文件。
Loader是实现MRS与关系型数据库、文件系统之间交换数据和文件的数据加载工具。
Redis各节点维扩Key->Server的映射关系
实时流处理系统中,当系统处理能力出现瓶颈后,可通过节点的水平扩展提升处理性能—
Structured Streaming中,有边界表的行列数据是可以一直无限增长的。
为了减少磁盘写入的次数,Broker会将消息暂时buffer起来,当消息的个数达到一定阆值时,再fiush到磁盘,这样减少了 磁盘10调用的次数
Flink是个批处理和流处理结合的统计算框架
Redis是个高性能key-value内存数据库。
在HBase中,BloomFlilter的数据被存在RDD的元数据中,一旦写入无法更新,因为RDD是不可变的。开启B1oomFilter会 有一定的存储及内存cache开销
行键是按照字典序存储,因此,设计行键时,要充分利用这个排序特点,将经常一起读取的数据存储到一块。将最近可能 会被访问的数据放在一块。
DataNode是HBase的一部分
HBase的Region在split时不需要停止服务
HBase支持存储大表数据,表格规模可达教十亿行、数百万列
在处理HiveSQL出现的数据倾斜间题时,可以尝试着设置参数nive.map.aggr为true,此时生成的查询计划会有两个MRJo b,可实现数据倾斜时负载均衡。
通过SparkSession提交SQL语句时,任务会像普通Spark应用一样被提交到集群中分布式运行。
Hive中默认创建的是外部表。
Sqoop是一款开源的工具,主要用于在Hadoop与传统的数据库间进行数据的传递,例如可以将一个关系型数据库中的数 据导入到Hadoop的HDFS中,也可以将HDFS的数据导入到关系型数据库中。
大数据上云是万物互联时代的必然趋势,移动终端构成的物联网只有通过云,才能快速将全渠道数据(新型生产资料)通 过大数据和AI技术转化成价值。
为了使得Kafka的吞吐率可以线性提高,物理上把Topic分成一个或多个
Flume的sink必须作用于个确切的channel
Redis中List是一个有序的字符串列表,列表内部实现是使用双向链表(1inked 1ist)实现的。
Flink核心是一个提供了数据分发以及并行化计算的流数据处理引擎,对无界和有界数据流进行状态计算。
Body用来存放数据,数据结构为字节数组(Byte Array)
在HBase的shell客户端查看'ns'这个命名空间下所有数据文件的名称时,需要用到show_namespace'ns'命令。
ElasticSearch缓存主要分主种:RocksDB Cache.PiieDB Cache,StateBackEnd Cache
HBase本身并没有SQL语句的接口,需依赖其他组件,例如Apache Phoenix,将SQL查询编译为一系列HBase扫描。
GES的边都是单向边。
Sqoop进行数据导出时,也会进行数据文件切片,与MapReduce切片类似,可以通过修改参数block块大小进行切片数量优 化。
HDFS中—cat命令是用于删除文件
在刷除表的时候,外部表只删除元数据,不删除实际数据。
在数字化转型以及多样数据、算力、业务敏捷的驱动下,大数据焦点转向云服务方式创新,更加敏捷,成本更优。
开放接口就是面向数据处理提供一个开放的、标准的接口,能够跟各种工具对按,因为大数据生态里有很多成熟的工具和 产品,包含数据集成、治理、运营等等,通过标准接口快速对接,打造一个完整的大数据系统。
弹性伸缩可根据用户的预设策略,自动调整计算资源,使节点数自动随业务负载变化而变化,保证业务娃值时集群平稳健 康运行,并降低整体使用成本。
