数据结构

String

key : value

Hash

key : field : value

List

存储多个数据，并对数据进入存储空间的顺序进行区分
key : value

与hash结构相同，只存储键，不存储值，且键不能重复

数据持久化

利用永久性存储介质将数据进行保存，在特定的时间将保存的数据进行恢复的工作机制称为持久化。
持久化用于防止数据的意外丢失，确保数据安全性。

RBD

将当前数据状态进行保存，快照形式，存储数据结果，存储格式简单，关注点在数据

执行save指令十分耗时，以至于影响到它在执行的时候，后面的指令都要等，所以说这种模式是不友好的，这是save指令对应的一个问题，当cpu执行的时候会阻塞redis服务器，直到他执行完毕，所以说我们不建议大家在线上环境用save指令。此时我们可以使用：bgsave 指令，bg其实是background的意思，后台执行的意思

RDB优点：

RDB是一个紧凑压缩的二进制文件，存储效率较高
RDB内部存储的是redis在某个时间点的数据快照，非常适合用于数据备份，全量复制等场景
RDB恢复数据的速度要比AOF快很多
应用：服务器中每X小时执行bgsave备份，并将RDB文件拷贝到远程机器中，用于灾难恢复。

RDB缺点

RDB方式无论是执行指令还是利用配置，无法做到实时持久化，具有较大的可能性丢失数据
bgsave指令每次运行要执行fork操作创建子进程，要牺牲掉一些性能
Redis的众多版本中未进行RDB文件格式的版本统一，有可能出现各版本服务之间数据格式无法兼容现象

AOF

将数据的操作过程进行保存，日志形式，存储操作过程，存储格式复杂，关注点在数据的操作过程。

独立日志的方式记录每次写命令，重启时再重新执行AOF文件中命令达到恢复数据的目的。与RDB相比可以简单理解为由记录数据改为记录数据产生的变化

RDB与AOF对比

持久化方式	RDB	AOF
占用存储空间	小（数据级：压缩）	大（指令级：重写）
存储速度	慢	快
恢复速度	快	慢
数据安全性	会丢失数据	依据策略决定
资源消耗	高/重量级	低/轻量级
启动优先级	低	高

综合比对

RDB与AOF的选择实际上是在做一种权衡，每种都有利有弊
如不能承受数分钟以内的数据丢失，对业务数据非常敏感，选用AOF
如能承受数分钟以内的数据丢失，且追求大数据集的恢复速度，选用RDB
灾难恢复选用RDB
双保险策略，同时开启 RDB和 AOF，重启后，Redis优先使用 AOF 来恢复数据，降低丢失数据的量

单线程

Redis基于Reactor模式开发了网络事件处理器，这个处理器叫做文件事件处理器 file event handler。这个事件处理器是单线程的，所以Redis才叫单线程的模型，它采用I/O多路复用机制来监听多个Socket，根据Socket上的事件类型来选择对应的事件处理器来处理对应事件。

文件事件处理器分为4个部分：多个Socket、I/O多路复用程序、文件事件分派器及其事件处理器
多个Socket可能并发处理不同的操作，但单线程但I/O多路复用程序会监听多个Socket，将Socket放入一个队列中排队，每次从队列中取出一个Socket给事件分派器，事件分派器把Socket交给对应的事件处理器

单线程快的原因：
Redis执行的操作属于I/O密集型操作，更适合单线程操作
1、纯内存操作
2、核心是基于非阻塞的I/O多路复用机制
3、单线程避免了线程上下文切换所带来的开销

数据删除机制

Redis是一种内存级数据库，所有数据均存放在内存中，内存中的数据可以通过TTL指令获取其状态
TTL返回的值有三种情况：正数，-1，-2

正数：代表该数据在内存中还能存活的时间
-1：永久有效的数据
-2 ：已经过期的数据或被删除的数据或未定义的数据

删除策略就是针对已过期数据的处理策略

过期数据是一块独立的存储空间，Hash结构，field是内存地址，value是过期时间，保存了所有key的过期描述，在最终进行过期处理的时候，对该空间的数据进行检测，当时间到期之后通过field找到内存该地址处的数据，然后进行相关操作。

定时删除

创建一个定时器，当key设置有过期时间，且过期时间到达时，由定时器任务立即执行对键的删除操作

优点：节约内存，到时就删除，快速释放掉不必要的内存占用
缺点：CPU压力很大，无论CPU此时负载量多高，均占用CPU，会影响redis服务器响应时间和指令吞吐量
总结：用处理器性能换取存储空间（拿时间换空间）

惰性删除

数据到达过期时间，不做处理。等下次访问该数据时，我们需要判断

如果未过期，返回数据
发现已过期，删除，返回不存在

优点：节约CPU性能，发现必须删除的时候才删除
缺点：内存压力很大，出现长期占用内存的数据
总结：用存储空间换取处理器性能（拿时间换空间）

定期删除

定期删除策略每隔一段时间执行一次删除过期键操作，并通过限制删除操作执行的时长和频率来减少删除操作对CPU时间的影响
通过定期删除过期键，定期删除策略有效地减少了因为过期键而带来的内存浪费
检测时对每一块空间进行逐一检测，循环检测第0-15块空间。
对某个空间进行检测时，随机挑选W个key进行检测：如果key超时，删除key；如果一轮中删除的key的数量>W*4，循环该过程；否则继续检测下一块空间
定时删除：

节约内存，无占用,
不分时段占用CPU资源，频度高,
拿时间换空间

惰性删除

内存占用严重
延时执行，CPU利用率高
拿空间换时间

定期删除

内存定期随机清理
每秒花费固定的CPU资源维护内存
随机抽查，重点抽查

缓存淘汰机制

当新数据进入redis时，如果内存不足怎么办？在执行每一个命令前，会调用freeMemoryIfNeeded()检测内存是否充足。如果内存不满足新加入数据的最低存储要求，redis要临时删除一些数据为当前指令清理存储空间。清理数据的策略称为逐出算法。
有三类共8种逐出算法：

第一类：检测易失数据（可能会过期的数据集server.db[i].expires ）
volatile-lru：挑选最近最少使用的数据淘汰
volatile-lfu：挑选最近使用次数最少的数据淘汰
volatile-ttl：挑选将要过期的数据淘汰
volatile-random：任意选择数据淘汰

第二类：检测全库数据（所有数据集server.db[i].dict ）
allkeys-lru：挑选最近最少使用的数据淘汰
allkeLyRs-lfu：：挑选最近使用次数最少的数据淘汰
allkeys-random：任意选择数据淘汰，相当于随机

第三类：放弃数据驱逐
maxmemory-policy volatile-lru

集群方式

主从复制

主从复制的作用

读写分离：master写、slave读，提高服务器的读写负载能力
负载均衡：基于主从结构，配合读写分离，由slave分担master负载，并根据需求的变化，改变slave的数量，通过多个从节点分担数据读取负载，大大提高Redis服务器并发量与数据吞吐量
故障恢复：当master出现问题时，由slave提供服务，实现快速的故障恢复
数据冗余：实现数据热备份，是持久化之外的一种数据冗余方式
高可用基石：基于主从复制，构建哨兵模式与集群，实现Redis的高可用方案

工作流程

主从复制过程大体可以分为3个阶段

建立连接阶段（即准备阶段）
数据同步阶段
命令传播阶段（反复同步）

常见问题

频繁的全量复制

伴随着系统的运行，master的数据量会越来越大，一旦master重启，runid将发生变化，会导致全部slave的全量复制操作
1：master内部创建master_replid变量，使用runid相同的策略生成，长度41位，并发送给所有slave
2：在master关闭时执行命令shutdown save，进行RDB持久化，将runid与offset保存到RDB文件中
3：master重启后加载RDB文件，恢复数据，重启后，将RDB文件中保存的repl-id与repl-offset加载到内存中

复制缓冲区过小，断网后slave的offset越界，触发全量复制

可通过修改复制缓冲区大小防止频繁全量复制，建议设置如下：
1.测算从master到slave的重连平均时长second
2.获取master平均每秒产生写命令数据总量write_size_per_second
3.最优复制缓冲区空间 = 2 second write_size_per_second

master的CPU占用过高

slave每1秒会发送REPLCONFACK命令到master，但当slave接到了慢查询时（keys * ，hgetall等），会大量占用CPU性能。这时master每1秒调用复制定时函数replicationCron()，比对slave发现长时间没有进行响应
于是导致master各种资源（输出缓冲区、带宽、连接等）被严重占用
解决：通过设置合理的超时时间，确认是否释放slave。通过设置repl-timeout [seconds]设置超时时间阈值

slave频繁断开连接

原因：master发送ping指令频度较低；master设定超时时间较短；ping指令在网络中存在丢包
解决方案：提高ping指令发送的频度

数据不一致（slave获取数据不同步）

由于网络信息不同步，数据发送有延迟
1、优化主从间的网络环境，通常放置在同一个机房部署，如使用阿里云等云服务器时要注意此现象
2、监控主从节点延迟（通过offset）判断，如果slave延迟过大，暂时屏蔽程序对该slave的数据访问

哨兵模式

哨兵(sentinel) 是一个分布式系统，用于对主从结构中的每台服务器进行监控，当出现故障时通过投票机制选择新的master并将所有slave连接到新的master。（注意：哨兵也是一台redis服务器，只是不提供数据相关服务，通常哨兵的数量配置为单数）

哨兵在进行主从切换中的作用

监控：监控master和slave
不断的检查master和slave是否正常运行
master存活检测、master与slave运行情况检测
通知（提醒）：当被监控的服务器出现问题时，向其他（哨兵间，客户端）发送通知
自动故障转移：断开master与slave连接，选取一个slave作为master，将其他slave连接新的master，并告知客户端新的服务器地址
监控：用于同步各个节点的状态信息（包括各个sentinel, master, slave）
通知：sentinel在通知阶段要不断的去获取master/slave的信息，然后在各个sentinel之间进行共享
故障转移：
1. 发现问题，主观下线与客观下线
2. 竞选负责人
3. 优选新master
4. 新master上任，其他slave切换master，原master作为slave故障恢复后连接

企业级解决方案

缓存预热

场景：“宕机”

服务器启动后迅速宕机

问题排查：

1.请求数量较高，大量的请求过来之后都需要去从缓存中获取数据，但是缓存中又没有，此时从数据库中查找数据然后将数据再存入缓存，造成了短期内对redis的高强度操作从而导致问题

2.主从之间数据吞吐量较大，数据同步操作频度较高

解决方案：

前置准备工作：

1.日常例行统计数据访问记录，统计访问频度较高的热点数据

2.利用LRU数据删除策略，构建数据留存队列例如：storm与kafka配合

准备工作：

1.将统计结果中的数据分类，根据级别，redis优先加载级别较高的热点数据

2.利用分布式多服务器同时进行数据读取，提速数据加载过程

3.热点数据主从同时预热

实施：

4.使用脚本程序固定触发数据预热过程

5.如果条件允许，使用了CDN（内容分发网络），效果会更好

总的来说：缓存预热就是系统启动前，提前将相关的缓存数据直接加载到缓存系统。避免在用户请求的时候，先查询数据库，然后再将数据缓存的问题！用户直接查询事先被预热的缓存数据！

缓存雪崩

场景：数据库服务器崩溃，一连串的场景会随之儿来
1.系统平稳运行过程中，忽然数据库连接量激增
2.应用服务器无法及时处理请求
3.大量408，500错误页面出现
4.客户反复刷新页面获取数据
5.数据库崩溃
6.应用服务器崩溃
7.重启应用服务器无效
8.Redis服务器崩溃
9.Redis集群崩溃
10.重启数据库后再次被瞬间流量放倒

问题排查：

1.在一个较短的时间内，缓存中较多的key集中过期
2.此周期内请求访问过期的数据，redis未命中，redis向数据库获取数据
3.数据库同时接收到大量的请求无法及时处理
4.Redis大量请求被积压，开始出现超时现象
5.数据库流量激增，数据库崩溃
6.重启后仍然面对缓存中无数据可用
7.Redis服务器资源被严重占用，Redis服务器崩溃
8.Redis集群呈现崩塌，集群瓦解
9.应用服务器无法及时得到数据响应请求，来自客户端的请求数量越来越多，应用服务器崩溃
10.应用服务器，redis，数据库全部重启，效果不理想
总而言之就两点：短时间范围内，大量key集中过期

解决方案

思路：

1.更多的页面静态化处理
2.构建多级缓存架构
Nginx缓存+redis缓存+ehcache缓存
3.检测Mysql严重耗时业务进行优化
对数据库的瓶颈排查：例如超时查询、耗时较高事务等
4.灾难预警机制
监控redis服务器性能指标
CPU占用、CPU使用率
内存容量
查询平均响应时间
线程数
5.限流、降级
短时间范围内牺牲一些客户体验，限制一部分请求访问，降低应用服务器压力，待业务低速运转后再逐步放开访问

落地实践：

1.LRU与LFU切换
2.数据有效期策略调整
根据业务数据有效期进行分类错峰，A类90分钟，B类80分钟，C类70分钟
过期时间使用固定时间+随机值的形式，稀释集中到期的key的数量
3.超热数据使用永久key
4.定期维护（自动+人工）
对即将过期数据做访问量分析，确认是否延时，配合访问量统计，做热点数据的延时
5.加锁：慎用！

总的来说：缓存雪崩就是瞬间过期数据量太大，导致对数据库服务器造成压力。如能够有效避免过期时间集中，可以有效解决雪崩现象的出现（约40%），配合其他策略一起使用，并监控服务器的运行数据，根据运行记录做快速调整。

缓存击穿

场景：还是数据库服务器崩溃，但是跟之前的场景有点不太一样
1.系统平稳运行过程中
2.数据库连接量瞬间激增
3.Redis服务器无大量key过期
4.Redis内存平稳，无波动
5.Redis服务器CPU正常
6.数据库崩溃

问题排查：

1.Redis中某个key过期，该key访问量巨大
2.多个数据请求从服务器直接压到Redis后，均未命中
3.Redis在短时间内发起了大量对数据库中同一数据的访问
总而言之就两点：单个key高热数据，key过期

解决方案：

1.预先设定
以电商为例，每个商家根据店铺等级，指定若干款主打商品，在购物节期间，加大此类信息key的过期时长注意：购物节不仅仅指当天，以及后续若干天，访问峰值呈现逐渐降低的趋势
2.现场调整
监控访问量，对自然流量激增的数据延长过期时间或设置为永久性key
3.后台刷新数据
启动定时任务，高峰期来临之前，刷新数据有效期，确保不丢失
4.二级缓存
设置不同的失效时间，保障不会被同时淘汰就行
5.加锁
分布式锁，防止被击穿，但是要注意也是性能瓶颈，慎重！

总的来说：缓存击穿就是单个高热数据过期的瞬间，数据访问量较大，未命中redis后，发起了大量对同一数据的数据库访问，导致对数据库服务器造成压力。应对策略应该在业务数据分析与预防方面进行，配合运行监控测试与即时调整策略，毕竟单个key的过期监控难度较高，配合雪崩处理策略即可。

缓存穿透

场景：数据库服务器又崩溃了，跟之前的一样吗？

1.系统平稳运行过程中
2.应用服务器流量随时间增量较大
3.Redis服务器命中率随时间逐步降低
4.Redis内存平稳，内存无压力
5.Redis服务器CPU占用激增
6.数据库服务器压力激增
7.数据库崩溃

问题排查：

1.Redis中大面积出现未命中

2.出现非正常URL访问

问题分析：

获取的数据在数据库中也不存在，数据库查询未得到对应数据
Redis获取到null数据未进行持久化，直接返回
下次此类数据到达重复上述过程
出现黑客攻击服务器

解决方案：

1.缓存null
对查询结果为null的数据进行缓存（长期使用，定期清理），设定短时限，例如30-60秒，最高5分钟
2.白名单策略
提前预热各种分类数据id对应的bitmaps，id作为bitmaps的offset，相当于设置了数据白名单。当加载正常数据时放行，加载异常数据时直接拦截（效率偏低）
使用布隆过滤器（有关布隆过滤器的命中问题对当前状况可以忽略）
2.实施监控
实时监控redis命中率（业务正常范围时，通常会有一个波动值）与null数据的占比
非活动时段波动：通常检测3-5倍，超过5倍纳入重点排查对象
活动时段波动：通常检测10-50倍，超过50倍纳入重点排查对象
根据倍数不同，启动不同的排查流程。然后使用黑名单进行防控（运营）
4.key加密
问题出现后，临时启动防灾业务key，对key进行业务层传输加密服务，设定校验程序，过来的key校验
例如每天随机分配60个加密串，挑选2到3个，混淆到页面数据id中，发现访问key不满足规则，驳回数据访问

总的来说：缓存击穿是指访问了不存在的数据，跳过了合法数据的redis数据缓存阶段，每次访问数据库，导致对数据库服务器造成压力。通常此类数据的出现量是一个较低的值，当出现此类情况以毒攻毒，并及时报警。应对策略应该在临时预案防范方面多做文章。

无论是黑名单还是白名单，都是对整体系统的压力，警报解除后尽快移除。