• 一个页一般 16KB
  • 有多种页, 我们聚焦于存放表中记录的页, 官方称该种类型页为索引 (INDEX) 页. 目前暂时称为数据页

数据页结构 (总览)

image.png

名称 翻译 占用空间大小 简单描述
File Header 文件头部 38B ⻚的一些通用信息
Page Header ⻚面头部 56B 数据⻚专有的一些信息
Infimum + Supremum 最小记录和最大记录 26B 两个虚拟的行记录
User Records 用户记录 不确定 实际存储的行记录内容
Free Space 空闲空间 不确定 ⻚中尚未使用的空间
Page Directory ⻚面目录 不确定 ⻚中的某些记录的相对位置
File Trailer 文件尾部 8B 校验⻚是否完整

记录在页中的存储

image.png

image.png

记录头含义

delete_mask

这个属性标记着当前记录是否被删除,占用1个二进制位,值为0的时候代表记录并没有被删除,为1的时候代表记录被删除掉了。

min_rec_mask

B+树的每层非叶子节点中的最小记录都会添加该标记.

n_owned

参考: 页目录

每组记录个的数.

heap_no

表示当前记录在本页中的位置. 0, 1记录由 mysql 自动插入:

  • 0: 最小记录
  • 1: 最大记录
  • 其他: 用户数据记录

最小记录与最大记录的结构:

  • 记录头信息: 5B
  • 固定部分: 8B
  • 两个记录总共26B

InnoDB 数据页结构 - 图4

最小记录和最大记录在 Infimum + Supremum 部分:

InnoDB 数据页结构 - 图5

record_type

表示记录类型, 有四种:

  • 0: 普通记录
  • 1: B+树非叶节点记录
  • 2: 最小记录
  • 3: 最大记录

next_record

表示从当前记录的真实数据下一条记录的真实数据的地址偏移量:

  • 规定 Infimum记录(也就是最小记录) 的下一条记录就是本页中主键值最小的用户记录,而本页中主键值最大的用户记录的下一条记录就是 Supremum记录(也就是最大记录)

image.png

删除一条记录:

image.png

小贴士:

你会不会觉得next_record这个指针有点儿怪,为啥要指向记录头信息和真实数据之间的位置呢?为啥不干脆指向整条记录的开头位置,也就是记录的额外信息开头的位置呢?

因为这个位置刚刚好,向左读取就是记录头信息,向右读取就是真实数据。我们前边还说过变长字段长度列表、NULL值列表中的信息都是逆序存放,这样可以使记录中位置靠前的字段和它们对应的字段长度信息在内存中的距离更近,可能会提高高速缓存的命中率。当然如果你看不懂这句话的话就不要勉强了,果断跳过~

再次插入后重用空间:

image.png

小贴士:

当数据页中存在多条被删除掉的记录时,这些记录的next_record属性将会把这些被删除掉的记录组成一个垃圾链表,以备之后重用这部分存储空间。

也就是说有两个链表.

页目录 (Page Directory)

如何在页中快速查找记录?

  • 将 user records 中的记录划分为组
  • 每组的最后一条记录中, 在 n_owned 字段上记录改组记录的条数 (包括自己)
  • 把每组最后一条记录的偏移地址放到 page directory 中, 这里的偏移地址称为槽 (slot). 联想跳表

image.png

逻辑上的图示:

image.png

分组要求:

  • 最小记录为一组
  • 最大记录所在分组条数 1~8
  • 其他分组跳数 4~8
  • 插入时类似跳表, 满了就分裂, 新建槽

插入过程:

  1. 初始情况下一个数据页里只有最小记录和最大记录两条记录,它们分属于两个分组。
  2. 之后每插入一条记录,都会从页目录中找到主键值比本记录的主键值大并且差值最小的槽,然后把该槽对应的记录的n_owned值加1,表示本组内又添加了一条记录,直到该组中的记录数等于8个。
  3. 在一个组中的记录数等于8个后再插入一条记录时,会将组中的记录拆分成两个组,一个组中4条记录,另一个5条记录。这个过程会在页目录中新增一个槽来记录这个新增分组中最大的那条记录的偏移量。

插入多条后分组图示:

image.png

页面头部 (Page Header)

  • 关于数据页的各种状态信息
  • 定义了很多字段, 看手册即可

名称 占用空间大小 描述
PAGE_N_DIR_SLOTS 2字节 在页目录中的槽数量
PAGE_HEAP_TOP 2字节 还未使用的空间最小地址,也就是说从该地址之后就是Free Space
PAGE_N_HEAP 2字节 本页中的记录的数量(包括最小和最大记录以及标记为删除的记录)
PAGE_FREE 2字节 第一个已经标记为删除的记录地址(各个已删除的记录通过next_record也会组成一个单链表,这个单链表中的记录可以被重新利用)
PAGE_GARBAGE 2字节 已删除记录占用的字节数
PAGE_LAST_INSERT 2字节 最后插入记录的位置
PAGE_DIRECTION 2字节 记录插入的方向
PAGE_N_DIRECTION 2字节 一个方向连续插入的记录数量
PAGE_N_RECS 2字节 该页中记录的数量(不包括最小和最大记录以及被标记为删除的记录)
PAGE_MAX_TRX_ID 8字节 修改当前页的最大事务ID,该值仅在二级索引中定义
PAGE_LEVEL 2字节 当前页在B+树中所处的层级
PAGE_INDEX_ID 8字节 索引ID,表示当前页属于哪个索引
PAGE_BTR_SEG_LEAF 10字节 B+树叶子段的头部信息,仅在B+树的Root页定义
PAGE_BTR_SEG_TOP 10字节 B+树非叶子段的头部信息,仅在B+树的Root页定义

PAGE_DIRECTION

假如新插入的一条记录的主键值比上一条记录的主键值大,我们说这条记录的插入方向是右边,反之则是左边。用来表示最后一条记录插入方向的状态就是PAGE_DIRECTION

PAGE_N_DIRECTION

假设连续几次插入新记录的方向都是一致的,InnoDB会把沿着同一个方向插入记录的条数记下来,这个条数就用PAGE_N_DIRECTION这个状态表示。当然,如果最后一条记录的插入方向改变了的话,这个状态的值会被清零重新统计。

文件头部 (File Header)

  • 各种页的通用信息

名称 占用空间大小 描述
FIL_PAGE_SPACE_OR_CHKSUM 4字节 页的校验和(checksum值)
FIL_PAGE_OFFSET 4字节 页号
FIL_PAGE_PREV 4字节 上一个页的页号
FIL_PAGE_NEXT 4字节 下一个页的页号
FIL_PAGE_LSN 8字节 页面被最后修改时对应的日志序列位置(英文名是:Log Sequence Number)
FIL_PAGE_TYPE 2字节 该页的类型
FIL_PAGE_FILE_FLUSH_LSN 8字节 仅在系统表空间的一个页中定义,代表文件至少被刷新到了对应的LSN值
FIL_PAGE_ARCH_LOG_NO_OR_SPACE_ID 4字节 页属于哪个表空间

FIL_PAGE_SPACE_OR_CHKSUM

代表当前页面的校验和(checksum)

FIL_PAGE_OFFSET

页号, InnoDB通过页号来可以唯一定位一个页.

FIL_PAGE_TYPE

上面介绍的页是数据页, 所有的页类型:

类型名称 十六进制 描述
FIL_PAGE_TYPE_ALLOCATED 0x0000 最新分配,还没使用
FIL_PAGE_UNDO_LOG 0x0002 Undo日志页
FIL_PAGE_INODE 0x0003 段信息节点
FIL_PAGE_IBUF_FREE_LIST 0x0004 Insert Buffer空闲列表
FIL_PAGE_IBUF_BITMAP 0x0005 Insert Buffer位图
FIL_PAGE_TYPE_SYS 0x0006 系统页
FIL_PAGE_TYPE_TRX_SYS 0x0007 事务系统数据
FIL_PAGE_TYPE_FSP_HDR 0x0008 表空间头部信息
FIL_PAGE_TYPE_XDES 0x0009 扩展描述页
FIL_PAGE_TYPE_BLOB 0x000A 溢出页
FIL_PAGE_INDEX 0x45BF 索引页,也就是我们所说的数据页

FIL_PAGE_PREV和FIL_PAGE_NEXT

FIL_PAGE_PREV和FIL_PAGE_NEXT就分别代表本页的上一个和下一个页的页号。这样通过建立一个双向链表把许许多多的页就都串联起来了,而无需这些页在物理上真正连着。

  • 并不是所有类型的页都有上一个和下一个页的属性

数据页其实是一个双链表:

InnoDB 数据页结构 - 图12

File Trailer

为了检测一个页是否完整(也就是在同步的时候有没有发生只同步一半的尴尬情况),设计InnoDB的大叔们在每个页的尾部都加了一个File Trailer部分,这个部分由8个字节组成,可以分成2个小部分:

  • 前4个字节代表页的校验和

这个部分是和File Header中的校验和相对应的。每当一个页面在内存中修改了,在同步之前就要把它的校验和算出来,因为File Header在页面的前边,所以校验和会被首先同步到磁盘,当完全写完时,校验和也会被写到页的尾部,如果完全同步成功,则页的首部和尾部的校验和应该是一致的。如果写了一半儿断电了,那么在File Header中的校验和就代表着已经修改过的页,而在File Trailer中的校验和代表着原先的页,二者不同则意味着同步中间出了错。

  • 后4个字节代表页面被最后修改时对应的日志序列位置(LSN)