MySQL 45 讲学习笔记 ☞ 04 深入浅出索引（上）

索引的搜索流程？

索引的常见模型

实现索引的方式有很多种，引入了索引模型的概念。介绍三种常见、简单的数据结构：

哈希表

以键 - 值（key-value）存储数据的结构（其 value 值不妨考虑拉出一个链表，存储相同哈希结果 key 值）。

优点：增加数据的速度比较快，直接追加哈希即可。适用于只有等值查询的场景。

缺点：索引无序，区间查询速度较慢。

有序数组

优点：在等值查询和范围查询场景中的性能就都非常优秀。

缺点：插入记录需要挪动后面所有的记录，成本较高，只适用于静态存储引擎。

搜索树

经典的数据结构了，搜索时间复杂度是 O(log(N))，注意为了保持为平衡二叉树，更新的时间复杂度也是 O(log(N))。

但是即使二叉树是搜索效率最高的，但是实际上大多数的数据库存储却并不使用二叉树。其原因是，索引不止存在内存中，还要写到磁盘上。

为了让一个查询尽量少地读磁盘，就必须让查询过程访问尽量少的数据块。那么，要使用的是“N 叉”树。

N 叉树由于在读写上的性能优点，以及适配磁盘的访问模式，已经被广泛应用在数据库引擎中了。

索引的实现

在 MySQL 中，索引是在存储引擎层实现的。

InnoDB 的索引模型

在 InnoDB 中，表都是根据主键顺序以索引的形式存放的，这种存储方式的表称为索引组织表。又因为前面我们提到的，InnoDB 使用了 B+ 树索引模型，所以数据都是存储在 B+ 树中的。

简单建立带索引的表：

mysql> create table T(
    id int primary key, 
    k int not null, 
    name varchar(16),
    index (k)
)engine=InnoDB;

这时候索引数的示例示意图如下：

InnoDB 的索引组织结构

从图中不难看出，根据叶子节点的内容，索引类型分为主键索引和非主键索引。

主键索引的叶子节点存的是整行数据。在 InnoDB 里，主键索引也被称为聚簇索引（clustered index）。
非主键索引的叶子节点内容是主键的值。在 InnoDB 里，非主键索引也被称为二级索引（secondary index）

基于主键索引和普通索引的查询有什么区别？

如果语句是 select * from T where ID=500，即主键查询方式，则只需要搜索 ID 这棵 B+ 树；

如果语句是 select * from T where k=5，即普通索引查询方式，则需要先搜索 k 索引树，得到 ID 的值为 500，再到 ID 索引树搜索一次。这个过程称为回表。

也就是说，基于非主键索引的查询需要多扫描一棵索引树。因此，我们在应用中应该尽量使用主键查询。

索引维护

插入新的记录时，需要逻辑上挪动数据页的数据，腾出位置。如果数据页满了，根据 B+ 树的算法，这时候需要申请一个新的数据页，然后挪动部分数据过去。这个过程称为页分裂。

分裂页把原本一个页的数据，分到两个页中，整体空间利用路降低约50%。

当然有分裂就有合并。当相邻两个页由于删除了数据，利用率很低之后，会将数据页做合并。合并的过程，可以认为是分裂过程的逆过程。

自增主键？

建表语句：id NOT NULL PRIMARY KEY AUTO_INCREMENT

插入新记录的时候可以不指定 ID 的值，系统会获取当前 ID 最大值加 1 作为下一条记录的 ID 值。

也就是说，自增主键的插入数据模式，正符合了我们前面提到的递增插入的场景。每次插入一条新记录，都是追加操作，都不涉及到挪动其他记录，也不会触发叶子节点的分裂。

（回想一下上文提交到的回表）可以得知，主键长度越小，普通索引的叶子节点就越小，普通索引占用的空间也就越小。

所以，从性能和存储空间方面考量，自增主键往往是更合理的选择。

当只有一个索引且改索引必须是唯一索引的时候，可以用业务字段直接做主键，这是典型的 KV 场景，这时候页没有其他索引，页不用考虑其他索引的叶子节点大小问题。

MySQL 45 讲学习笔记 ☞ 04 深入浅出索引（上） @ Author Name | 2021-07-12T10:37:09+08:00 | 3 分钟阅读

索引的常见模型

索引的实现

InnoDB 的索引模型

索引维护

自增主键？

FnEsc 的博客一边担心未来，一边浪费现在。