某个列唯一键(Distinct_Keys)的数量叫作基数。比如性别列,该列只有男女之分,所以这一列基数是 2。主键列的基数等于表的总行数。基数的高低影响列的数据分布。

以测试表 test 为例,owner 列和 object_id 列的基数分别如下所示。

  1. select count(distinct owner),count(distinct object_id),count(*) from test;
  1. COUNT(DISTINCTOWNER) COUNT(DISTINCTOBJECT_ID) COUNT(*)
  2. -------------------- ------------------------ ----------
  3. 29 72462 72462

Screen Shot 2021-11-02 at 9.27.28 AM.png
TEST 表的总行数为 72 462,owner 列的基数为 29,说明 owner 列里面有大量重复值,object_id 列的基数等于总行数,说明 object_id 列没有重复值,相当于主键。owner 列的数据分布如下。

  1. select owner,count(*) from test group by owner order by 2 desc;
  1. OWNER COUNT(*)
  2. -------------------- ----------
  3. SYS 30808
  4. PUBLIC 27699
  5. SYSMAN 3491
  6. ORDSYS 2532
  7. APEX_030200 2406
  8. MDSYS 1509
  9. XDB 844
  10. OLAPSYS 719
  11. SYSTEM 529
  12. CTXSYS 366
  13. WMSYS 316
  14. EXFSYS 310
  15. SH 306
  16. ORDDATA 248
  17. OE 127
  18. DBSNMP 57
  19. IX 55
  20. HR 34
  21. PM 27
  22. FLOWS_FILES 12
  23. OWBSYS_AUDIT 12
  24. ORDPLUGINS 10
  25. OUTLN 9
  26. BI 8
  27. SI_INFORMTN_SCHEMA 8
  28. ORACLE_OCM 8
  29. SCOTT 7
  30. APPQOSSYS 3
  31. OWBSYS 2

owner 列的数据分布极不均衡,我们运行如下 SQL。

  1. select * from test where owner='SYS';

SYS 有 30 808 条数据,从 72 462 条数据里面查询 30 808 条数据,也就是说要返回表中 42.5% 的数据。

  1. select 30808/72462*100 "Percent" from dual;
  1. Percent
  2. ----------
  3. 42.5160774

那么请思考,你认为以上查询应该使用索引吗?现在我们换一种查询语句。

  1. select * from test where owner='SCOTT';

SCOTT 有 7 条数据,从 72 462 条数据里面查询 7 条数据,也就是说要返回表中 0.009% 的数据。

  1. select 7/72462*100 "Percent" from dual;
  1. Percent
  2. ----------
  3. .009660236

请思考,返回表中 0.009% 的数据应不应该走索引?

如果你还不懂索引,没关系,后面的章节我们会详细介绍。如果你回答不了上面的问题,我们先提醒一下。当查询结果是返回表中 5% 以内的数据时,应该走索引;当查询结果返回的是超过表中 5% 的数据时,应该走全表扫描。

当然了,返回表中 5% 以内的数据走索引,返回超过 5% 的数据就使用全表扫描,这个结论太绝对了,因为你还没掌握后面章节的知识,这里暂且记住 5% 这个界限就行。我们之所以在这里讲 5%,是怕一些初学者不知道上面问题的答案而纠结。

现在有如下查询语句。

  1. select * from test where owner=:B1;

语句中,「:B1」是绑定变量,可以传入任意值,该查询可能走索引也可能走全表扫描。

现在得到一个结论:如果某个列基数很低,该列数据分布就会非常不均衡,由于该列数据分布不均衡,会导致 SQL 查询可能走索引,也可能走全表扫描。在做 SQL 优化的时候,如果怀疑列数据分布不均衡,我们可以使用 select 列,count(*) from 表 group by 列 order by 2 desc 来查看列的数据分布。

如果 SQL 语句是单表访问,那么可能走索引,可能走全表扫描,也可能走物化视图扫描。在不考虑有物化视图的情况下,单表访问要么走索引,要么走全表扫描。现在,回忆一下走索引的条件:返回表中 5% 以内的数据走索引,超过 5% 的时候走全表扫描。相信大家读到这里,已经搞懂了单表访问的优化方法。

我们来看如下查询。

  1. select * from test where object_id=:B1;

不管 object_id 传入任何值,都应该走索引。

我们再思考如下查询语句。

  1. select * from test where object_name=:B1;

不管给 object_name 传入任何值,请问该查询应该走索引吗?

请你去查看 object_name 的数据分布。写到这里,其实有点想把本节名称改为「数据分布」。大家在以后的工作中一定要注意列的数据分布!

本节SQL

  1. SELECT COUNT(DISTINCT owner),COUNT(DISTINCT object_id),COUNT(*) FROM TEST;
  2. SELECT owner,COUNT(*) FROM test GROUP BY owner ORDER BY 2 DESC ;
  3. SELECT OBJECT_NAME,COUNT(*) FROM TEST GROUP BY OBJECT_NAME ORDER BY 2 DESC ;