深入瞭解MySQL中索引優化器的工作原理

2022-11-11 14:02:32

本文導讀

本文將解讀MySQL資料庫查詢優化器（CBO）的工作原理。簡單介紹了MySQL Server的組成，MySQL優化器選擇索引額原理以及SQL成本分析，最後通過 select 查詢總結整個查詢過程。

一、MySQL 優化器是如何選擇索引的

下面我們來看這張表，SUB_ODR_ID欄位建立了相關的 2 個索引，根據我們前面所學我們建立一個PRIMARY KEY (ID)自增主鍵索引，(LOG_ID, SUB_ODR_ID)設定為聯合索引、唯一索引，兩個時間CREATE_TIME、UPDATE_TIME分別設定兩個索引。

CREATE TABLE `***`  (
  `ID` bigint(20) NOT NULL AUTO_INCREMENT COMMENT '主鍵id',
  `LOG_ID` varchar(32) NOT NULL COMMENT '交易流水號',
  `ODR_ID` varchar(32) NOT NULL COMMENT '父單號',
  `SUB_ODR_ID` varchar(32) NOT NULL COMMENT '子單號',
  `CREATE_TIME` datetime(0) NOT NULL COMMENT '建立時間',
  `CREATE_BY` varchar(32) NOT NULL COMMENT ' 建立人',
  `UPDATE_TIME` datetime(0) NOT NULL DEFAULT CURRENT_TIMESTAMP(0) ON UPDATE CURRENT_TIMESTAMP(0) COMMENT '更新時間',
  `UPDATE_BY` varchar(32) NOT NULL COMMENT '更新人',
  PRIMARY KEY (`ID`) USING BTREE,
  UNIQUE INDEX `UNQ_LOG_SUBODR_ID`(`LOG_ID`, `SUB_ODR_ID`) USING BTREE,
  INDEX `IDX_ODR_ID`(`ODR_ID`) USING BTREE,
  INDEX `IDX_SUB_ID`(`SUB_ODR_ID`) USING BTREE,
  INDEX `IDX_CREATE_TIME`(`CREATE_TIME`) USING BTREE,
  INDEX `IDX_UPDATE_TIME`(`UPDATE_TIME`) USING BTREE
) ENGINE = InnoDB AUTO_INCREMENT = 1 SET = utf8 COLLATE = utf8_general_ci COMMENT = '分攤業務明細表' ROW_FORMAT = Dynamic;

在查詢欄位 SUB_ODR_ID 中，理論上可以使用三個相關的索引：UNQ_LOG_SUBODR_ID、IDX_SUB_ID，MySQL優化器如何從這三個索引中進行選擇？

在關聯式資料庫中，B+樹只是用於儲存的資料結構。

如何使用它取決於資料庫的優化器。優化器確定特定索引的選擇，即執行計劃。優化器的選擇基於成本，成本越低，首選指數越高。

1、MySQL資料庫組成

MySQL資料庫由Server（伺服器）層和Engine（引擎）層組成。

Serve層有SQL分析器、SQL優化器和SQL執行器，負責SQL語句的具體執行過程。

Engine層負責儲存特定資料，例如最常用的InnoDB儲存引擎，以及用於在記憶體中儲存臨時結果集的TempTable引擎。

SQL優化器將分析所有可能的執行計劃，並選擇成本最低的執行。這個優化器被稱為CBO（基於成本的優化器）。

2、MySQL資料庫成本計算

在 MySQL中，一條 SQL 的計算成本計算，很好理解，就是存取資料庫（資料庫頁、磁碟）+處理資料。

CPU成本，表示計算成本，例如索引鍵值的比較、記錄值的比較和結果集的排序。這些操作都在伺服器層完成

IO成本，表示引擎級IO的成本，MySQL 8.0可以通過區分表的資料是否在記憶體中來分別計算讀取記憶體IO和磁碟IO的成本。

Cost  = Server Cost + Engine Cost  = CPU Cost + IO Cost

MySQL優化器認為，如果一段SQL需要建立一個基於磁碟的臨時表，那麼此時的成本是最大的，是基於記憶體的臨時表的20倍。比較索引鍵值和記錄的成本很低，但如果要比較的記錄很多，成本就會非常大。

MySQL 優化器認為，從磁碟讀取的開銷是記憶體開銷的 4 倍（成本不是一成不變的會根據硬體變化）。

二、MySQL查詢成本

檢視各成本的值，MySQL優化器的工作原理，我們執行下面這行SQL語句，分析執行過程，MySQL 索引選擇是基於 SQL 執行成本

EXPLAIN FORMAT=json 
select * from test.fork_business_detail f where f.sub_odr_id = ''

read_cost表示從InnoDB儲存引擎讀取的成本；

eval_cost表示伺服器層的CPU成本；

prefix_cost表示SQL的總成本；

data_read_per_join 表示讀取記錄中的位元組總數。

{
	"query_block": {
		"cost_info": {
			"query_cost": "1.20"
		},
		"table": {
			"access_type": "ref",
			"possible_keys": [
				"IDX_SUB_ID"
			],
			"key": "IDX_SUB_ID",
			"used_key_parts": [
				"SUB_ODR_ID"
			],
			"key_length": "98",
			"ref": [
				"const"
			],
			"cost_info": {
				"read_cost": "1.00",
				"eval_cost": "0.20",
				"prefix_cost": "1.20",
				"data_read_per_join": "1K"
			},
			"used_columns": [
				"ID",
				"LOG_ID",
				"ODR_ID",
				"SUB_ODR_ID",
				"CREATE_TIME",
				"CREATE_BY",
				"UPDATE_TIME",
				"UPDATE_BY"
			]
		}
	}
}