MySQL COUNT(*)效能原理詳解

2022-08-08 18:00:35

前言

在實際開發過程中，統計一個表的資料量是經常遇到的需求，用來統計資料庫表的行數都會使用COUNT(*)，COUNT(1)或者COUNT(欄位)，但是表中的記錄越來越多，使用COUNT(*)也會變得越來越慢，今天我們就來分析一下COUNT(*)的效能到底如何。

1.COUNT(1)、COUNT(*)與COUNT(欄位)哪個更快？

執行效果：

COUNT(*)MySQL 對count(*)進行了優化，count(*)直接掃描主鍵索引記錄，並不會把全部欄位取出來，直接按行累加。
COUNT(1)InnoDB引擎遍歷整張表，但不取值，server 層對於返回的每一行，放一個數位“1”進去，按行累加。
COUNT(欄位)如果這個“欄位”是定義為NOT NULL，那麼InnoDB 引擎會一行行地從記錄裡面讀出這個欄位，server 層判斷不能為NULL，按行累加;如果這個“欄位”定義允許為NULL，那麼InnoDB 引擎會一行行地從記錄裡面讀出這個欄位，然後把值取出來再判斷一下，不是 NULL才累加。

實驗分析

本文測試使用的環境：

[root@zhyno1 ~]# cat /etc/system-release
CentOS Linux release 7.9.2009 (Core)

[root@zhyno1 ~]# uname -a
Linux zhyno1 3.10.0-1160.62.1.el7.x86_64 #1 SMP Tue Apr 5 16:57:59 UTC 2022 x86_64 x86_64 x86_64 GNU/Linux

測試資料庫採用的是（儲存引擎採用InnoDB，其它引數預設）：

(Mon Jul 25 09:41:39 2022)[root@GreatSQL][(none)]>select version();
+-----------+
| version() |
+-----------+
| 8.0.25-16 |
+-----------+
1 row in set (0.00 sec)

實驗開始：

#首先我們建立一個實驗表

CREATE TABLE test_count (
  `id` int(10) NOT NULL AUTO_INCREMENT PRIMARY KEY,
  `name` varchar(20) NOT NULL,
  `salary` int(1) NOT NULL,
  KEY `idx_salary` (`salary`)
) ENGINE=InnoDB DEFAULT CHARSET=utf8;

#插入1000W條資料
DELIMITER //
CREATE PROCEDURE insert_1000w()
BEGIN
    DECLARE i INT;
    SET i=1;
    WHILE i<=10000000 DO
        INSERT INTO test_count(name,salary) VALUES('KAiTO',1);
        SET i=i+1;
    END WHILE;
END//
DELIMITER ;
#執行儲存過程
call insert_1000w();

接下來我們分別來實驗一下：

COUNT(1)花費了4.19秒

(Sat Jul 23 22:56:04 2022)[root@GreatSQL][test]>select count(1) from test_count;
+----------+
| count(1) |
+----------+
| 10000000 |
+----------+
1 row in set (4.19 sec)

COUNT(*)花費了4.16秒

(Sat Jul 23 22:57:41 2022)[root@GreatSQL][test]>select count(*) from test_count;
+----------+
| count(*) |
+----------+
| 10000000 |
+----------+
1 row in set (4.16 sec)

COUNT(欄位)花費了4.23秒

(Sat Jul 23 22:58:56 2022)[root@GreatSQL][test]>select count(id) from test_count;
+-----------+
| count(id) |
+-----------+
|  10000000 |
+-----------+
1 row in set (4.23 sec)

我們可以再來測試一下執行計劃

COUNT(*)

(Sat Jul 23 22:59:16 2022)[root@GreatSQL][test]>explain select count(*) from test_count;
+----+-------------+------------+------------+-------+---------------+------------+---------+------+---------+----------+-------------+
| id | select_type | table      | partitions | type  | possible_keys | key        | key_len | ref  | rows    | filtered | Extra       |
+----+-------------+------------+------------+-------+---------------+------------+---------+------+---------+----------+-------------+
|  1 | SIMPLE      | test_count | NULL       | index | NULL          | idx_salary | 4       | NULL | 9980612 |   100.00 | Using index |
+----+-------------+------------+------------+-------+---------------+------------+---------+------+---------+----------+-------------+
1 row in set, 1 warning (0.01 sec)

(Sat Jul 23 22:59:48 2022)[root@GreatSQL][test]>show warnings;
+-------+------+-----------------------------------------------------------------------+
| Level | Code | Message                                                               |
+-------+------+-----------------------------------------------------------------------+
| Note  | 1003 | /* select#1 */ select count(0) AS `count(*)` from `test`.`test_count` |
+-------+------+-----------------------------------------------------------------------+
1 row in set (0.00 sec)

COUNT(1)

(Sat Jul 23 23:12:45 2022)[root@GreatSQL][test]>explain select count(1) from test_count;
+----+-------------+------------+------------+-------+---------------+------------+---------+------+---------+----------+-------------+
| id | select_type | table      | partitions | type  | possible_keys | key        | key_len | ref  | rows    | filtered | Extra       |
+----+-------------+------------+------------+-------+---------------+------------+---------+------+---------+----------+-------------+
|  1 | SIMPLE      | test_count | NULL       | index | NULL          | idx_salary | 4       | NULL | 9980612 |   100.00 | Using index |
+----+-------------+------------+------------+-------+---------------+------------+---------+------+---------+----------+-------------+
1 row in set, 1 warning (0.00 sec)

(Sat Jul 23 23:13:02 2022)[root@GreatSQL][test]>show warnings;
+-------+------+-----------------------------------------------------------------------+
| Level | Code | Message                                                               |
+-------+------+-----------------------------------------------------------------------+
| Note  | 1003 | /* select#1 */ select count(1) AS `count(1)` from `test`.`test_count` |
+-------+------+-----------------------------------------------------------------------+
1 row in set (0.00 sec)

COUNT(欄位)

(Sat Jul 23 23:13:14 2022)[root@GreatSQL][test]>explain select count(id) from test_count;
+----+-------------+------------+------------+-------+---------------+------------+---------+------+---------+----------+-------------+
| id | select_type | table      | partitions | type  | possible_keys | key        | key_len | ref  | rows    | filtered | Extra       |
+----+-------------+------------+------------+-------+---------------+------------+---------+------+---------+----------+-------------+
|  1 | SIMPLE      | test_count | NULL       | index | NULL          | idx_salary | 4       | NULL | 9980612 |   100.00 | Using index |
+----+-------------+------------+------------+-------+---------------+------------+---------+------+---------+----------+-------------+
1 row in set, 1 warning (0.00 sec)

(Sat Jul 23 23:13:29 2022)[root@GreatSQL][test]>show warnings;
+-------+------+-----------------------------------------------------------------------------------------------+
| Level | Code | Message                                                                                       |
+-------+------+-----------------------------------------------------------------------------------------------+
| Note  | 1003 | /* select#1 */ select count(`test`.`test_count`.`id`) AS `count(id)` from `test`.`test_count` |
+-------+------+-----------------------------------------------------------------------------------------------+
1 row in set (0.00 sec)

需要注意的是COUNT裡如果是非主鍵欄位的話

(Tue Jul 26 14:01:57 2022)[root@GreatSQL][test]>explain select count(name) from test_count where id <100 ;
+----+-------------+------------+------------+-------+---------------+---------+---------+------+------+----------+-------------+
| id | select_type | table      | partitions | type  | possible_keys | key     | key_len | ref  | rows | filtered | Extra       |
+----+-------------+------------+------------+-------+---------------+---------+---------+------+------+----------+-------------+
|  1 | SIMPLE      | test_count | NULL       | range | PRIMARY       | PRIMARY | 4       | NULL |   99 |   100.00 | Using where |
+----+-------------+------------+------------+-------+---------------+---------+---------+------+------+----------+-------------+
1 row in set, 1 warning (0.00 sec)

實驗結果

1.從上面的實驗我們可以得出，COUNT(*)和COUNT(1)是最快的，其次是COUNT(id)。
2.count(*)被MySQL查詢優化器改寫成了count(0)，並選擇了idx_salary索引。
3.count(1)和count(id)都選擇了idx_salary索引。

實驗結論

總結：COUNT(*)=COUNT(1)>COUNT(id)

MySQL的官方檔案也有說過：

InnoDB handles SELECT COUNT(*) and SELECT COUNT(1) operations in the same way. There is no performance difference

翻譯： InnoDB以相同的方式處理SELECT COUNT（*）和SELECT COUNT（1）操作。沒有效能差異

所以說明了對於COUNT(1)或者是COUNT(*)，MySQL的優化其實是完全一樣的，沒有存在沒有效能的差異。

但是建議使用COUNT(*)，因為這是MySQL92定義的標準統計行數的語法。

2.COUNT(*)與TABLES_ROWS

在InnoDB中，MySQL資料庫每個表佔用的空間、表記錄的行數可以開啟MySQL的information_schema資料庫。在該庫中有一個TABLES表，這個表主要欄位分別是：

TABLE_SCHEMA : 資料庫名
TABLE_NAME：表名
ENGINE：所使用的儲存引擎
TABLES_ROWS：記錄數
DATA_LENGTH：資料大小
INDEX_LENGTH：索引大小

TABLE_ROWS用於顯示這個表當前有多少行，這個命令執行挺快的，那這個TABLE_ROWS能代替count(*)嗎？

我們用TABLES_ROWS查詢一下表記錄條數：

(Sat Jul 23 23:15:14 2022)[root@GreatSQL][test]>SELECT TABLE_ROWS
    -> FROM INFORMATION_SCHEMA.TABLES
    -> WHERE TABLE_NAME = 'test_count';
+------------+
| TABLE_ROWS |
+------------+
|    9980612 |
+------------+
1 row in set (0.03 sec)

可以看到，記錄的條數並不準確，因為InnoDB引擎下TABLES_ROWS行計數僅是大概估計值。

3.COUNT(*)是怎麼樣執行的?

首先要明確的是，MySQL有多種不同引擎，在不同的引擎中，count(*)有不同的實現方式，本文主要介紹的是在InnoDB引擎上的執行流程

在InnoDB儲存引擎中，count(*)函數是先從記憶體中讀取表中的資料到記憶體緩衝區，然後掃描全表獲得行記錄數的。簡單來說就是全表掃描，一個迴圈解決問題，迴圈內: 先讀取一行，再決定該行是否計入count迴圈內是一行一行進行計數處理的。

在MyISAM引擎中是把一個表的總行數存在了磁碟上，因此執行count(*)的時候會直接返回這個數，效率很高。

之所以InnoDB 不跟 MyISAM一樣把數位存起來，是因為即使是在同一個時刻的多個查詢，由於多版本並行控制(MVCC)的原因，InnoDB表應該返回多少行也是不確定的。而且不論是在事務支援、並行能力還是在資料安全方面，InnoDB都優於MyISAM。

雖然如此，InnoDB對於count(*)操作還是做了優化的。InnoDB是索引組織表，主鍵索引樹的葉子節點是資料，而普通索引樹的葉子節點是主鍵值。所以，普通索引樹比主鍵索引樹小很多。對於count(*)這樣的操作，遍歷哪個索引樹得到的結果邏輯上都是一樣的。因此，MySQL 優化器會找到最小的那棵樹來遍歷。

需要注意的是我們在這篇文章裡討論的是沒有過濾條件的count(*)，如果加了WHERE條件的話，MyISAM引擎的表也是不能返回得這麼快的。

4.總結

1.COUNT(*)=COUNT(1)>COUNT(id)
2.COUNT函數的用法，主要用於統計表行數。主要用法有COUNT(*)、COUNT(欄位)和COUNT(1)
3.因為COUNT(*)是SQL92定義的標準統計行數的語法，所以MySQL對他進行了很多優化，MyISAM中會直接把表的總行數單獨記錄下來供COUNT(*)查詢，而InnoDB則會在掃表的時候選擇最小的索引來降低成本。這些優化的前提是沒有進行WHERE和GROUP的條件查詢。
4.在InnoDB中COUNT(*)和COUNT(1)實現上沒有區別，而且效率一樣，但是COUNT(欄位)需要進行欄位的非NULL判斷，所以效率會低一些。
5.因為COUNT(*)是SQL92定義的標準統計行數的語法，並且效率高，所以還是建議使用COUNT(*)查詢表的行數。
6.正如前面COUNT(name)的用例那樣，在建表過程中需要根據業務需求建立效能較高的索引，同時也要注意避免建立不必要的索引。

到此這篇關於MySQL COUNT(*)效能原理詳解的文章就介紹到這了,更多相關MySQL COUNT 內容請搜尋it145.com以前的文章或繼續瀏覽下面的相關文章希望大家以後多多支援it145.com！