首頁 > 軟體

Mysql使用全文索引(FullText index)的範例程式碼

2022-04-02 13:02:31

什麼是全文索引

全文索引,通過建立倒排索引,可以極大的提升檢索效率,解決判斷欄位是否包含的問題. 例如: 有title欄位,需要查詢所有包含 "政府"的記錄. 需要 like "%政府%"方式查詢,查詢速度慢,當查詢包含"政府" OR "中國"的需要是,sql難以簡單滿足.全文索引就可以實現這個功能.

倒排索引(英語:Inverted index),也常被稱為反向索引、置入檔案或反向檔案,是一種索引方法,被用來儲存在全文搜尋下某個單詞在一個檔案或者一組檔案中的儲存位置的對映。它是檔案檢索系統中最常用的資料結構。

注意

在MySQL 5.6版本以前,只有MyISAM儲存引擎支援全文引擎.在5.6版本中,InnoDB加入了對全文索引的支援,但是不支援中文全文索引.在5.7.6版本,MySQL內建了ngram全文解析器,用來支援亞洲語種的分詞.

建立全文索引

  • 建立表的時候建立
CREATE TABLE articles (
    id INT UNSIGNED AUTO_INCREMENT NOT NULL PRIMARY KEY,
    title VARCHAR (200),
    body TEXT,
    FULLTEXT (title, body) WITH PARSER ngram
) ENGINE = INNODB DEFAULT CHARSET=utf8mb4 COMMENT='文章表';

建立了一個給title和body欄位新增全文縮影的表

  • 給欄位新增全文索引 ALTER TABLE articles ADD FULLTEXT INDEX title_body_index (title,body) WITH PARSER ngram;

使用全文索引

MySQL的全文索引查詢有多種模式

自然語言搜尋

普通的判斷是否包含

mysql> SELECT * FROM articles WHERE MATCH (title,body) AGAINST ('精神' IN NATURAL LANGUAGE MODE);
+----+-----------------+-------------------------+
| id | title           | body                    |
+----+-----------------+-------------------------+
|  1 | 弘揚正能量      | 貫徹黨的18大精神        |
+----+-----------------+-------------------------+
1 row in set (0.00 sec)

mysql> SELECT * FROM articles WHERE MATCH (title,body) AGAINST ('精神');
+----+-----------------+-------------------------+
| id | title           | body                    |
+----+-----------------+-------------------------+
|  1 | 弘揚正能量      | 貫徹黨的18大精神        |
+----+-----------------+-------------------------+
1 row in set (0.00 sec)
可以看到,搜尋結果命中了一條,且在不指定搜尋模式的情況下,預設模式為自然語言搜尋.

BOOLEAN MODE

這個模式和lucene中的BooleanQuery很像,可以通過一些操作符,來指定搜尋詞在結果中的包含情況.比如 + 表示必須包含 , -表示必須不包含,預設為誤操作符,代表可以出現可以不出現,但是出現時在查詢結果集中的排名較高一些.也就是該結果和搜尋詞的相關性高一些.

具體包含的所有操作符可以通過MySQL查詢來檢視:

show variables like '%ft_boolean_syntax%'

+-------------------+----------------+
| Variable_name     | Value          |
+-------------------+----------------+
| ft_boolean_syntax | + -><()~*:""&| |
+-------------------+----------------+
mysql> SELECT * FROM articles WHERE MATCH (title,body) AGAINST ('+精神' IN BOOLEAN MODE);
+----+-----------------+-------------------------+
| id | title           | body                    |
+----+-----------------+-------------------------+
|  1 | 弘揚正能量      | 貫徹黨的18大精神        |
+----+-----------------+-------------------------+
1 row in set (0.00 sec)

mysql> SELECT * FROM articles WHERE MATCH (title,body) AGAINST ('+精神 -貫徹' IN BOOLEAN MODE);
Empty set (0.01 sec)
當搜尋必須命中精神時,命中了一條資料,當在加上不能包含貫徹的時候,無命中結果.

強烈注意:MySql自帶的全文索引只能用於資料庫引擎為MYISAM的資料表,如果是其他資料引擎,則全文索引不會生效。此外,MySql自帶的全文索引只能對英文進行全文檢索,目前無法對中文進行全文檢索。如果需要對包含中文在內的文字資料進行全文檢索,我們需要採用Sphinx(斯芬克斯)/Coreseek技術來處理中文。

注:目前,使用MySql自帶的全文索引時,如果查詢字串的長度過短將無法得到期望的搜尋結果。MySql全文索引所能找到的詞預設最小長度為4個字元。另外,如果查詢的字串包含停止詞,那麼該停止詞將會被忽略。

注:如果可能,請儘量先建立表並插入所有資料後再建立全文索引,而不要在建立表時就直接建立全文索引,因為前者比後者的全文索引效率要高。

總結

到此這篇關於Mysql使用全文索引(FullText index)的文章就介紹到這了,更多相關Mysql使用全文索引內容請搜尋it145.com以前的文章或繼續瀏覽下面的相關文章希望大家以後多多支援it145.com!


IT145.com E-mail:sddin#qq.com