首頁 > 軟體

MySQL實現分詞搜尋(FULLTEXT)的方法

2022-10-20 14:04:11

FULLTEXT

以前使用查詢時都是以 %關鍵字% 進行模糊查詢結果的,這種查詢方式有一些缺點,比如不能查詢多個列必須手動新增條件以實現,效率不高等
現在有一種新的查詢方式可以解決以上問題,就是使用全文索引進行查詢
注意:並非所有儲存引擎都支援全文搜尋功能。在MySQL 5.6或更高版本中,只有MyISAM和InnoDB儲存引擎支援全文搜尋。

全文搜尋的簡單使用

建表新增FULLTEXT索引

使用該技術非常簡單,首先需要有一張表,我建立了一張圖書表並插入了兩條資料

CREATE TABLE `book`  (
  `id` int(11) NOT NULL AUTO_INCREMENT,
  `book_name` varchar(255) CHARACTER SET utf8 COLLATE utf8_general_ci NULL DEFAULT NULL,
  `author` varchar(255) CHARACTER SET utf8 COLLATE utf8_general_ci NULL DEFAULT NULL,
  `publisher` varchar(255) CHARACTER SET utf8 COLLATE utf8_general_ci NULL DEFAULT NULL,
  PRIMARY KEY (`id`) USING BTREE,
  FULLTEXT INDEX `bookname_author_publisher_fulltext`(`book_name`, `author`, `publisher`) WITH PARSER `ngram`
) ENGINE = InnoDB AUTO_INCREMENT = 3 CHARACTER SET = utf8 COLLATE = utf8_general_ci ROW_FORMAT = Dynamic;

SET FOREIGN_KEY_CHECKS = 1;

接下來新增索引

新增FULLTEXT索引的語法是

CREATE FULLTEXT INDEX index_name ON table_name(idx_column_name,…)

但是由於我們需要分詞搜尋,MySQL本身不支援中文分詞,所以在使用全文索引時需要引入Ngram解析器使得支援中文分詞搜尋(MySQL版本大於5.6),只需要在建立索引時在語句後面新增WITH PARSER NGRAM 即可
例如,建立了一個支援以書名,作者和出版社為搜尋條件的全文索引語法如下
create FULLTEXT index bookname_author_publisher on book(book_name,author,publisher) WITH PARSER ngram

嘗試搜尋

現在,我們已經建立好了索引,它支援以書名,作者和出版社的內容進行搜尋,我們嘗試搜尋下包含三國的資料
select * from book where MATCH(book_name,author,publisher) against(‘三國’)
結果:

可以看到,包含三國的資料有兩條,分別是書名為三國演義和作者為張三國的資料,已經成功實現分詞搜尋了
需要說明的是,該Ngram解析器預設的分詞長度(ngram_token_size)是2,也就是說,預設是以2個字元進行分詞的,如果你只搜尋1個字元的話是不會有任何結果的,但是這個值可以自定義。

  • 檢視分詞長度 SHOW VARIABLES LIKE ‘ngram_token_size’;
  • 修改分詞長度 在MySQL的組態檔中(.ini)找到[mysqld]字樣的地方,在下方新增ngram_token_size=1即可修改為支援1個字元起搜尋(範圍1~10)

關於MySQL的組態檔的位置,如果你是壓縮包安裝的應該直接就能找到,如果是通過安裝程式安裝的話可以從服務中找到你的MySQL服務,然後點選屬性就可以看到位置了

結束

以上就是關於MySQL實現分詞搜尋的簡單過程了,詳細語法可以通過該網址進行學習
需要補充的是,我在學習時看到使用該索引進行全文搜尋時,會應用50%閾值(50%閾值意味著如果一個單詞出現在超過50%的行中,MySQL將在搜尋結果中忽略它。),但是實際測試下來並沒有忽略掉。
1.布林全文搜尋模式進行搜尋時,不會應用50%閾值
2.按理說使用自然語言搜尋進行全文搜尋時會應用50%閾值,可是我實際測試並沒有忽略(innoDB),後來看到一句話

MyISAM全文搜尋會忽略至少在一半以上資料行中出現的單詞(也即所謂的50%閾值),InnoDB無此限制。而在布林全文搜尋中MyISAM的50%閾值不生效。(來自https://www.likecs.com/show-374225.html?sc=8500)

這一塊暫時不清楚什麼情況,後續測試再更新吧

到此這篇關於MySQL實現分詞搜尋(FULLTEXT)的文章就介紹到這了,更多相關MySQL分詞搜尋內容請搜尋it145.com以前的文章或繼續瀏覽下面的相關文章希望大家以後多多支援it145.com!


IT145.com E-mail:sddin#qq.com