首頁 > 軟體

SQL多表聯合查詢時如何採用欄位模糊匹配

2022-11-03 14:02:34

先說一下背景和要求

背景:由於業務或是其他不描述的原因的問題導致原有儲存的資料發生變動,與現有資料有差別,但還是能勉強看明白資料內容。

要求:實現A表的名稱欄位和B表的名稱欄位要模糊匹配。

上圖:

假如A表長這樣:

B表長這樣:

然後我要想變成這樣:

簡單說就是在我關聯查詢兩表時,條件欄位的取值看起來不一樣,但是意思是一樣的,應該要把這種資料關聯起來。但是SQL裡面“=”兩邊又必須嚴格相同,所以現在怎麼辦呢?

方法一

可以採用類似於LIKE模糊查詢的辦法。

MySQL:

SELECT a.id,a.`name`,b.newid,b.newname FROM z_good a,z_good_new b
WHERE INSTR(a.`name`,b.newname)>0 OR INSTR(b.newname,a.`name`)>0

或者

SELECT a.id,a.`name`,b.newid,b.newname FROM z_good a,z_good_new b
WHERE a.`name` LIKE CONCAT('%',b.newname,'%') OR b.newname LIKE CONCAT('%',a.`name`,'%')

Oracle:

SELECT a.id,a.`name`,b.newid,b.newname FROM z_good a,z_good_new b
WHERE a.`name` LIKE '%'||b.newname||'%'

SQL Server:

SELECT a.id,a.`name`,b.newid,b.newname FROM z_good a,z_good_new b
WHERE a.`name` LIKE '%'+b.newname+'%' OR b.newname LIKE '%'+a.`name`+'%'

順便說一下這裡用到的字串拼接功能在三類資料庫中的寫法:

SQL Server:

SELECT '123'+'456'

Oracle:

SELECT '123'||'456' FROM dual
或
SELECT CONCAT('123','456') FROM dual

MySQL:

SELECT CONCAT('123','456')

Oracle和MySQL中雖然都有CONCAT,但是Oracle中只能拼接2個字串,所以建議用||的方式,MySQL中的CONCAT則可以拼接多個字串。

此外,MySQL中的INSTR(STR,SUBSTR)函數,在一個字串(STR)中搜尋指定的字元(SUBSTR),返回發現指定的字元的位置(INDEX)。

  • STR—被搜尋的字串;
  • SUBSTR—希望搜尋的字串;

結論:在字串STR裡面,字串SUBSTR出現的第一個位置(INDEX),INDEX是從1開始計算,如果沒有找到就直接返回0,沒有返回負數的情況。

到這兒,有同學就會發現,你這應用場景也太單一了吧,要是這種:A表被關聯欄位值為“城鄉規劃”,B表被關聯欄位值為“城市規劃”;或者A表被關聯欄位值為“漂亮”,B表被關聯欄位值為“美麗”。這樣的兩個欄位值也是一個意思,但是用上面的方法就行不通了。

沒辦法了嘛?

有的。

方法二

你還可以使用NLP的演演算法來做上面最後提到的那種情況,關於這點,在我之前發表的文章《Word2Vec視覺化展示》中已有詳細說明,感興趣的同學可以研究研究。

另外就是,不管哪種辦法,總有漏網之魚,也就是總有你匹配不到的情況,或是匹配錯誤的情況。所以還需要根據自己的需求、業務以及資料情況,具體問題具體分析,結合各種方法開發程式碼實現自己想要的功能,做到因地制宜。

那有同學又問了,就沒有那種一招打天下的辦法了嗎?

有的。

方法三

你可以用你的最強大腦去手動處理~~~~~~~~~~

咳咳,我的意思是:就算要手動處理,我們也要減少手動處理的工作量嘛。要不“會急死人的”,真的“會急死人的”! 

以上為個人經驗,希望能給大家一個參考,也希望大家多多支援it145.com。


IT145.com E-mail:sddin#qq.com