Hive中常用正規表示式的運用小結

2022-08-02 14:05:34

在實際的應用中，通常需要在一些複雜的、沒有規律的字串中提取資料，這時候就需要用到正規表示式了，這次講一下hive的正規表示式。

like

語法:A like B

說明：如果字串A符合表示式B的正則語法，則為true，否則為flase。B中字元"_"表示任意單個字元，而字元"%"表示任意數量的字元。

例子：select 'AA123' like 'AA%';

結果：true

例子：select 'AAbbbbcccc' like '_A%';

結果：true

rlike

語法:A rlike B

說明：如果字串A符合JAVA正規表示式B的正則語法，則為TRUE，否則為FALSE。

例子：select 'AAbbbbcccc' rlike 'AA';

結果：true

regexp

語法: A REGEXP B

說明：用法和rike一樣

例子：select 'AAbbbbcccc' regexp 'AA';

結果：true

regexp_replace

語法: regexp_replace(string A, string B, string C)

說明:將字串A中的符合java正規表示式B的部分替換為C

例子：select regexp_replace('AA123bbcccc' ,'123','o');

結果：AAobbcccc

regexp_extract

語法: regexp_extract(string A, string pattern, int index)

說明：將字串A按照pattern正規表示式的規則拆分，返回index指定的字元，index從1開始計。

0是顯示與之匹配的整個字串
1 是顯示第一個括號裡面的
2 是顯示第二個括號裡面的欄位
3,4,5.....依次類推

例子：select regexp_extract('AA123bbcccc' ,'A{2}([1-9]{3})([a-z]{6})',0);

結果：AA123bbcccc

例子：select regexp_extract('AA123bbcccc' ,'A{2}([1-9]{3})([a-z]{6})',2);

結果：bbcccc

基礎語法 "^([]{})([]{})([]{})$"

正則字串 = "開始（[包含內容]{長度}）（[包含內容]{長度}）（[包含內容]{長度}）結束"

常用元字元的使用：

元字元	描述
	跳脫字元。例如，“n”代表換行符，如果想表示"n"這個字串，需要使用"\n"來表示，也就是說"\"代表字元""
^	匹配輸入字行首。"^a"代表以a開頭的任意字串
$	匹配輸入行尾。"a$"代表以a結尾的任意字串
*	匹配前面的子表示式0次或多次。例如，ab*能匹配a，ab，abb，abbbb等等，等價於{0,}
+	匹配前面的子表示式一次或多次(大於等於1次）。例如，“ab+”能匹配ab，abb，abbbb等等。等價於{1,}
?	匹配前面的子表示式零次或一次。例如，“ab?”可以匹配ab，abb，等價於{0,1}。當該字元緊跟在任何一個其他限制符（*,+,?，{n}，{n,}，{n,m}）後面時，匹配模式是非貪婪的。非貪婪模式儘可能少地匹配所搜尋的字串，而預設的貪婪模式則儘可能多地匹配所搜尋的字串。例如，對於字串“oooo”，“o+”將盡可能多地匹配“o”，得到結果[“oooo”]，而“o+?”將盡可能少地匹配“o”，得到結果 ['o', 'o', 'o', 'o']，等價於{0,1}
{n}	n是一個非負整數。匹配確定的n次。例如，“a{2}”不能匹配到aa。
{n,}	n是一個非負整數。至少匹配n次。例如，“a{2,}”能匹配“aa，aaa等等。“a{1,}”等價於“a+”，“a{0,}”則等價於“a*”。
{n,m}	m和n均為非負整數，其中n<=m。最少匹配n次且最多匹配m次。例如，“a{1,3}”將匹配“aoooood”中的前三個o為一組，後三個o為一組。“a{0,1}”等價於“a?”。請注意在逗號和兩個數之間不能有空格。
.	匹配除“n”和"r"之外的任何單個字元。要匹配包括“n”和"r"在內的任何字元，請使用像“[sS]”的模式。
_	匹配任意單個字元，例如：_a 能匹配到任何第二個字元為a的，如aa,ba等等
x\|y	匹配x或y。例如，“z\|food”能匹配“z”或“food”。 “[z\|f]ood”則匹配“zood”或“food”。
[xyz]	字元集合，匹配所包含的任意一個字元。例如，“[abc]”可以匹配“plain”中的“a”。
[^xyz]	負值字元集合。匹配未包含的任意字元。例如“[^abc]”可以匹配“plain”中的“plin”任一字元。
[a-z]	字元範圍，匹配指定範圍內的任意字元。例如，“[a-z]”可以匹配 “a”到“z”範圍內的任意小寫字母字元。注意:只有連字元在字元組內部時,並且出現在兩個字元之間時,才能表示字元的範圍; 如果出字元組的開頭,則只能表示連字元本身.
[^a-z]	負值字元範圍。匹配任何不在指定範圍內的任意字元。例如，“[^a-z]”可以匹配任何不在“a”到“z”範圍內的任意字元。
d	匹配一個數位字元。等價於[0-9]。
D	匹配一個非數位字元。等價於[^0-9]。
n	匹配一個換行符。
r	匹配一個回車符。
s	匹配任何不可見字元，包括空格、製表符、換頁符等等。等價於[ fnrtv]。
S	匹配任何可見字元。等價於[^fnrtv]。
t	匹配一個製表符。
v	匹配一個垂直製表符。
w	匹配包括下劃線的任何單詞字元。類似但不等價於“[A-Za-z0-9_]”，這裡的"單詞"字元使用Unicode字元集。
W	匹配任何非單詞字元。等價於“[^A-Za-z0-9_]”。
( )	將( 和 ) 之間的表示式定義為“組”（group），並且將匹配這個表示式的字元儲存到一個臨時區域（一個正規表示式中最多可以儲存9個），它們可以用 1 到9 的符號來參照。