<em>Mac</em>Book项目 2009年学校开始实施<em>Mac</em>Book项目,所有师生配备一本<em>Mac</em>Book,并同步更新了校园无线网络。学校每周进行电脑技术更新,每月发送技术支持资料,极大改变了教学及学习方式。因此2011
2021-06-01 09:32:01
在實際的應用中,通常需要在一些複雜的、沒有規律的字串中提取資料,這時候就需要用到正規表示式了,這次講一下hive的正規表示式。
語法:A like B
說明:如果字串A符合表示式B的正則語法,則為true,否則為flase。B中字元"_"表示任意單個字元,而字元"%"表示任意數量的字元。
例子:select 'AA123' like 'AA%';
例子:select 'AAbbbbcccc' like '_A%';
語法:A rlike B
說明:如果字串A符合JAVA正規表示式B的正則語法,則為TRUE,否則為FALSE。
例子:select 'AAbbbbcccc' rlike 'AA';
語法: A REGEXP B
說明:用法和rike一樣
例子:select 'AAbbbbcccc' regexp 'AA';
語法: regexp_replace(string A, string B, string C)
說明:將字串A中的符合java正規表示式B的部分替換為C
例子:select regexp_replace('AA123bbcccc' ,'123','o');
結果:AAobbcccc
語法: regexp_extract(string A, string pattern, int index)
說明:將字串A按照pattern正規表示式的規則拆分,返回index指定的字元,index從1開始計。
例子:select regexp_extract('AA123bbcccc' ,'A{2}([1-9]{3})([a-z]{6})',0);
結果:AA123bbcccc
例子:select regexp_extract('AA123bbcccc' ,'A{2}([1-9]{3})([a-z]{6})',2);
結果:bbcccc
基礎語法 "^([]{})([]{})([]{})$"
正則字串 = "開始([包含內容]{長度})([包含內容]{長度})([包含內容]{長度})結束"
元字元 | 描述 |
跳脫字元。例如,“n”代表換行符,如果想表示"n"這個字串,需要使用"\n"來表示,也就是說"\"代表字元"" | |
^ | 匹配輸入字行首。"^a"代表以a開頭的任意字串 |
$ | 匹配輸入行尾。"a$"代表以a結尾的任意字串 |
* | 匹配前面的子表示式0次或多次。例如,ab*能匹配a,ab,abb,abbbb等等,等價於{0,} |
+ | 匹配前面的子表示式一次或多次(大於等於1次)。例如,“ab+”能 匹配ab,abb,abbbb等等。等價於{1,} |
? | 匹配前面的子表示式零次或一次。例如,“ab?”可以匹配ab,abb,等價於{0,1}。當該字元緊跟在任何一個其他限制符(*,+,?,{n},{n,},{n,m})後面時,匹配模式是非貪婪的。非貪婪模式儘可能少地匹配所搜尋的字串,而預設的貪婪模式則儘可能多地匹配所搜尋的字串。例如,對於字串“oooo”,“o+”將盡可能多地匹配“o”,得到結果[“oooo”],而“o+?”將盡可能少地匹配“o”,得到結果 ['o', 'o', 'o', 'o'],等價於{0,1} |
{n} | n是一個非負整數。匹配確定的n次。例如,“a{2}”不能匹配到aa。 |
{n,} | n是一個非負整數。至少匹配n次。例如,“a{2,}”能匹配“aa,aaa等等。“a{1,}”等價於“a+”,“a{0,}”則等價於“a*”。 |
{n,m} | m和n均為非負整數,其中n<=m。最少匹配n次且最多匹配m次。例如,“a{1,3}”將匹配“aoooood”中的前三個o為一組,後三個o為一組。“a{0,1}”等價於“a?”。請注意在逗號和兩個數之間不能有空格。 |
. | 匹配除“n”和"r"之外的任何單個字元。要匹配包括“n”和"r"在內的任何字元,請使用像“[sS]”的模式。 |
_ | 匹配任意單個字元,例如:_a 能匹配到任何第二個字元為a的,如aa,ba等等 |
x|y | 匹配x或y。例如,“z|food”能匹配“z”或“food”。 “[z|f]ood”則匹配“zood”或“food”。 |
[xyz] | 字元集合,匹配所包含的任意一個字元。 例如,“[abc]”可以匹配“plain”中的“a”。 |
[^xyz] | 負值字元集合。匹配未包含的任意字元。例如“[^abc]”可以匹配“plain”中的“plin”任一字元。 |
[a-z] | 字元範圍,匹配指定範圍內的任意字元。例如,“[a-z]”可以匹配 “a”到“z”範圍內的任意小寫字母字元。注意:只有連字元在字元組內部時,並且出現在兩個字元之間時,才能表示字元的範圍; 如果出字元組的開頭,則只能表示連字元本身. |
[^a-z] | 負值字元範圍。匹配任何不在指定範圍內的任意字元。例如,“[^a-z]”可以匹配任何不在“a”到“z”範圍內的任意字元。 |
d | 匹配一個數位字元。等價於[0-9]。 |
D | 匹配一個非數位字元。等價於[^0-9]。 |
n | 匹配一個換行符。 |
r | 匹配一個回車符。 |
s | 匹配任何不可見字元,包括空格、製表符、換頁符等等。 等價於[ fnrtv]。 |
S | 匹配任何可見字元。等價於[^fnrtv]。 |
t | 匹配一個製表符。 |
v | 匹配一個垂直製表符。 |
w | 匹配包括下劃線的任何單詞字元。類似但不等價於“[A-Za-z0-9_]”, 這裡的"單詞"字元使用Unicode字元集。 |
W | 匹配任何非單詞字元。等價於“[^A-Za-z0-9_]”。 |
( ) | 將( 和 ) 之間的表示式定義為“組”(group),並且將匹配這個表示式的字元儲存到一個臨時區域(一個正規表示式中最多可以儲存9個),它們可以用 1 到9 的符號來參照。 |
漢字:[u4e00-u9fa5]
身份證號(15位、18位元數位),最後一位是校驗位,可能為數位或字元X:(^d{15}$)|(^d{18}$)|(^d{17}(d|X|x)$)
日期格式:^d{4}-d{1,2}-d{1,2}
兩位小數正數:[0-9]+(.[0-9]{2})
26個英文字母組成的字串:[A-Za-z]+
數位和26個英文字母組成的字串:[A-Za-z0-9]
Email地址:w+[-+.]w+)*@w+([-.]w+)*.w+([-.]w+)*$
手機號碼:^(13[0-9]|14[5|7]|15[0|1|2|3|5|6|7|8|9]|18[0|1|2|3|5|6|7|8|9])d{8}$
到此這篇關於Hive中常用正規表示式的運用的文章就介紹到這了,更多相關Hive正規表示式運用內容請搜尋it145.com以前的文章或繼續瀏覽下面的相關文章希望大家以後多多支援it145.com!
相關文章
<em>Mac</em>Book项目 2009年学校开始实施<em>Mac</em>Book项目,所有师生配备一本<em>Mac</em>Book,并同步更新了校园无线网络。学校每周进行电脑技术更新,每月发送技术支持资料,极大改变了教学及学习方式。因此2011
2021-06-01 09:32:01
综合看Anker超能充系列的性价比很高,并且与不仅和iPhone12/苹果<em>Mac</em>Book很配,而且适合多设备充电需求的日常使用或差旅场景,不管是安卓还是Switch同样也能用得上它,希望这次分享能给准备购入充电器的小伙伴们有所
2021-06-01 09:31:42
除了L4WUDU与吴亦凡已经多次共事,成为了明面上的厂牌成员,吴亦凡还曾带领20XXCLUB全队参加2020年的一场音乐节,这也是20XXCLUB首次全员合照,王嗣尧Turbo、陈彦希Regi、<em>Mac</em> Ova Seas、林渝植等人全部出场。然而让
2021-06-01 09:31:34
目前应用IPFS的机构:1 谷歌<em>浏览器</em>支持IPFS分布式协议 2 万维网 (历史档案博物馆)数据库 3 火狐<em>浏览器</em>支持 IPFS分布式协议 4 EOS 等数字货币数据存储 5 美国国会图书馆,历史资料永久保存在 IPFS 6 加
2021-06-01 09:31:24
开拓者的车机是兼容苹果和<em>安卓</em>,虽然我不怎么用,但确实兼顾了我家人的很多需求:副驾的门板还配有解锁开关,有的时候老婆开车,下车的时候偶尔会忘记解锁,我在副驾驶可以自己开门:第二排设计很好,不仅配置了一个很大的
2021-06-01 09:30:48
不仅是<em>安卓</em>手机,苹果手机的降价力度也是前所未有了,iPhone12也“跳水价”了,发布价是6799元,如今已经跌至5308元,降价幅度超过1400元,最新定价确认了。iPhone12是苹果首款5G手机,同时也是全球首款5nm芯片的智能机,它
2021-06-01 09:30:45