Grep（Regex）中的正規表示式

2020-06-16 16:11:47

grep是Linux中用於文字處理的最有用和功能最強大的命令之一。 grep在一個或多個輸入檔案中搜尋與正規表示式匹配的行，並將每條匹配的行寫入標準輸出。

在本文中，我們將探討在grep的GNU版本中如何使用正規表示式的基礎，大多數Linux作業系統預設情況下都提供此功能。

Grep正規表示式

正規表示式或正規表示式是與一組字串匹配的模式。模式由運算子，構造文字字元和元字元組成，它們具有特殊的含義。 GNU grep支援三種正規表示式語法，Basic，Extended和Perl相容。

最簡單的形式是，當沒有給出正規表示式型別時，grep會將搜尋模式解釋為基本正規表示式。要將模式解釋為擴充套件的正規表示式，請使用-E（或--extended-regexp）選項。

在GNU的grep實現中，基本正規表示式和擴充套件正規表示式語法之間沒有功能上的區別。唯一的區別是，在基本正規表示式中，元字元？，+，{，|，（和）被解釋為文字字元。為了在使用基本正規表示式時保持元字元的特殊含義，必須使用反斜槓（）對字元進行跳脫。稍後我們將解釋這些和其他元字元的含義。

通常，您應始終將正規表示式括在單引號中，以避免shell解釋和擴充套件元字元。

文字匹配

grep命令最基本的用法是在檔案中搜尋文字字元或一系列字元。例如，要在/ etc / passwd檔案中顯示所有包含字串“ bash”的行，您可以執行以下命令：

[linuxidc@localhost www.linuxidc.com]$ grep bash /etc/passwd

輸出應如下所示：

root:x:0:0:root:/root:/bin/bash
linuxidc:x:1000:1000:linuxidc:/home/linuxidc:/bin/bash

在此範例中，字串“ bash”是由四個文字字元組成的基本正規表示式。這告訴grep搜尋帶有緊隨其後的“ a”，“ s”和“ h”的字串“ b”。

預設情況下，grep命令區分大小寫。這意味著將大寫和小寫字元視為不同的字元。要在搜尋時忽略大小寫，請使用-i選項（或--ignore-case）。

請務必注意，grep會將搜尋模式作為字串而不是單詞來查詢。因此，如果您要搜尋“ gnu”，則grep還將列印“ gnu”嵌入較大字詞（例如“ cygnus”或“ magnum”）的行。

如果搜尋字串包含空格，則需要將其用單引號或雙引號引起來：

$grep "Gnome Display Manager" /etc/passwd

錨定Anchoring

Anchoring是元字元，可讓您指定必須在該行中找到匹配項的位置。

^（脫字元號）符號與一行開頭的空字串匹配。在以下範例中，僅當字串“ linux”出現在行的開頭時才匹配。

$grep '^linux' file.txt

$（美元）符號與行首的空字串匹配。要查詢以字串“ linux”結尾的行，可以使用：

$grep 'linux$' file.txt

您還可以使用兩個錨點構造一個正規表示式。例如，要查詢僅包含“ linux”的行，請執行：

$grep '^linux$' file.txt

另一個有用的範例是匹配所有空行的^ $模式。

匹配單個字元

.（點）符號是與任何單個字元匹配的元字元。例如，要匹配以“ kan”開頭，然後有兩個字元並以字串“ roo”結尾的任何內容，則可以使用以下模式：

$grep 'kan..roo' file.txt

括號表示式

方括號表示式允許將一組字元括在方括號[]中來匹配一組字元。例如，找到包含“ accept”或“ accent”的行，可以使用以下表示式：

$grep 'acce[np]t' file.txt

如果方括號內的第一個字元是插入符號^，則它匹配方括號中未包含的任何單個字元。以下模式將匹配以“ co”開頭的字串的任意組合，後接除“ l”之後為“ la”的任何字母（例如“ coca”，“ cobalt”等），但不匹配包含“ cola”的行 ”：

$grep 'co[^l]a' file.txt

您可以在方括號內指定一系列字元，而不是一個一個地放置字元。通過指定以連字元分隔的範圍的第一個和最後一個字元來構造範圍表示式。例如，[a-a]等效於[abcde]，[1-3]等效於[123]。

以下表示式匹配以大寫字母開頭的每一行：

$grep '^[A-Z]' file.txt

grep還支援括號中預定義的字元類。下表顯示了一些最常見的字元類：

Quantifier	Character Classes
`[:alnum:]`	字母數位字元。
`[:alpha:]`	字母字元。
`[:blank:]`	空格和製表符。
`[:digit:]`	數位。
`[:lower:]`	小寫字母。
`[:upper:]`	大寫字母。

有關所有字元類別的完整列表，請參閱Grep手冊。

量詞

量詞Quantifier允許您指定要出現的匹配項必須出現的項數。下表顯示了GNU grep支援的量詞：

Quantifier	描述
`*`	匹配上一項零次或多次。
`?`	匹配上一項零或一次。
`+`	將上一項匹配一次或多次。
`{n}`	將前一項精確匹配n次。
`{n,}`	至少匹配n個專案。
`{,m}`	最多匹配m次以上項。
`{n,m}`	將前一項匹配n至m次。

*（星號）字元與前面的專案匹配零次或多次。以下將匹配“right”，“sright”，“ssright”等等。

$grep 's*right'

下面是更高階的模式，它匹配所有以大寫字母開頭，以句點或逗號結尾的行。 .* 正規表示式匹配任意數量的任何字元：

$grep -E '^[A-Z].*[.,]$' file.txt

？（問號）字元使前一項為可選，並且只能匹配一次。以下將同時匹配“bright”和“right”。？字元以反斜槓跳脫，因為我們使用的是基本正規表示式：

$grep 'b?right' file.txt

下面是使用擴充套件正規表示式的同一個正規表示式:

$grep -E 'b?right' file.txt

+（加號）字元與前面的專案匹配一次或多次。以下將匹配“sright”和“ssright”，但不匹配“right”：

$grep -E 's+right' file.txt

大括號字元{}使您可以指定確切的數位，上限或下限或發生匹配必須發生的範圍。

以下內容匹配3到9位之間的所有整數：

$grep -E '[[:digit:]]{3,9}' file.txt

交替Alternation

交替是一個簡單的“或”。替換操作符| (pipe)允許您指定不同的可能匹配，可以是文字字串或表示式集。該操作符在所有正規表示式操作符中優先順序最低。

在下面的例子中，我們搜尋Nginx紀錄檔錯誤檔案中出現的所有單詞fatal, error和critical:

$grep 'fatal|error|critical' /var/log/nginx/error.log

如果使用擴充套件正規表示式，則不應跳脫運算子|，如下所示:

$grep -E 'fatal|error|critical' /var/log/nginx/error.log

分組

分組是正規表示式的一項功能，可讓您將模式分組在一起並將其作為一項參照。使用括號（）建立組。

使用基本正規表示式時，必須用反斜槓（）對括號進行跳脫。

下面的範例同時匹配“ fearless”和“ less”。？量詞使（fear）組成為可選的：

$grep -E '(fear)?less' file.txt

反斜槓特殊表示式

GNU grep包含幾個元字元，由反斜槓和常規字元組成。下表顯示了一些最常見的特殊反斜槓表示式：

Expression	Description
`b`	單詞鎖定符
`<`	在單詞開頭匹配一個空字串。
`>`	在單詞末尾匹配一個空字串。
`w`	匹配一個單詞。
`s`	匹配一個空格。

以下模式將匹配單獨的單詞“ abject”和“ object”。如果嵌入較大的單詞，則不會匹配這些單詞：

$grep 'b[ao]bjectb' file.txt

總結

正規表示式用於文字編輯器，程式語言和命令列工具，例如grep，sed和awk。在搜尋文字檔案，編寫指令碼或過濾命令輸出時，了解如何構造正規表示式將非常有幫助。

如果您有任何問題或反饋，請隨時發表評論。

Grep（Regex）中的正規表示式

熱門文章