如何在Java中使用正規表示式API

2022-06-09 18:02:07

在正規表示式的世界中，有許多不同的風格可供選擇，比如grep、Perl、Python、PHP、awk等等。這意味著在一種程式語言中工作的正規表示式可能在另一種程式語言中不工作。Java中的正規表示式語法與Perl中的最相似。要在Java中使用正規表示式，我們不需要任何特殊設定。JDK包含一個特殊的java包java.util.regex完全致力於regex。我們只需要將其匯入到我們的程式碼中。此外，java.lang.String類還具有我們在程式碼中常用的內建正規表示式支援。

Java正規表示式包

java.util.regex包由三個類組成：Pattern、Matcher和PatternSyntaxException：

Pattern模式物件是一個已編譯的正規表示式。Pattern類不提供公共建構函式。要建立一個模式，我們必須首先呼叫它的一個公共靜態編譯方法，然後該方法將返回一個模式物件。這些方法接受正規表示式作為第一個引數。
Matcher物件解釋模式並對輸入字串執行匹配操作。它也沒有定義公共建構函式。我們通過呼叫模式物件上的Matcher方法來獲得Matcher物件。
PatternSyntaxException物件是一個未經檢查的異常，它指示正規表示式模式中的語法錯誤。

我們必須首先了解正規表示式是如何在Java中構造的。

如果你已經從不同的環境中熟悉了正規表示式，你可能會發現某些差異，但它們是最小的。

簡單的例子

讓我們從正規表示式的最簡單用例開始。如前所述，當正規表示式應用於字串時，它可能會匹配零次或多次。

java支援的最基本的模式匹配形式。java.util.regex正規表示式API是字串文字的匹配。例如，如果正規表示式為foo，輸入字串為foo，則匹配將成功，因為字串相同：

@Test
public void givenText_whenSimpleRegexMatches_thenCorrect() {
    Pattern pattern = Pattern.compile("foo");
    Matcher matcher = pattern.matcher("foo");
 
    assertTrue(matcher.find());
}

我們首先通過呼叫其靜態編譯方法並向其傳遞我們想要使用的模式來建立一個Pattern物件。

然後我們建立一個Matcher物件，呼叫Pattern物件的Matcher方法，並將要檢查匹配的文字傳遞給它。

之後，我們在Matcher物件中呼叫find方法。

find方法在輸入文字中不斷前進，併為每個匹配返回true，因此我們也可以使用它來查詢匹配計數：

@Test
public void givenText_whenSimpleRegexMatchesTwice_thenCorrect() {
    Pattern pattern = Pattern.compile("foo");
    Matcher matcher = pattern.matcher("foofoo");
    int matches = 0;
    while (matcher.find()) {
        matches++;
    }
 
    assertEquals(matches, 2);
}

由於我們將執行更多的測試，我們可以抽象出在一個名為runTest的方法中查詢匹配數的邏輯：

public static int runTest(String regex, String text) {
    Pattern pattern = Pattern.compile(regex);
    Matcher matcher = pattern.matcher(text);
    int matches = 0;
    while (matcher.find()) {
        matches++;
    }
    return matches;
}

當我們得到0個匹配項時，測試應該失敗，否則應該通過。

Meta Characters元字元

元字元會影響模式匹配的方式，從而為搜尋模式新增邏輯。JavaAPI支援多個Meta Characters，最簡單的是“.”匹配任何字元：

@Test
public void givenText_whenMatchesWithDotMetach_thenCorrect() {
    int matches = runTest(".", "foo");
    
    assertTrue(matches > 0);
}

考慮到前面的例子，其中regex-foo匹配文字foo和foo兩次。如果我們在正規表示式中使用點元字元，那麼在第二種情況下，我們不會得到兩個匹配：

@Test
public void givenRepeatedText_whenMatchesOnceWithDotMetach_thenCorrect() {
    int matches= runTest("foo.", "foofoo");
 
    assertEquals(matches, 1);
}

注意正規表示式中foo後面的點。匹配器匹配前面有foo的每個文字，因為最後一個點部分表示後面的任何字元。因此，在找到第一個foo之後，其餘的被視為任何角色。這就是為什麼只有一場比賽。

該API支援其他幾個元字元<([{^-=$!|]})?*+.>我們將在本文中進一步探討。

Character類

瀏覽官方模式類規範，我們將發現受支援的正規表示式構造的摘要。在Character類下，我們有大約6個結構。

OR

構造為[abc]。集合中的任何元素都是匹配的：

@Test
public void givenORSet_whenMatchesAny_thenCorrect() {
    int matches = runTest("[abc]", "b");
 
    assertEquals(matches, 1);
}

如果它們都出現在文字中，則每一個單獨匹配，不考慮順序：

@Test
public void givenORSet_whenMatchesAnyAndAll_thenCorrect() {
    int matches = runTest("[abc]", "cab");
 
    assertEquals(matches, 3);
}

它們也可以作為字串的一部分進行替換。在下面的範例中，當我們通過將第一個字母與集合中的每個元素交替來建立不同的單詞時，它們都是匹配的：

@Test
public void givenORSet_whenMatchesAllCombinations_thenCorrect() {
    int matches = runTest("[bcr]at", "bat cat rat");
 
    assertEquals(matches, 3);
}

NOR

通過新增插入符號作為第一個元素來否定上述集合：

@Test
public void givenNORSet_whenMatchesNon_thenCorrect() {
    int matches = runTest("[^abc]", "g");
 
    assertTrue(matches > 0);
}

另外一個例子：

@Test
public void givenNORSet_whenMatchesAllExceptElements_thenCorrect() {
    int matches = runTest("[^bcr]at", "sat mat eat");
 
    assertTrue(matches > 0);
}

Range類

我們可以定義一個類，該類使用連字元（-）指定匹配文字應該落在的範圍內，同樣，我們也可以否定一個範圍。

匹配大寫字母：

@Test
public void givenUpperCaseRange_whenMatchesUpperCase_
  thenCorrect() {
    int matches = runTest(
      "[A-Z]", "Two Uppercase alphabets 34 overall");
 
    assertEquals(matches, 2);
}

匹配小寫字母：

@Test
public void givenLowerCaseRange_whenMatchesLowerCase_
  thenCorrect() {
    int matches = runTest(
      "[a-z]", "Two Uppercase alphabets 34 overall");
 
    assertEquals(matches, 26);
}

匹配大小寫字母：

@Test
public void givenBothLowerAndUpperCaseRange_
  whenMatchesAllLetters_thenCorrect() {
    int matches = runTest(
      "[a-zA-Z]", "Two Uppercase alphabets 34 overall");
 
    assertEquals(matches, 28);
}

匹配範圍：

@Test
public void givenNumberRange_whenMatchesAccurately_
  thenCorrect() {
    int matches = runTest(
      "[1-5]", "Two Uppercase alphabets 34 overall");
 
    assertEquals(matches, 2);
}

匹配另外的數位範圍：

@Test
public void givenNumberRange_whenMatchesAccurately_
  thenCorrect2(){
    int matches = runTest(
      "[30-35]", "Two Uppercase alphabets 34 overall");
 
    assertEquals(matches, 1);
}

Union類

union字元類是兩個或多個字元類組合的結果：

@Test
public void givenTwoSets_whenMatchesUnion_thenCorrect() {
    int matches = runTest("[1-3[7-9]]", "123456789");
 
    assertEquals(matches, 6);
}

上述測試將只匹配9個整數中的6個，因為並集跳過4、5和6。

Intersection類

與union類類似，該類是在兩個或多個集合之間拾取公共元素的結果。要應用交叉點，我們使用&&：

@Test
public void givenTwoSets_whenMatchesIntersection_thenCorrect() {
    int matches = runTest("[1-6&&[3-9]]", "123456789");
 
    assertEquals(matches, 4);
}

我們得到4個匹配，因為兩個集合的交集只有4個元素。

Subtraction類

我們可以使用減法對一個或多個字元類求反，例如匹配一組奇數十進位制數：

@Test
public void givenSetWithSubtraction_whenMatchesAccurately_thenCorrect() {
    int matches = runTest("[0-9&&[^2468]]", "123456789");
 
    assertEquals(matches, 5);
}

到此這篇關於Java正規表示式API系列詳情的文章就介紹到這了,更多相關Java正規表示式內容請搜尋it145.com以前的文章或繼續瀏覽下面的相關文章希望大家以後多多支援it145.com！