首頁 > 軟體

Java String原始碼contains題解重複疊加字串匹配

2022-11-13 14:01:15

原題

重複疊加字串匹配

解題思路

解題思路已經寫在程式碼中了;

class Solution {
public:
	bool contain(string &a, string &b, long long hash_b)
	{
		for (int i = 0; i <= a.size() - b.size(); i++)
		{
			int k = 0;
			long long hash_a = 0;
			while (k < b.size())
			{
				hash_a = (hash_a * 26 + a[i + k] - 'a') % INT32_MAX;
				k++;
			}
			if (hash_b == hash_a)
				return true;
		}
		return false;
	}
	int repeatedStringMatch(string a, string b)
	{
		// 1、統計a每個字元出現次數、b每個字元出現次數,如果b有某字元而a沒有,返回-1
		vector<int> rec_a(30, 0);
		vector<int> rec_b(30, 0);
		for (char c : a)
		{
			rec_a[c - 'a']++;
		}
		long long hash_b = 0;
		int i = 0;
		for (char c : b)
		{
			hash_b = (hash_b * 26 + c - 'a') % INT32_MAX;
			rec_b[c - 'a']++;
		}
		for (int i = 0; i < 30; i++)
		{
			if (rec_b[i] > 0 && rec_a[i] == 0)
			{
				return -1;
			}
		}
		// 2.1 本身b就是a的字串,用hash
		if (a.size() >= b.size() && contain(a, b, hash_b))
		{
			return 1;
		}
		// 2.2 最大重疊不超過Bsize/Asize + 2
		string aa = a;
		for (int i = 2; i <= b.size() / a.size() + 2; i++)
		{
			aa += a;
			if (aa.size() < b.size())
				continue;
			if (contain(aa, b, hash_b))
			{
				return i;
			}
		}
		return -1;
	}
};

但是C++畢竟沒有類似Java的contains函數,所以檢查a字串是否包含b就沒有那麼方便,我這裡自己實現的是利用hash來檢測,其實可以優化一下:

  • 先計算前面b.size()個字元的hash值;
  • 比較是否等於目標hash值
  • 如果不等於,(當前hash值-(當前視窗首字元-'a')*26^k)*26 + 視窗右移新加進來的字元-'a'
  • 這樣只用完整的遍歷一遍 字串a 就能夠知道它 有沒有包含 子串b,複雜度為 O(n);但是涉及到之前的取餘操作,又要額外考慮下,當前視窗的hash值是不是取過餘;
  • 而如果每次都一個個字元比,那麼複雜度達到O(nm);

Java String contains 函數

於是對 Java String 裡面的 contains 函數很好奇,它內部怎麼實現的,就翻了下原始碼,如下:

// String.contails(String s):
// 返回this字串是否包含 子串s
public boolean contains(CharSequence s) {
    return this.indexOf(s.toString()) >= 0;
}
// String.indexOf(String s)
// 返回this字串中子串s的首字元索引
........
// 中間的幾個函數就省略了,都是一些特殊情況(比如this字串的長度小於s字串的長度,直接返回-1這種),
// 最後實現是在這個函數裡
public static int indexOfLatin1Unsafe(byte[] src, int srcCount, byte[] tgt, int tgtCount, int fromIndex) {
    assert fromIndex >= 0;
    assert tgtCount > 0;
    assert tgtCount <= tgt.length;
    assert srcCount >= tgtCount;
    // 目標字串的第一個字元
    char first = (char)(tgt[0] & 255);
    // 最多找max次
    int max = srcCount - tgtCount;
	// 從fromIndex處開始找
    for(int i = fromIndex; i <= max; ++i) {
    	// 如果該字元不等於first,接著i++,直到找到與first字元相等
        if (getChar(src, i) != first) {
            do {
                ++i;
            } while(i <= max && getChar(src, i) != first);
        }
        if (i <= max) {
            int j = i + 1;
            int end = j + tgtCount - 1;
			// 一個個字元逐個比較
            for(int k = 1; j < end && getChar(src, j) == (tgt[k] & 255); ++k) {
                ++j;
            }
			// 如果j==end 說明全部遍歷完都符合條件,返回首字元位置i
            if (j == end) {
                return i;
            }
        }
    }
    return -1;
}

可以看出 Java String 的 contains 方法 原理還是用的逐個字元比較,沒有用別的效果稍微高但很複雜的方法;

以上就是Java String原始碼contains題解重複疊加字串匹配的詳細內容,更多關於Java String原始碼contains的資料請關注it145.com其它相關文章!


IT145.com E-mail:sddin#qq.com