<em>Mac</em>Book项目 2009年学校开始实施<em>Mac</em>Book项目,所有师生配备一本<em>Mac</em>Book,并同步更新了校园无线网络。学校每周进行电脑技术更新,每月发送技术支持资料,极大改变了教学及学习方式。因此2011
2021-06-01 09:32:01
使用者端:這個key存在嗎?
伺服器:不存在/不知道
本質上,布隆過濾器是一種資料結構,是一種比較巧妙的概率型資料結構。它的特點是高效地插入和查詢。但我們要檢查一個key是否在某個結構中存在時,通過使用布隆過濾器,我們可以快速瞭解到「這個key一定不存在或者可能存在」。相比於傳統的List、Set、Map這些資料結構,它更加高效、佔用的空間也越少,但是它返回的結果是概率性的,是不確切的。
布隆過濾器僅用於測試集合中的成員資格。使用布隆過濾器的經典範例是減少對不存在的金鑰的昂貴磁碟(或網路)查詢。正如我們看到的那樣,布隆過濾器可以在O(k)恆定時間內搜尋金鑰,其中k是雜湊函數的數量,測試金鑰的不存在將非常快。
為了提高存取效率,我們會將一些資料放在Redis快取中。當進行資料查詢時,可以先從快取中獲取資料,無需讀取資料庫。這樣可以有效地提升效能。
在資料查詢時,首先要判斷快取中是否有資料,如果有資料,就直接從快取中獲取資料。
但如果沒有資料,就需要從資料庫中獲取資料,然後放入快取。如果大量存取都無法命中快取,會造成資料庫要扛較大壓力,從而導致資料庫崩潰。而使用布隆過濾器,當存取不存在的快取時,可以迅速返回避免快取或者DB crash。
HBase中儲存著非常海量資料,要判斷某個ROWKEYS、或者某個列是否存在,使用布隆過濾器,可以快速獲取某個資料是否存在。但有一定的誤判率。但如果某個key不存在,一定是準確的。
要判斷某個元素是否存在其實用HashMap效率是非常高的。HashMap通過把值對映為HashMap的Key,這種方式可以實現O(1)常數級時間複雜度。
但是,如果儲存的資料量非常大的時候(例如:上億的資料),HashMap將會耗費非常大的記憶體大小。而且也根本無法一次性將海量的資料讀進記憶體。
工作原理圖:
布隆過濾器是一個bit陣列或者稱為一個bit二進位制向量
這個陣列中的元素存的要麼是0、要麼是1
k個hash函數都是彼此獨立的,並將每個hash函數計算後的結果對陣列的長度m取模,並將對一個的bit設定為1(藍色單元格)
我們將每個key都按照這種方式設定單元格,就是「布隆過濾器」
假設輸入一個key,我們使用之前的k個hash函數求雜湊,得到k個值
判斷這k個值是否都為藍色,如果有一個不是藍色,那麼這個key一定不存在
如果都有藍色,那麼key是可能存在(布隆過濾器會存在誤判)
因為如果輸入物件很多,而集合比較小的情況,會導致集合中大多位置都會被描藍,那麼檢查某個key時候為藍色時,剛好某個位置正好被設定為藍色了,此時,會錯誤認為該key在集合中
範例:
傳統的布隆過濾器並不支援刪除操作。但是名為 Counting Bloom filter 的變種可以用來測試元素計數個數是否絕對小於某個閾值,它支援元素刪除。詳細理解可以參考文章Counting Bloom Filter 的原理和實現, 寫的很詳細。
很顯然,過小的布隆過濾器很快所有的 bit 位均為 1,那麼查詢任何值都會返回“可能存在”,起不到過濾的目的了。布隆過濾器的長度會直接影響誤報率,布隆過濾器越長其誤報率越小。
另外,雜湊函數的個數也需要權衡,個數越多則布隆過濾器 bit 位置位 1 的速度越快,且布隆過濾器的效率越低;但是如果太少的話,那我們的誤報率會變高。
從上圖可以看出,增加雜湊函數k的數量將大大降低錯誤率p。
好像是WTF?不用擔心,實際上我們實際上需要確定我們的m和k。因此,如果我們自己設定容錯值p和元素數n,則可以使用以下公式來計算這些引數:
我們可以根據過濾器的大小m,雜湊函數的數量k和插入的元素的數量n來計算誤報率p,公式如下:由上面,又怎麼選擇適合業務的 k 和 m 值呢?
公式:
k 為雜湊函數個數,m 為布隆過濾器長度,n 為插入的元素個數,p 為誤報率。
至於如何推導這個公式,我在知乎釋出的文章有涉及,感興趣可以看看,不感興趣的話記住上面這個公式就行了。
我還要在這裡提到另一個重要的觀點。由於使用Bloom篩選器的唯一目的是搜尋速度更快,所以我們不能使用慢速雜湊函數,對嗎?加密雜湊函數(例如Sha-1,MD5)對於bloom過濾器不是一個好選擇,因為它們有點慢。因此,從更快的雜湊函數實現中更好的選擇是murmur,fnv系列雜湊,Jenkins雜湊和HashMix。
在給定的範例中您已經看到,我們可以使用它來警告使用者輸入弱密碼。
您可以使用布隆過濾器,以防止使用者從存取惡意網站。
您可以先使用Bloom Bloom篩選器進行廉價的查詢檢查,而不用查詢SQL資料庫來檢查是否存在具有特定電子郵件的使用者。如果電子郵件不存在,那就太好了!如果確實存在,則可能必須對資料庫進行額外的查詢。您也可以執行同樣的操作來搜尋“使用者名稱已被佔用”。
您可以根據網站存取者的IP地址保留一個Bloom過濾器,以檢查您網站的使用者是“回頭使用者”還是“新使用者”。“回頭使用者”的一些誤報不會傷害您,對嗎?
您也可以通過使用Bloom過濾器跟蹤詞典單詞來進行拼寫檢查。
以上就是布隆過濾器演演算法圖文詳解的詳細內容,更多關於布隆過濾器演演算法的資料請關注it145.com其它相關文章!
相關文章
<em>Mac</em>Book项目 2009年学校开始实施<em>Mac</em>Book项目,所有师生配备一本<em>Mac</em>Book,并同步更新了校园无线网络。学校每周进行电脑技术更新,每月发送技术支持资料,极大改变了教学及学习方式。因此2011
2021-06-01 09:32:01
综合看Anker超能充系列的性价比很高,并且与不仅和iPhone12/苹果<em>Mac</em>Book很配,而且适合多设备充电需求的日常使用或差旅场景,不管是安卓还是Switch同样也能用得上它,希望这次分享能给准备购入充电器的小伙伴们有所
2021-06-01 09:31:42
除了L4WUDU与吴亦凡已经多次共事,成为了明面上的厂牌成员,吴亦凡还曾带领20XXCLUB全队参加2020年的一场音乐节,这也是20XXCLUB首次全员合照,王嗣尧Turbo、陈彦希Regi、<em>Mac</em> Ova Seas、林渝植等人全部出场。然而让
2021-06-01 09:31:34
目前应用IPFS的机构:1 谷歌<em>浏览器</em>支持IPFS分布式协议 2 万维网 (历史档案博物馆)数据库 3 火狐<em>浏览器</em>支持 IPFS分布式协议 4 EOS 等数字货币数据存储 5 美国国会图书馆,历史资料永久保存在 IPFS 6 加
2021-06-01 09:31:24
开拓者的车机是兼容苹果和<em>安卓</em>,虽然我不怎么用,但确实兼顾了我家人的很多需求:副驾的门板还配有解锁开关,有的时候老婆开车,下车的时候偶尔会忘记解锁,我在副驾驶可以自己开门:第二排设计很好,不仅配置了一个很大的
2021-06-01 09:30:48
不仅是<em>安卓</em>手机,苹果手机的降价力度也是前所未有了,iPhone12也“跳水价”了,发布价是6799元,如今已经跌至5308元,降价幅度超过1400元,最新定价确认了。iPhone12是苹果首款5G手机,同时也是全球首款5nm芯片的智能机,它
2021-06-01 09:30:45