首頁 > 軟體

藉助「湖倉一體」打造金融行業分散式資料庫的領頭羊

2021-05-27 13:30:07

近日,領先的金融級分散式資料庫廠商SequoiaDB巨杉資料庫舉行了2021年春季釋出會。在本次釋出會中,巨杉資料庫重點推出基於「湖倉一體」架構,針對不同的業務需求場景細分出全新的產品線。

什麼是「湖倉一體」

我們回想一下大學課堂學過的基礎資料庫,當時我們使用的表結構,處理的資料大都屬於結構化資料,對結構化資料分析通常就會用到資料倉庫。而如今一方面資料量在加大;另一方面,資料的類型早已突破了結構化,現在有大量非結構化、半結構化資料,包括圖片、音訊、視訊資料,這些資料呈現出多樣性、高速度、大容量等特徵。很顯然,傳統的資料倉庫並不適合這樣的場景,而且就成本而言,一定不是最具優勢的方案。

大約十年前,資料湖出現了,它被定義為一種可以儲存各類格式的原始資料儲存。我們的那些各類資料可以儲存在資料湖裡,但資料湖缺少一些關鍵功能,比如不支援事務、缺乏一致性、隔離性、不保證執行資料質量等,這些短板決定了,讓資料湖來承載過去資料倉庫比較順暢的讀寫訪問、批處理、流作業是不現實的,過去在資料倉庫比較容易實現的BI資料分析由資料湖完成是很費勁的。

隨著企業從多種資料來源中大規模地收集資料,此時架構師也開始考慮,如何構建一個單一的系統,來實現資料的倉庫化儲存,還能比較輕鬆地完成多樣化的資料分析。另外,人工智慧的需求,也讓統一的架構變得必要,需要資料訪問的靈活性、高效能並舉。

來源:Databricks官網

此時,「湖倉一體」應運而生,它是一種新型開放式架構,將資料湖和資料倉庫的優勢充分結合,它構建在資料湖低成本的資料儲存架構之上,又繼承了資料倉庫的資料處理和管理功能。湖倉一體的英文名叫「Lakehouse」,有人把「湖倉一體」做了形象的比喻,就好像湖邊搭建了很多小房子,有的可以負責資料分析,有的來運轉機器學習,有的來檢索音視訊等等,而這些資料來源流,都可以從資料湖裡輕鬆取得。

巨杉資料庫聯合創始人兼CTO王濤表示,「湖倉一體」是一類技術架構的統稱,而不是某個產品。實際上,巨杉資料庫對這類技術架構的佈局並不是現在,最早可追溯到2015年,在業界形成統一認知的概念之前,提前5年利用其特點協助客戶落地如今稱為「湖倉一體」的資料架構。

巨杉資料庫聯合創始人兼CTO王濤

巨杉資料庫與全球技術同期起步,自2011年起投入研發,這個時間點甚至早於Google Spanner論文的發表,是國內最早起步研發分散式資料庫的廠商之一。如今,巨杉資料庫已經在超過100家金融銀行客戶生產環境穩定運行,當中更有多家客戶資料量超過100億行記錄,客戶生產環境下最大資料量的叢集更是達到1萬2000億行。

比如我們耳熟能詳的民生銀行、廣發銀行、恆豐銀行、渤海銀行等股份制銀行;廣東省農信、吉林省農信、四川省農信等省級農信行;上海銀行、長沙銀行、廣州銀行等城商農商行;以及PICC人保、中國結算等各類金融機構,都已經在生產業務系統規模化上線巨杉資料庫產品。

我們來看看巨杉的Lakehouse可以為企業帶來哪些能力:

事務支援:對事務的ACID支援,可確保資料併發訪問的一致性、正確性,尤其是在SQL的訪問模式下。

資料的模型化和資料治理:支援各類資料模型的實現和轉變,支援DW模式架構,例如星型模型、雪花模型等。該系統應當保證資料完整性,並且具有健全的治理和審計機制。

BI支援:支援直接在源資料上使用BI工具,這樣可以加快分析效率,降低資料延時。另外相比於在資料湖和資料倉庫中分別操作兩個副本的方式,更具成本優勢。

存算分離:存算分離的架構使得系統能夠擴展到更大規模的併發能力和資料容量。(一些新型的資料倉庫已經採用了這種架構)

開放性:採用開放、標準化的儲存格式(例如Parquet等),提供豐富的API支援,因此,各種工具和引擎(包括機器學習和Python / R庫)可以高效地對資料進行直接訪問。

支援多種資料類型(結構化、非結構化和半結構化):可為許多應用程式提供資料的入庫、轉換、分析和訪問。資料類型包括影象、視訊、音訊和文字等。

支援各種工作負載:支援包括資料科學、機器學習、SQL查詢、分析等多種負載類型。這些工作負載可能需要多種工具來支援,但它們都由同一個資料庫來支撐。

端到端流:實時報表已經成為企業中的常態化需求,實現了對流的支援後,不再像以往一樣,為實時資料服務構建專用的系統。

來源:巨杉資料庫公司官網

可以拓展的功能還有很多,在「湖倉一體」架構下,這些企業級的需求功能,都可以在「湖倉一體」平臺中部署、測試和管理。更重要的一點,巨杉資料庫認為,「湖倉一體」平臺作為資料基礎設施,其真正的價值在於打通不同業務類型、不同資料類型之間的技術壁壘,實現交易分析一體化、流批一體化、多模資料一體化,最終降低資料流動帶來的開發成本及計算儲存開銷,提升企業的運作的「人效」和「能效」。

分散式資料庫不僅僅是傳統的替換

企業需求的變化除了自身需要、解決業務發展瓶頸以外,更多源自計算載體的變化、計算架構的變化以及計算環境的變化。過去是2G、3G產生的資料量,現在要考慮到5G產生的資料量;過去的資訊主要是數字和文字,現在圖片、聲音、視訊等非結構化資料成為增量資料的主要類型;過去是單機架構,現在逐步過渡到雲架構,資料庫也要隨時變化;還有正在興起的萬物互聯和人工智慧,都會產生海量級資料。

根據IDC的報告,在2020年全球資料量大約有55ZB,而到2025年將達到175ZB。資料量上升,整體市場容量擴大,必定帶來新的機遇,所以從資料庫行業市場規模來看,將從2020年561億美元達到2024年的1021億美元。

來源:IDC

我們同時看到,分散式資料庫的未來並不意味著替換傳統關係型資料庫,而更注重增量市場。資料量增長的空間是無法估量的。過去很長一段時間業界所主張的「去IOE」,現在資料庫行業內部已很少提起。在巨杉看來,更關注的是與客戶一同發展高速增長的全新業務市場,從而形成與上一代集中式產品的迭代,而不是遷移替代。所以巨杉資料庫的目標是與客戶共同挖掘數字化轉型中的全新資料價值,建立全新的分散式技術賽道,超越傳統的架構邊界。

因此,相對Oracle、IBM DB2等傳統資料庫廠商,巨杉資料庫更加關注Snowflake、Databricks等一些新興資料庫國際領導者的腳步。而Databricks作為Lakehouse概念的提出者,旨在相容資料倉庫和資料湖的優勢。為客戶提供統一分析平臺提升效率。

不僅如此,相比商業智慧(BI),人工智慧(AI)發展的需求更能推動資料庫的演變。在Wikibon公司研究AI、資料科學和應用軟體開發的首席分析師James Kobielus看來,「資料湖」正在迅速發展成為下一代資料倉庫。新一代資料倉庫的首要任務是用來治理用於構建和訓練機器學習模型的清理、整合和認可。底層資料平臺將繼續演進,為基於雲的AI管道提供核心的資料治理基礎。

跨多雲部署,「中立」的資料庫廠商

Snowflake 創造性地提出DaaS(Data warehouse as a Service)概念,將儲存和計算徹底分離,從本質上解決了以往架構的痛點,最大化體現出了雲原生架構的特點。它打破資料倉庫、資料湖、資料集市等孤島,極大地改變了資料格局,並消除了為每個工作負載配備獨立系統的需求。其資料庫可在三大公有云 AWS、Azure 和 Google Cloud Platform 上部署,對於企業多雲異構的複雜環境有適用性、中立性,同時亦提供資料交換功能,解決了過去使用者面臨著投入高、靈活度低等問題。

資料來源:snowflake官網

巨杉資料庫在這次釋出會隆重推出的SequoiaDB Cloud,就是按照這種理念。我們知道,企業的雲端計算落地,往往會按自身的需求,選擇使用不同能力的雲廠商。一些企業甚至會選擇多家雲廠商的IaaS平臺作為基礎設施,這就好比以往我們選擇多家伺服器廠商構建基礎設施一樣。

巨杉資料庫SequoiaDB Cloud因應企業的實際需求,它所提供的雲的能力不是一個純粹在雲上面去進行運維部署的能力,而是支援跨雲的方式,面向不同的雲廠商,提供跨公有云及私有云「跨多雲」的部署能力。

聚焦金融行業,構建行業通用資料庫產品

我國金融行業的監管機構在「分散式資料庫」行業技術標準跟進速度也很快,為產業的發展指明瞭方向。2020年11月26日,中國人民銀行正式釋出了《分散式資料庫技術金融應用規範技術架構》(JR/T 0203-2020)等3項金融行業標準,從技術方面、安全穩定以及災備方面提出了具體技術要求,巨杉資料庫均參與了制定的工作。

作為面向金融級企業客戶的商業化產品,巨杉資料庫從設計之初就是面向企業級整體需求,也因此更能滿足行業技術頂層設計的需求。基於湖倉一體的分散式技術架構,巨杉資料庫提供多模資料類型的技術能力,及跨引擎事務一致性,為客戶的聯機交易及實時資料中臺構建了堅實的資料基礎設施,獲得了客戶眾多好評。

未來面對金融企業進一步的資料化轉型需求,資料量要求會更大,不同資料鏈條之間會有更多細節資料的溝通,對數字安全性要求也更高。面對未來資料量、演算法與機器的互動、AI對資料使用的需求和變化,還有前面提到的從T+1到T+0的實時資料處理需求,都需要資料庫擴展、計算、一致性等諸多能力的進一步提升,這些需求將給未來巨杉資料庫團隊提出更高的要求。

打造業內一流的分散式資料庫團隊

王濤表示,巨杉資料庫能有今天的成就與市場地位,離不開整個團隊10年來的艱苦奮鬥。我們長期持續堅持以客戶為中心、以技術為底蘊、以市場為導向,打造出全球頂尖的新一代分散式資料庫產品。

巨杉資料庫的兩位創始人都從海外大廠歸來。其中,巨杉資料庫的聯合創始人,CTO與總架構師王濤曾是北美 IBM DB2 Lab核心研發成員,全球最高顧問小組成員之一(全球僅15人),是最早接觸分散式資料庫的先行者之一。2011年,兩位創始人回國正式創立了巨杉資料庫。隨著團隊的擴張,吸引大量來自IBM DB2北美研發團隊、華為分散式儲存團隊以及Oracle的人才,天生具備企業級基因。同時引入包括阿里在內的國內創新型企業人才,可以說,如今的巨杉資料庫擁有業界最頂尖的企業級分散式資料庫團隊。

此外,巨杉資料庫在多倫多建立前沿實驗室,並在今年以最高級別鑽石級贊助全球資料庫領域頂級學術會議ACM SIGMOD,旨在與資料庫前沿領域建立更密切的聯絡,跟頂級的研究團隊有更多的碰撞機會,吸引更多優秀人才加入巨杉團隊。

技術生態方面,巨杉資料庫構建了被稱為「巨杉學」的認證與學習體系。目前,已有超180家金融機構,30餘家知名技術服務開發商加入巨杉學計劃。截至2020年底,「巨杉學」已認證工程師超過1.8萬人,網站使用者註冊數量超過5萬人,為分散式技術業界發展提供堅實的人才積澱。

正如中國人民銀行副行長範一飛發表在《中國金融》上題為《譜寫新時代金融資訊化發展新篇章》的文章中寫到,「建立健全與金融市場相適應、有利於吸引和留住人才、激勵和發展人才的薪酬和考核制度,激發人才創新創造活力,造就既懂金融又懂科技的新型複合型人才隊伍。」像巨杉資料庫這樣,與行業密切結合的領域,複合人才的吸引和培養至關重要,期待中國資料庫產業蓬勃發展,推動信創產業砥礪前行。

文:陸易斯 /資料猿

資料猿官網:藉助「湖倉一體」打造金融行業分散式資料庫的領頭羊http://www.datayuan.cn/article/17945.htm


IT145.com E-mail:sddin#qq.com