首頁 > 科技

外部第三方資料常見問題與質量監控

2021-09-04 03:03:15

金融行業隨著數字化的深入,對外部資料的使用越來越廣泛。由於外部資料供應商的能力參差不齊,就給外部資料的使用造成一定的困難。比如重要的信貸准入指標由於缺失造成審批通過率急劇上升或下降;又比如由於修改業務計算口徑造成變數的均值發生漂移,導致評分卡中的客戶信用評分分佈發生明顯變化。以下列出了常見的風險點。

首先是元資料變更。現在外部資料結構多以Json格式傳輸。這種格式的優勢是沒有限制資料的數量和類型,調整起來很方便。缺點是缺乏元資料管控。如果第三方資料來源的元資料發生改變,而資料使用方的解析規則沒有及時更新,就會造成資料缺失。其中「修改欄位類型」的後果比較嚴重,會造成變數缺失,可以通過元資料監控和缺失值監控進行報警。

更改資料標準是比較常見的問題。很多第三方資料供應商的資料是伴隨其核心業務產生的,因此必然受其業務發展的影響。比如「新增業務類型」相關的影響,一些提供貸款申請查詢資訊的資料,之前一筆貸款申請只查詢一次,後來隨著業務的變化,有可能會查詢兩三次,其中只有一次查詢是貸款機構的有效查詢,其他幾次是資金方、擔保方、保險公司查的,這造成指標含義和有效性的變化。這可以通過均值漂移監控來進行報警。「更改基礎資料計算口徑」也是常見的問題。銀行內部做資料治理時,指標的計算口徑就是爭論的焦點,並且不時會有變更,外部資料供應商資料的口徑更改更是家常便飯。需要對資料的均值/佔比和標準差極差進行監控。

資料質量問題有些是資料先天問題,有些是人為造成的。先天問題,比如缺失值有可能是因為該資料本身就缺失,也有可能是業務發生中斷造成的。人為原因造成的,比如由於資料缺失,資料供應商自作聰明的把缺失值用均值做替代,就造成單一值問題。這類問題可以監控資料缺失值、單一值比例。對於錯誤值、異常值,需要對碼值和取值範圍進行監控。

最後是資料代理的情況。專業的資料供應商希望做到「一站式服務」,這就需要代理其他機構的資料,而且還會有二代、三代,甚至更多。除了以上提到的資料問題之外,還會新增「更改源資料」和「資料斷供」的情況。其中前者會造成同一個業務的資料前後不一致,這需要監控資料的中心位置(均值、中位數等)和刻度(標準差、極差等)等指標。後者的影響和資料缺失的問題類似,監控手段也一樣。

除了以上顯而易見的資料問題,還要考慮其資料業務的穩定性,這是比較長遠的工作。需要通過評估資料供應商的資質、資料的全生命週期,並結合法律法規的預判,對供應商整體的資料供應穩定性進行評估。

以上只是簡述了一下外部資料使用中注意的點,想到哪裡,寫道哪裡,不完備。有興趣的讀者可以翻閱一些資料質量管理的材料。只要把外部資料的生命週期搞明白了,管理思路基本一致。

資料資管出品


IT145.com E-mail:sddin#qq.com