数据血缘工具改进风险管理,推动合规性

挑战

为了加强风险数据聚合和内部风险报告的系统,以应对 2007 年全球金融危机后出台的法规,瑞银需要遵守这些法规。具体来说,瑞银寻求遵守巴塞尔银行监管委员会发布的 239 号标准 (BCBS 239)。

根据此规定,银行需要对其风险报告的数据流提供透明度。这需要广泛的数据治理和详细的数据血缘。

数据血缘是风险管理的重要组成部分。数据血缘涉及跟踪信息的整个生命周期——其来源、演变和在组织中的流动。通过数据血缘,组织可以跟踪信息在企业中的流动,监控其质量,发现错误并追溯到源头,最大程度地减少损害并减少数据重复。

瑞银构建了一个名为集团数据字典 (GDD) 的应用程序,作为其数据血缘和数据治理工具。

第一个版本构建在 Oracle 上,但瑞银很快发现了使用关系数据库管理系统 (RDBMS) 方法的局限性,该方法依赖于连接跨表的 JOIN。瑞银决定需要一个更好的解决方案,该解决方案适合创建实时数据血缘可视化并通过 Excel 导出血缘信息以进行临时分析。

解决方案

数据血缘是一个最好使用互连数据解决的问题。

“数据血缘是一系列高度互连的数据,更自然地存储在图数据库中,”瑞银高级软件工程师兼技术主管 Sidharth Goyal 解释道。

Neo4j 提供了相较于关系数据库的若干优势,包括使用 Neo4j 的 Cypher 查询语言进行查询。

“与 PL/SQL 相比,Cypher 使我们能够更轻松地遍历互连数据,后者依赖于跨多个表生成关系数据库格式的血缘的 JOIN,添加一个处理层以将其格式化为对象,然后将其可视化。Cypher 和 Neo4j 更适合我们正在努力完成的工作,”Goyal 说。

新的数据血缘和数据治理工具需要与遗留系统顺利集成。所有瑞银工作流程和审计功能都保留在 Oracle 上,因此同步至关重要。

瑞银将 Neo4j 与 Oracle 系统同步,首先进行初始数据加载,然后执行增量同步,其中从 Oracle 表中读取事务并实时写入 Neo4j。

瑞银使用 Neo4j 评估数据血缘并在 GraphJSON 中描述结果。此信息流入 D3.js 可视化程序以将数据呈现为血缘图。

拥有所有元数据可以轻松地进行报告。当出现特定问题时,数据可用于临时报告,并且可以将整个血缘导出到 Excel。

下载案例研究