ICIJ 如何使用图数据库技术揭露瑞士泄密事件
挑战
传统上,记者必须尝试在 Excel 文件中的数据之间发现关系,进行手动互联网搜索,有时甚至手动绘制人员和实体之间的连接,以获得故事所需的事实。
然而,Davet 和 Lhomme 意识到,瑞士泄密数据集过于复杂,无法手动分析或自行分析。因此,他们求助于 国际调查记者联盟 (ICIJ),该联盟启动了有史以来最大的新闻合作项目之一。
ICIJ 数据和研究部门编辑 Mar Cabra 知道,他们需要一个工具来更好地分析数据中的关系,以应对当前和未来的调查。
瑞士泄密数据包含来自 200 多个国家的汇丰银行账户持有人信息,总金额超过 1000 亿美元。但他们的信息分散在数千个文件中,彼此之间没有直接联系。数据的复杂性意味着 Cabra 和 ICIJ 需要一种方法来分析海量非结构化数据,并快速轻松地理解数据。
解决方案
Cabra 说:“在处理离岸泄密等事件时,我了解到图形分析在调查金融腐败方面的重要性。” “连接是理解真实故事的关键:它们显示了谁与谁做生意。我们很早就决定,我们需要对汇丰银行泄密事件使用图数据库方法。”
数据和研究部门的第一步是从提供的普通 Excel 文件中重新创建汇丰银行客户数据库。接下来,他们将每个姓名连接到一个或多个国家(在图数据库中都称为“节点”)。最后,他们将数据转换为图形格式以探索节点之间的连接。
总的来说,泄密事件包含约 60,000 个文件,其中包含来自 203 个国家/地区的 100,000 多名客户的信息。生成的图数据库包含 275,000 多个节点,它们之间有 400,000 个关系。
ICIJ 与开源集成软件专家 Talend 合作,将原始数据集传输到 Neo Technology 的 Neo4j 图数据库。另一家 Neo 合作伙伴,Linkurious,提供了一个 Web 应用程序作为用户界面,以便记者可以可视化和轻松访问图数据库。
图可视化方法使 ICIJ 记者能够识别人员和银行账户之间的连接,帮助他们“追踪资金”,从而发现数十起欺诈、腐败和逃税事件。
下载案例研究