ICIJ利用Neo4j图技术赋能调查记者

图数据库将新闻调查时间从数月缩短至数小时,并使记者能够挖掘出之前隐藏的事实和关系。


国际调查记者同盟(ICIJ)成立的目的是揭露不法行为并引发积极的变革,它汇聚了全球数百名调查记者和媒体机构,共同解开错综复杂的腐败网络。

ICIJ的调查工具和专家记者跨境合作,帮助新闻机构应对大量虚假信息的冲击,并报道一些全球最大的新闻事件。无论是在合作揭露服务于富人的影子金融体系的隐藏信息、破坏生态系统的盈利公司,还是揭露其他滥用行为,ICIJ始终忠于其使命,通过确保人们了解正在发生的事情来促进积极的变革。

技术在支持该组织近300名记者组成的优秀团队方面发挥着至关重要的作用,因为他们与媒体机构合作。“任何记者面临的主要挑战之一就是筛选海量信息以发现真相并揭露谎言,”ICIJ首席技术官Pierre Romera Zhang说。“即使一开始看起来是本地事件的故事也可能跨越国界,并涉及数千次复杂的互动。这就是Neo4j至关重要的原因。”

ICIJ因帮助揭示真相而闻名。该组织获得了许多新闻界的最高荣誉,包括因“巴拿马文件”获得普利策解释性报道奖,该文件通过离岸公司揭露了大量的金融腐败,并利用Neo4j图数据库识别隐藏的模式并在数据中取得突破。

“大多数记者没有受过数据科学家的训练,新闻机构也没有做好管理大量脱节信息的准备——但今天要发现和讲述原创、重要的故事,这正是需要的,”Romera Zhang说。

利用技术改变新闻业

Datashare是一个基于开源工具(包括Neo4j)构建的安全文档分析平台,是ICIJ重大全球调查的核心。现在依靠Neo4j图数据库技术,Datashare经过优化,可以水平扩展并快速访问来自多个系统的数据,从而揭示以前使用关系数据库等常见技术难以甚至无法发现的关系。

该解决方案汇集了ICIJ十年来的调查专业知识,使记者能够从海量数据集中提取见解。“该平台为记者创造了公平的竞争环境,他们现在可以使用其他行业传统使用的强大数据和分析工具,”Romera Zhang解释道。

Datashare combines metadata extraction, search capabilities, and graph technology in a single package.
上图:Datashare将元数据提取、搜索功能和图技术整合在一个软件包中。

 

一项调查可能涉及数千万份文件,这使得记者几乎不可能手动建立联系。在Datashare之前,记者可能需要花费数月甚至数年时间来筛选复杂的信息网络,以跨国连接人员和实体。

ICIJ在巴拿马文件上的工作涉及处理2.9 TB的信息,包含1190万条记录。“借助Neo4j图技术,我们建立了活动和实体之间的联系,否则这些联系会被错过,”Romera Zhang说。“那时我们有了Datashare的想法,希望为记者提供一个强大的工具来揭露腐败。”

A timeline of ICIJ’s investigations and Datashare development.
上图:ICIJ调查和Datashare开发的时间线。

 

在与巴拿马文件上的其他记者合作时,ICIJ团队通过使用Apache Solr和Tika提取文档元数据并将数据导出到Neo4j图数据库,成功地绘制了人员、政府和企业之间的联系图。

作为Datashare的基础,Neo4j通过将关系嵌入到数据库结构中,使遍历节点之间的连接变得快速。使用传统的关系数据库,记者和数据分析师必须使用低效的外键来推断数据连接。

Foreign keys are columns in traditional relational databases that are linked to columns in different tables. In a graph structure, these relationships are quick to traverse. This efficiency is especially important for datasets with complex, interdependent relationships, such as those found in leaked documents.
上图:外键是传统关系数据库中与不同表中的列链接的列。在图结构中,这些关系可以快速遍历。这种效率对于具有复杂、相互依赖关系的数据集(例如泄露文档中发现的数据集)尤其重要。

 

“关系数据库无法有效地分析记者遇到的庞大、密集互连数据集中的关系,”Romera Zhang说。“使用Neo4j,创建关系图(本体)很容易,无论主题是什么。该图向记者提供了清晰的现实视图,以便他们可以核实信息并使调查保持正轨。”

Datashare visualizes employee relationships at Enron.
上图:Datashare可视化安然公司员工关系。

 

Datashare于2019年成为ICIJ分析大量数据的内部平台,首先用于罗安达泄密事件。该报道揭示了数十年来不受约束的贪婪是如何使一个石油和钻石丰富的非洲国家陷入贫困的。记者使用Datashare分析短信、电子邮件、PDF和其他记录,重建关键人物之间重要会议和对话的时间线,以揭示“他们知道什么以及何时知道”背后的真相。

Datashare automatically detects and filters data by person, organization, and location.
上图:Datashare可以自动检测和过滤人员、组织和位置的数据。

 

Datashare是市场上为数不多的能够摄取大型复杂.pst文件(代表来自Microsoft Outlook的整个邮箱,有时大小达到几个GB)并立即生成可搜索结果的数据工具之一。

锁定“确凿证据”

ICIJ继续使用Datashare和Neo4j图技术来消除虚假信息并在迫切需要的地方揭示真相。

该组织对非法获取的艺术品和古董的调查导致与著名博物馆和收藏家达成协议,将古代雕像和雕塑送回尼泊尔、柬埔寨和泰国。ICIJ的“毁林公司”调查揭示了在认证的可持续性幌子下发生的森林破坏和侵犯人权的行为。

该联盟的“植入物文件”调查揭示了全球卫生当局如何未能保护数百万人免受测试不足的医疗设备的伤害。自那以后,超过260万人利用ICIJ的离岸泄密数据库来探索世界领导人、政治家、其家人和其他关联人之间的联系。

2020年,ICIJ与100多家媒体合作伙伴合作发布了FinCEN文件。该工作强调了总部位于美国的全球银行如何发起交易以转移超过2万亿美元并逃避洗钱规则。美国立法者采取了行动,并通过了公司透明法案,以阻止脏钱的流动,并提高公司所有者的问责制。

扩展访问权限,提供强有力报道的选择

Romera Zhang和他的团队正在推出Datashare即服务,以便媒体合作伙伴可以索引大量文件,而无需内部计算资源。该团队还在开发一个沙盒环境,允许记者直接在Datashare平台上运行他们首选的AI算法,使分析更加便捷。

Neo4j Bloom is embedded into ICIJ Datashare, allowing journalists to search for patterns in the data.
上图:Neo4j Bloom嵌入到ICIJ Datashare中,允许记者搜索数据中的模式。

 

ICIJ为Datashare创建了一个新的Neo4j插件,使该工具更易于记者使用。该插件专为ICIJ调查而设计,简化了创建图数据库的过程,因此非技术记者无需掌握Neo4j的图查询语言Cypher。该插件允许用户访问图统计信息,并使用Neo4j的可视化工具Neo4J Bloom探索节点之间的连接。

“Neo4j是市场上最重要的图数据库,我们对该公司及其技术充满信心,”Romera Zhang说。“这是我们实现数据访问和分析民主化的主要优势,因此调查记者可以讲述更多改变世界的报道。”

联系我们

想知道您可以通过图驱动的解决方案为您的业务解锁哪些见解?让我们聊聊——联系我们,我们会与您取得联系。