GraphGists

通过图分析 ICIJ 离岸管辖区数据

简介

2013年,国际调查记者同盟 (ICIJ) 公布了泄露的离岸管辖区数据集中的一部分。该数据集包含在10个离岸管辖区(包括英属维尔京群岛、库克群岛和新加坡)创建的公司所有权信息。它涵盖了直到2010年的近30年数据。

公开发布的数据集是ICIJ分析的250万份泄露离岸文件中的一小部分。即便如此,它仍然包含大约25万个节点、50万条边和120万个属性。这种规模以及离岸实体之间复杂国际网络的关联性,使其非常适合Neo4j等图数据库。

本GraphGist探索了这部分公开数据集中的极小一部分,并演示了如何对这些数据进行建模、查询和展示。

简化数据模型

简化的ICIJ数据模型包含三种节点类型:Entity(实体)节点、Location(位置)节点和Jurisdiction(管辖区)节点,它们通过七种关系类型连接。

p5icHev
图1. 简化数据模型

一个Entity可以是自然人、组织或法人实体,并与其他实体相关联,关系可以是作为其他实体的OFFICER(职员),作为其他实体的CLIENT(客户),或作为相关实体(例如,两家子公司)。OFFICERCLIENT关系都有亚类型,通过边缘上的"type"属性表示,例如“Shareholder”(股东)、“Beneficial Owner”(受益所有人)等,并且可以有"start"和"end"属性表示关系的持续时间。

Entity`s 通过 `LOCATED(位于)关系与地理Location相关联,基于非规范化的地址字符串。该Location可以与另一个Location存在双向COLLOCATED(同址)关系,表示虽然地址字符串不同,但地理位置相同。例如:两个实体可能在同一栋建筑内,但使用不同的邮寄地址。

每个位置都PARTOF(属于)一个Jurisdiction,该管辖区可以是国家,也可以是某种程度上独立的次国家领土单位,而这个单位PARTOF更大的管辖区/国家。鉴于离岸网络的结构,在数据模型中区分这一点非常重要。最受欢迎的管辖区既不是老牌的大型管辖区(如国家),也不是小型且可能不稳定的独立领土,而是介于两者之间的:具有一定司法和财政自治权的半独立领土。此类领土的例子包括英属皇家属地,如泽西根西

除了地理位置外,`Entity`s 通过 INJURD(在管辖区)关系与管辖区相关联,表示他们对该管辖区负有纳税义务。

选定的示例数据包含13个Entity、4个Jurisdiction和5个Location,通过36个关系连接。

初始数据设置

我们使用一组Cypher CREATE语句加载示例数据。所有节点都包含identifier属性,以便于在ICIJ数据库的在线版本中轻松查找(只需更改链接中的末尾数字即可)

下面的图表提供了一个初步的概述,节点表示Entity`s,绿色代表 `Location`s,橙色代表 `Jurisdiction

基本描述性查询

列出节点特征

MATCH (e:Entity)
OPTIONAL MATCH (e)-[:LOCATED]->(location)-[:PARTOF]->(jurisdiction)
OPTIONAL MATCH (jurisdiction)-[:PARTOF]->(main_jurdisdiction)
RETURN e.label AS Entity, e.type AS Type, e.status AS Status, e.incorporated AS Incorporated, jurisdiction.label AS Jurisdiction, main_jurdisdiction.label AS `Main Jurisdiction`

第一个描述性查询提供了包含的实体概览:法律类型、活动状态、注册日期以及它们所在的管辖区。在查询中,我们区分了直接管辖区和主要管辖区:如果管辖区与另一个管辖区存在PARTOF关系,后者也将显示为“Main Jurisdiction”(主要管辖区)。

其重要性立即在结果表中显而易见:虽然Sefren Trust等离岸实体直接注册在新加坡等国家,但CorpShare Ltd等实体注册在纳闽,这是马来西亚的一个联邦直辖区,被积极推广为离岸金融中心。

列出边缘特征

MATCH (e1:Entity)-[r:CLIENT|:OFFICER]->(e2:Entity)
RETURN e2.label AS `Entity 1`, r.type AS `is a ... of`, e1.label AS `Entity 2`, r.start AS Since

第二个描述性查询向我们展示了示例数据集中存在的CLIENTOFFICER关系类型。请注意法国农业信贷银行的存在,它是法国最大的零售银行集团,是位于新加坡的Sefren Trust的客户,该信托由安特卫普的企业家Luscha Baumwald管理。

探索隐藏关系

当我们对实体之间的复杂关系感兴趣时,图数据库和查询语言的强大能力变得更加明显,这在传统数据库中需要费力的JOIN操作。

我们要不要检查七楼半的公司?

寻找可能乍一看并不明显的关系时,我们可能会查看形式上共享同一Location的实体。然而,这可能会忽略一些关系,因为位置是基于非规范化的地址字符串匹配的,例如,不同的邮政信箱意味着没有形式上的关系。

下面展示了一个更具包容性的查询示例。我们从选定的实体(离岸实体Gurker Sdn Bhd)开始,使用第一个MATCHWITH语句选择其注册位置。在第二个MATCH语句中,我们查询了所有符合条件的实体:(1) 注册在同一位置(地址相同),以及 (2) 注册在与我们起始实体地址同址位置的实体。

虽然Sherper Sdn Bhd、CorpDirect Ltd、CorpSec Ltd和CorpShare Ltd与Gurker Sdn Bhd共享地址,但我们找到了一个额外的同址实体:Portcullis TrustNet (Labuan) Limited。第一组实体注册在同一栋建筑的六楼,而后一个实体注册在七楼。

MATCH (gurker:Entity { label : 'Gurker Sdn Bhd' })-[:LOCATED]->(location)
WITH location
MATCH (l_entity:Entity)-[:LOCATED]->(location)<-[:COLLOCATED]-(colocation)<-[:LOCATED]-(colo_entity:Entity)
RETURN l_entity.label AS `Same location`, location.label AS `Gurker Address`, colo_entity.label AS `Collocated`, colocation.label AS `Collocated Address`

两个比利时人走进一个离岸管辖区...

此查询将返回所有位于比利时的Entity

MATCH (e:Entity)-[:LOCATED]->(location)-[:PARTOF]->(:Jurisdiction { label : 'Belgium' })
RETURN e.label AS Label, location.label AS Location

返回的两个实体是居住在比利时安特卫普的人。一个更有趣的后续查询将是确定这两个人在离岸实体图谱中是否存在关系。

为了回答这个问题,我们使用内置的shortestPath函数。我们指定了两个需要建立路径的节点,并指定了最短路径算法可以遵循的关系类型。我们明确关注客户端/职员关系、共享/同址地址、相关实体关系等。通过指定这些,我们也排除了经过管辖区(PARTOF)的路径——否则比利时的共享管辖区当然会是最短路径。

MATCH (baumwald:Entity { label:"Luscha Baumwald" }),(bossaerts:Entity { label:"Christiaan W Bossaerts" }), p = shortestPath((baumwald)-[:LOCATED|:CLIENT|:OFFICER|:RELATED|:COLLOCATED*]-(bossaerts))
RETURN p AS `Shortest Path Baumwald-Bossaerts`

该查询返回一个结果,确定了两个比利时实体之间存在关联。下图是在Neo4j 2.0本地Web界面中运行相同查询生成的,提供了更容易解释的视图。

路径通过Portcullis TrustNet (Labuan) Limited与Portcullis Trust (Singapore) Limited之间的RELATED路径完成。这些是Portcullis TrustNet的地区分支机构,Portcullis TrustNet是几十家离岸服务提供商之一,也是大部分泄露的ICIJ数据的来源。像Portcullis TrustNet(业内最大之一)这样的主要服务公司提供的服务是确保姓名、财务、商业利益和政治联系保持隐藏。

iSJFqSJ
图2. 结果

后记

这类应用的真正价值当然不在于巧妙的查询,而在于它能在多大程度上帮助调查记者和数据记者筛选如此庞大的数据集。本GraphGist侧重于对ICIJ公开数据集进行建模和查询的技术方面,而非结果本身。然而,即使是示例数据(从比利时子集中随机选择),也显示了这类应用在数据新闻方面的潜力。两点评论:

一项公开搜索确认Christiaan Bossaerts是比利时驻印度尼西亚名誉总领事。名誉总领事通常授予与代表国有良好关系(尤其是在商业联系方面)的个人。一位在纳闽等臭名昭著的离岸管辖区实体中有牵连的名誉总领事,可能是一个有趣的新闻报道起点。

同样,Luscha Baumwald在2012年出现在新闻中,当时他因参与Radisson案而被判欺诈罪。安特卫普的这家豪华酒店多年来被用作从逃税和离岸结构中洗钱的幌子。据我所知,此案尚未在媒体中与ICIJ数据集联系起来。