GraphGists

媒体、政治与图

媒体、政治与图

这里是Rik Van Bruggen原博文

我的好朋友兼 Neo4j 社区成员 Ron 最近向我介绍了一项了不起的工作。Thomas Boeschoten,来自乌得勒支数据学校(等等),发表了一些令人惊叹的作品,从不同角度分析了荷兰脱口秀,并使用 Gephi 作为工具之一。他的一些结果令人着迷,而且非常酷炫。

netwerk

…​

我不会试图帮助您理解 Thomas 研究的深度,我只是想使用 Neo4j 对他慷慨分享的这个数据集进行一番探索。

导入数据集

Rik 最初从 Gephi 导入了放大20倍的数据集,但此 GraphGist 使用的是原始数据的抽样版本

…​

然而,当我启动服务器时,我很快发现我需要做一些工作 :) ... Thomas 创建的图没有真正的“数据库式”模型(例如,它没有对模型进行任何规范化) - 而且 Neo4j Browser 看起来有点无聊。

Screen%2BShot%2B2014 03 23%2Bat%2B19.28.11

我需要为这一切添加一些结构,以便能够有意义地查询它。

添加模型

在浏览了数据之后,我决定我将使用的数据模型看起来会像这样

Screen%2BShot%2B2014 03 23%2Bat%2B19.34.51

你可以看到它不是一个非常大的图

MATCH (n)
RETURN head(labels(n)) as labels,count(*) as count

但它的连接相当密集 - 节点之间有很多关系

MATCH (n)-[r]->(m)
RETURN head(labels(n)) as start, type(r) as rel, head(labels(m)) as end, count(*) as count

所以现在我可以对数据进行一些更有趣的查询,看看是否 - 就像 Thomas 的研究一样 - 我能发现关于这个数据集的一些有趣信息。来试一下:CYPHER查询!

让我们从一些简单的查询开始。让我们看看有多少人参加过不同的脱口秀

match (g:GUEST)-[v:VISITED]->(sh:SHOW)
return sh.id as Show, count(v) as NrOfVisits
order by NrOfVisits desc;

我们立刻就能感受到哪些是主要的脱口秀

但接下来我们来看看这些脱口秀嘉宾中有多少是政治家(或者至少有政治背景)。让我们稍微扩展一下查询

match (g:GUEST)-[v:VISITED]->(sh:SHOW),
g-[:AFFILIATED_WITH]->(p:PARTY)
return sh.id as Show, count(v) as NrOfVisits
order by NrOfVisits desc;

看看脱口秀的排名方式是否有差异

有趣。正如你所见,确实存在一些差异。

现在让我们从数据集的另一个角度来看:性别。我们来看看所有这些脱口秀中男性/女性嘉宾的分布情况

match (g:GUEST)-[:HAS_GENDER]->(gen:GENDER),
(g)-[v:VISITED]->(sh:SHOW)
return gen.name, count(v)
order by gen.name ASC;

我们可以清楚地看到男性在这些脱口秀中仍然占主导地位

如果我们再次加入政治维度,看看参加脱口秀的政治嘉宾的性别分布

match (g:GUEST)-[:HAS_GENDER]->(gen:GENDER),
(g)-[v:VISITED]->(sh:SHOW),
(g)-[:AFFILIATED_WITH]->(p:PARTY)
return gen.name, count(v)
order by gen.name ASC;

那么我们可以看到分布情况大体相同

我确信还有很多其他可以想到的查询,但在这篇文章中我再做一个:让我们看看不同脱口秀之间嘉宾访问的重叠度。为此,我们只需要计算两个脱口秀之间的路径:DWDD和P&W。

match p = AllShortestPaths((s1:SHOW {id:"DWDD"})-[*..2]-(s2:SHOW {id:"P&W"}))
return nodes(p)
limit 5;

结果正如你所料:大量的重叠 - 至少在这两个(见上文:最大的)脱口秀之间。因此,查询中的“limit 5”是为了让我的可怜的 Neo4j Browser 不至于崩溃。

总结

目前为止我就这些内容。你可以在这里下载数据库。我上面使用的查询都在GitHub上。

从我的角度来看,我认为这类数据集极其有趣且强大。我希望看到更多像 Thomas 这样的工作,无论来自我的国家还是国外,并从更广泛的角度来看待这个问题。无论如何,我要感谢并称赞 Thomas 的工作,并期待您的反馈。

希望这有用。

致意

Rik

再次链接到原博文

© . All rights reserved.