NBC 新闻使用 Neo4j 分析数十万条俄罗斯网络水军推文
挑战
毫无疑问,俄罗斯推特水军干预了 2016 年美国总统大选。但由于网络战的隐秘性、互联网的匿名性、伪造身份的便捷性和海量的社交媒体数据,确定他们究竟是如何做到的很困难。
2017 年 11 月,美国众议院情报常设委员会发布了一份与克里姆林宫有关的“网络水军农场”——互联网研究机构相关的 2752 个推特账户的名单。(推特后来将这份名单扩展到 3814 个账户。)俄罗斯特工假扮美国公民、新闻机构和政治团体,并创建虚假账户来散布虚假信息并煽动分化。
当这份名单发布时,推特已经暂停了这些账户,并删除了推文和用户资料。NBC 的记者需要找到失踪的水军推文。
如何恢复和分析数据?这些网络是如何运作的?水军是如何渗透到普通美国人的在线对话中,并试图影响舆论的?这些问题都事关重大的公共利益——而如果没有工具来恢复和分析数据,答案将难以捉摸。
解决方案
该图展示了实体之间的关系,例如推文、用户(其中一些被曝光为已知水军)、话题标签、源应用程序和链接。
图算法根据节点与其他实体的连接来衡量节点的中心度。社区检测算法揭示了经常互动的用户网络,并识别出哪些水军是意见领袖,哪些只是在放大其他水军的影响。PageRank 识别出每个集群中影响力最大的账户。
记者们开始看到水军网络的运作方式。每个社区都有一个小型的内容生成核心和一个更大的转发者群体。只有大约 25% 的水军推文是原创的,其余的都是转发。水军利用常见的标签并回复热门账户,以积累粉丝并扩大影响力。
水军留下了很多踪迹。合法的推特用户经常用手机发推文,但调查人员发现,通过推特网页客户端发推文的比例过高。当按时间绘制时,水军推文在俄罗斯工作时间出现激增。
下载案例研究