NBC 新闻使用 Neo4j 分析数十万条俄罗斯水军推文
挑战
毫无疑问,俄罗斯 Twitter 水军干预了2016年美国总统选举。
但要精确确定他们是如何做到的,一直很困难,原因在于网络
战的隐秘性、互联网的匿名性、伪造身份的便捷性以及
海量的社交媒体数据。
2017年11月,美国众议院常设特别委员会
情报部门发布了与“互联网研究机构”相关的2,752个 Twitter 账户名单,该机构是与克里姆林宫有
关联的“水军工厂”。(Twitter 后来将名单扩大到3,814个账户。)
俄罗斯特工冒充美国公民、新闻机构和政治团体,并设置了
虚假账户来散布虚假信息并煽动分裂。
名单发布时,Twitter 已暂停了这些账户并删除了推文和
用户资料。NBC 记者需要找到丢失的水军推文。
如何恢复和分析这些数据?这些网络是如何运作的?水军是如何
渗透到普通美国人的在线对话中并试图影响公众舆论的?
这些问题引起了公众的极大关注——但如果没有工具来
恢复和分析数据,答案就难以捉摸。
解决方案
图形显示了推文、用户(有些被揭露为
已知水军)、话题标签、来源应用程序和链接等实体之间的关系。
图算法根据节点与其他实体的连接情况衡量节点的中心性。
社区检测算法揭示了频繁互动的用户网络——并
识别出哪些水军是影响者,哪些只是放大其他水军的声音。PageRank
识别了每个集群中最有影响力的账户。
记者开始看到水军网络在行动。每个社区都有一个小核心的
内容生成者和更多的转发者。只有约25%的水军推文是
原创的;其余都是转发。水军利用常见的话题标签并回复
热门账户以积攒粉丝并建立影响力。
这些水军留下了许多踪迹。合法的 Twitter 用户通常通过手机发推,但
调查人员发现,通过 Twitter 网页客户端发出的推文数量异常高。
按时间绘制图表时,水军推文在俄罗斯的工作时间出现高峰。