Geoptima 移动网络事件日志收集

摘要

Geoptima 是一个用于收集蜂窝网络上移动设备产生的被动和主动事件的应用。事件日志可用于分析用户在移动网络上的体验，并帮助跟踪性能问题。例如，在网络的特定区域访问 Facebook 时，iPhone 4 的表现是否比 iPhone 5 更好或更差？有关创建此数据的产品的更多信息，请参阅 Geoptima 的描述。或者，观看我在 vimeo 上的原始视频 https://vimeo.com/17321571。

此 GraphGist 描述了一种为瑞典一家名为“Operator X”的假设移动网络收集和管理数据的方法。我自己的手机，一部 HTC One，是主要的示例设备，但大多数其他信息都是匿名的。

数据模型

可以使用 graphviz dot 图来展示数据模型。

图 1. 我们的数据模型

底部浅色的节点代表主要的信息载体，即 JSON 编码的事件文件。这个模型不管理事件本身，只管理文件，因为目的是针对每个文件决定这些数据属于哪里。谁应该访问这些数据，以及如何获取这些数据。管理这些规则的部分在绿色的子图中，图的其余部分为我们将要进行的查询提供了便捷的结构。一旦看到下面的示例查询，这就会更容易理解。

使用 Cypher 构建模型

我们将分阶段构建模型。从最简单的部分开始，即用户和项目。可以使用下面的 Cypher 查询来构建这个子图。

CREATE
(users {name:"Users"}),
(projects {name:"Projects"}),
(project:Project {name:"Operator X"}),
(craig:User {name:"Craig"}),
(jonas:User {name:"Jonas"}),
(john:User {name:"John"}),
(users)-[:user]->(craig),
(users)-[:user]->(jonas),
(users)-[:user]->(john),
(projects)-[:project]->(project),
(craig)-[:su]->(project),
(jonas)-[:su]->(project)

现在我们有了一个简单的图，包含一个项目和三个用户，为了方便起见，还有用于遍历到项目和用户的节点。我们还为用户分配了项目，这意味着访问权限。在实际应用中，访问权限的处理方式要复杂得多，但在此示例中我们保持简单，因为我们希望专注于事件日志数据管理。

可视化工具根据我们使用 Neo4j 2.0 标准为节点分配标签的事实，很方便地将用户标记为蓝色，项目标记为红色。在构建更复杂的图之前，让我们先执行几个简单的查询。

查询图

我们将展示几个在此图上运行的有用查询，例如

谁有权访问该项目？
该项目使用什么规则来决定数据所有权？
'Craig' 为多少设备收集数据？
'Craig' 收集了多少数据？
Craig 收集数据持续了多少天？

到目前为止，在这个简单图上只能执行上述第一个查询，所以在构建更多内容之前先尝试一下。

项目

我们来执行一个基本查询。谁有权访问“Operator X”数据？

MATCH (u)-[:su]->(p)
WHERE p.name = 'Operator X'
RETURN u.name AS `Users with access to Operator X data`

三个已定义的用户中有两个有权访问“Operator X”数据。

项目分配规则

现在项目的目的是收集数据。我们需要定义收集哪些数据的规则。让我们先添加两套规则，一套基于设备的内部设备身份编号，另一套基于设备实际运行的移动网络。在实际网络中，这两种类型的规则都很常用。

MATCH (project:Project)
WHERE project.name = 'Operator X'
CREATE
(filter_plmn:Filter {name:"Filter PLMN"}),
(filter_devices:Filter {name:"Filter Devices"}),
(f1:FilterPLMN {name:"Operator X", mcc:'240', mnc:'08'}),
(f2:FilterPLMN {name:"My Operator", mcc:'240', mnc:'18'}),
(f3:FilterPLMN {name:"XTele 2", mcc:'240', mnc:'28'}),
(fd:FilterDevices {name:"Test Devices", devices:[
  '354436058915420','358506046830281','356451041578183','351503053121388','353328059211902'
]}),
(project)-[:filter]->(filter_plmn),
(project)-[:filter]->(filter_devices),
(filter_plmn)-[:filter]->(f1),
(filter_plmn)-[:filter]->(f2),
(filter_plmn)-[:filter]->(f3),
(filter_devices)-[:filter]->(fd)

现在我们可以问这些问题：

选择了多少个运营商？
还包括了多少个特定的测试设备？

选定的运营商

在将数据分配给“Operator X”时，将选择多少个运营商？

MATCH (p:Project)-[:filter*]->(f:FilterPLMN)
WHERE p.name = 'Operator X'
RETURN f.name AS Name, f.mcc AS mcc, f.mnc AS mnc

如果设备在由上述任何一个网络运营商提供服务时收集数据，其数据将与项目“Operator X”关联。

选定的测试设备

MATCH (p:Project)-[:filter*]->(f:FilterDevices)
RETURN f.name AS Name, f.devices AS Devices

如果上面列出的五台设备中的任何一台收集数据，它将被分配到项目“Operator X”。

设备管理

到目前为止，我们只看了用于决定应该收集哪些数据的模型。现在我们来看一下实际收集的数据。我们将为上述过滤器中列出的设备之一，我的手机，一个身份编号为 '354436058915420' 的 HTC One 设备，建模样本数据。

MATCH (craig:User)-[:su]->(project:Project)
WHERE craig.name = 'Craig' and project.name = 'Operator X'
CREATE
(devices {name:'Devices'}),
(sims {name:'SIM Cards'}),
(active_devices {name:'Active Devices'}),
(project)-[:ACTIVE_DEVICES]->(active_devices),
(devices)-[:DEVICE]->(d1:Device {name:'354436058915420'}),
(devices)-[:DEVICE]->(d2:Device {name:'358506046830281'}),
(devices)-[:DEVICE]->(d3:Device {name:'353328059211902'}),
(sims)-[:SIM]->(s1:SIM {name:'240080000000001'}),
(sims)-[:SIM]->(s2:SIM {name:'240080000000002'}),
(sims)-[:SIM]->(s3:SIM {name:'240080000000003'}),
(sims)-[:SIM]->(s4:SIM {name:'240080000000004'}),
(sims)-[:SIM]->(s5:SIM {name:'240080000000005'}),
(d1)-[:ASSOC]->(devsim1:DeviceSIM {imei:'354436058915420',imsi:'240080000000001'}),
(d2)-[:ASSOC]->(devsim2:DeviceSIM {imei:'358506046830281',imsi:'240080000000002'}),
(d2)-[:ASSOC]->(devsim3:DeviceSIM {imei:'358506046830281',imsi:'240080000000003'}),
(d3)-[:ASSOC]->(devsim4:DeviceSIM {imei:'353328059211902',imsi:'240080000000004'}),
(d3)-[:ASSOC]->(devsim5:DeviceSIM {imei:'353328059211902',imsi:'240080000000005'}),
(s1)-[:ASSOC]->(devsim1),
(s2)-[:ASSOC]->(devsim2),
(s3)-[:ASSOC]->(devsim3),
(s4)-[:ASSOC]->(devsim4),
(s5)-[:ASSOC]->(devsim5),
(craig)-[:USED_DEVICE]->(d1),
(craig)-[:USED_SIM]->(s1),
(active_devices)-[:ACTIVE]->(devsim1),
(active_devices)-[:ACTIVE]->(devsim2),
(active_devices)-[:ACTIVE]->(devsim3),
(active_devices)-[:ACTIVE]->(devsim4),
(active_devices)-[:ACTIVE]->(devsim5),
(devsim1)-[:files]->(files {name:'Files'}),
(files)-[:DATE]->(x1:Date {date:'2013-12-30'}),
(files)-[:DATE]->(x2:Date {date:'2013-12-31'}),
(files)-[:DATE]->(x3:Date {date:'2014-01-01'}),
(files)-[:DATE]->(x4:Date {date:'2014-01-02'}),
(files)-[:DATE]->(x5:Date {date:'2014-01-03'}),
(files)-[:DATE]->(x6:Date {date:'2014-01-04'}),
(files)-[:DATE]->(x7:Date {date:'2014-01-05'}),
(files)-[:DATE]->(x8:Date {date:'2014-01-06'}),
(files)-[:DATE]->(x9:Date {date:'2014-01-07'}),
(x5)-[:JSON]->(f1:File {
  name:'354436058915420_12345_12345.json',
  start:'2014-01-03 12:12:12 GMT+01',
  first:'2014-01-03 12:12:12.01 GMT+01',
  last:'2014-01-03 12:17:32.57 GMT+01',
  events:321,mcc:'240',mnc:'08',carrier:'Operator X'
}),
(x5)-[:JSON]->(f2:File {
  name:'354436058915420_12346_12346.json',
  start:'2014-01-03 12:17:33 GMT+01',
  first:'2014-01-03 12:17:33.01 GMT+01',
  last:'2014-01-03 12:23:21.76 GMT+01',
  events:405,mcc:'240',mnc:'08',carrier:'Operator X'
}),
(x5)-[:JSON]->(f3:File {
  name:'354436058915420_12347_12347.json',
  start:'2014-01-03 12:21:22 GMT+01',
  first:'2014-01-03 12:21:22.01 GMT+01',
  last:'2014-01-03 12:27:13.17 GMT+01',
  events:279,mcc:'240',mnc:'08',carrier:'Operator X'
}),
(x1)-[:NEXT]->(x2),
(x2)-[:NEXT]->(x3),
(x3)-[:NEXT]->(x4),
(x4)-[:NEXT]->(x5),
(x5)-[:NEXT]->(x6),
(x6)-[:NEXT]->(x7),
(x7)-[:NEXT]->(x8),
(x8)-[:NEXT]->(x9),
(f1)-[:NEXT]->(f2),
(f2)-[:NEXT]->(f3)

现在图开始看起来相当复杂了。这实际上是页面顶部 graphviz 示例的完整版本。我们对布局的控制不如 graphviz，因此这更难理解，但现在我们可以使用 Cypher 查询它了。

收集的数据

我们在这个图上尝试两个查询：

Craig 收集了多少事件？
Craig 收集数据持续了多少天？

MATCH (u:User)-[:USED_DEVICE]->(d)-[:ASSOC]->(ds)-[:files]->(f)-[:DATE]->(dd)
WHERE u.name = 'Craig'
RETURN u.name AS Name ,ds.imei AS imei,ds.imsi AS imsi,dd.date AS Date

上面的查询回答了第二个问题。我们从用户遍历图，经过该用户使用的设备，以及设备-SIM 卡关联到文件，以及这些文件包含事件的日期。但是，如果我们只想要天数，我们不应该写出整个表格。相反，我们可以使用 count() 函数，例如：

MATCH (u:User)-[:USED_DEVICE]->(d)-[:ASSOC]->(ds)-[:files]->(f)-[:DATE]->(dd)
WHERE u.name = 'Craig'
RETURN count(dd.date) AS `# Days`

现在我们可以看到我们收集了 9 天的数据。

既然我们知道如何使用 count() 等函数，我们再试一个函数 sum() 来汇总所有事件文件的事件属性：

MATCH (u:User)-[:USED_DEVICE]->(d)-[:ASSOC]->(ds)-[:files]->(f)-[:DATE]->(dd)-[:JSON]->(json)
WHERE u.name = 'Craig'
RETURN count(json.events) AS `# Events`,sum(json.events) AS `Total Events`,sum(json.events)/count(json.events) AS `Avg Events/File`,min(json.events) AS `Min Events/File`,max(json.events) AS `Maximum Events/File`

因此我们可以清楚地看到，我们在三个文件中收集了 1005 个事件，平均每个文件 335 个事件。

摘要

上述示例是作为 AmanziTel 的 Geoptima 数据收集系统某个数据收集组件升级时进行内部文档和头脑风暴的一部分而制作的。这并不是正在使用的实际数据收集系统的精确模型，但确实代表了真实系统正在进行的一些决策逻辑。使用 Neo4j 作为数据库，促进了产品管理的数据建模方面，也方便了实际产品的开发。

此页面是否有帮助？

GraphGists