推动预防性护理和患者旅程可视化

挑战

一家大型州立健康保险公司需要洞察海量的患者数据,以改善会员的健康状况。使用 Neo4j 以及 Databricks,数据科学家可以快速地将接触点汇集到图中,并分析患者旅程以确定何时与会员互动。


按数字:患者旅程洞察项目
  • 图规模:14 亿个节点,28 亿个关系
  • 数据科学家采用率:增长 150%
  • 平台:Databricks 和 Neo4j 企业版,以及在 Microsoft Azure 上运行的 Neo4j 图数据科学

仅在美国,慢性病的医疗费用每年就高达 1.5 万亿美元。但这些疾病对人们、他们的生活质量、寿命以及亲人的现实影响是无法量化的。

预防性护理可以提供更好的生活质量,也能延长寿命。

一家大型州立健康保险公司为 350 万会员提供服务。拥有如此庞大的患者群体,该公司看到了获取洞察的机会。他们决定观察那些成功管理慢性疾病的人,以便将这些洞察分享给可能从中受益的其他会员。

解决方案

该企业优先考虑数据科学计划,明确了他们希望数据科学家关注的慢性疾病,例如充血性心力衰竭 (CHF)。然后,数据科学团队开始着手工作。

“我们部门的副总裁找到我们,提出了一个高级问题,”数据科学团队负责人说道。“我们的副总裁希望我们根据会员在临床或非临床旅程中的位置,找出他们的下一步最佳行动。基本上,如果会员完成了 A、B 然后是 C,那么 D 应该是什么?”

该团队考虑了隐藏在保险索赔中的旅程。如果他们可以将与患者相关的所有事件连接起来呢?

旅程是一个图问题


数据科学团队希望看到与一个人相关的所有索赔。“我们开始进行深入探讨,并考虑如何在概念层面上做到这一点,”数据科学团队负责人说。“我们说,‘这确实是一个图问题。我们想要连接会员旅程中的所有元素,并找出下一步最佳行动。’”

研究单个患者旅程需要 的粒度。“我们不想查看列并使用 GROUP BY 进行聚合,”团队负责人说。“我们需要深入到会员级别,根据他们所走的路径跟踪所有这些会员,并识别会员路径中的模式。这就是我们得出结论这是一个图问题的过程。”

对企业解决方案的需求


数据科学团队随后开始关注技术。“一旦我们确定问题的本质是基于图的,我们就开始寻找最适合支持该场景的数据技术。我们研究了市面上的各种图数据库解决方案,最终发现 Neo4j 是首选,”团队负责人表示。“市面上还有其他产品,但 Neo4j 处于领先地位,并引领着潮流。Neo4j 还有着比许多其他产品更强大的企业级故事 - 这在像我们这样的高度监管行业中显然很重要。”

Neo4j 的基于角色的访问控制就是一个例子。团队负责人对“我们可以控制到节点和标签级别,谁可以看到什么”这一事实印象深刻。敏感信息可以以粒度的方式锁定。

有关会员(包括保险公司的员工)的敏感数据可以被隐藏。例如,没有人需要知道会员的姓名或位置来研究他们的患者旅程。 Neo4j 可以阻止对图数据的读取、写入和更新访问,同时仍然让数据科学家能够使用图算法遍历和分析整个图。

利用 Databricks 提升生产力


数据科学团队已经做好了使用 Neo4j 的准备;他们已经采用了 Databricks,这是一个加速机器学习 (ML) 工作流程的云平台。“Databricks 使我们能够比以前做更多的事情,而且速度更快,”团队负责人说。

使用 Databricks 提高了数据科学家的生产力。

“我们拥有相同数量的数据科学家,但他们能够更快地完成更多工作,”他说。数据科学家采用率上升了 150%,因为整个团队都加入了进来,这与他们之前本地平台的采用率低迷形成了鲜明对比。“现在有了 Databricks,所有数据科学家都非常兴奋。我们把整个团队都带到了那里。我们从没有人想用它,到连我们团队之外的人也想要使用它,”团队负责人说。

US Health Insurer Architecture

连接海量健康数据


保险公司拥有大量数据,这些数据有可能帮助会员,包括索赔以及诊断和程序代码的解释。

Neo4j 是 Databricks 的完美补充;数据科学团队使用 Neo4j 连接器 for Apache Spark 从 Databricks 中加载他们的图。“我们使用 Databricks 中的 Neo4j Spark 连接器来帮助管理 ETL,因为这是一大堆数据,”团队负责人说。“我们正在获取我们所有会员的数据,他们所有的索赔以及与这些索赔相关的所有数据。”

“我们试图加载尽可能多的围绕我们会员的不同接触点,包括临床和非临床接触点,并将它们快速连接到一个图中,以便我们能够更好地识别何时需要与我们的会员互动或进行干预,以及如何最好地进行干预,”他说。

数据科学家通过 Databricks 使用 Spark 查询,从企业数据仓库中提取大量数据,将其放入 Databricks Delta Lake 中,并在那里进行清理和重塑。接下来,他们也在 Databricks 内部使用 Neo4j 连接器 for Apache Spark 将数据加载到 Neo4j 中。

使用 Neo4j 图数据科学,团队运行查询和图算法来识别患者旅程中的模式。

来自旅程的智慧


这家健康保险公司才刚刚开始基于图的患者旅程识别和探索,并应用从中获得的见解。虽然他们的图规模已经相当可观,拥有 14 亿个节点和近 30 亿个关系,但还有大量数据有待添加。

例如,数据科学团队使用自然语言处理 (NLP) 从提供者的笔记、测试结果等中提取健康信息。他们使用命名实体识别来获取有关所有相关实体的数据。该模型还带来了他们定义的实体之间关系的反馈。团队可以在 Neo4j 中存储实体及其关系。

数据科学团队处于创新的最前沿,使用最先进的工具和技术来推荐会员的下一步最佳行动。最棒的是,保险公司正在从其已经拥有的大量数据中学习,并理解其内在联系和模式,以支持患有慢性疾病的会员。

下载案例研究