实时图分析文档节省了公司 400 多万个员工工时

挑战

由于思科的销售渠道范围很广,他们的内部数据库中包含大量内容——例如文档、文件和演示文稿——思科的销售团队依靠这些内容来签署潜在客户。

但是,存在一个主要的内容可发现性问题:每位销售人员每天要花一个小时才能找到与潜在客户需求相关的内容。

该公司依赖于典型的索引驱动搜索引擎,员工可以使用一系列关键字进行搜索。但由于文件没有分配元数据,因此难以提取相关内容。

“问题在于内容过多,而对内容的理解不够深入,”思科内容服务总监普雷姆·马尔霍特拉说。“我们必须问自己,‘我们如何才能让搜索引擎做得更好,缺失的环节是什么?’”

解决方案

思科求助于 Neo4j 来解决这些挑战。

为了为思科的大量历史文档分配元数据,第一步是将文件类型(例如 Microsoft Word 和 PDF)转换为潜在狄利克雷分配 (LDA) 格式,以便这些文档可以由大型数据平台进行聚类。

一旦文档被聚类,一组常见的关键字和短语被馈送到 Neo4j 中,在那里它们被组合起来创建本体。

对于实时文档处理,文档从内容管理系统发送到机器标记服务,该服务重新处理文档、分配标签并将关键字和短语添加到 Neo4j 数据库中,同时将文档返回到文档库。

为历史数据(实时)分配元数据的能力解决了思科的内容可发现性问题。

但 Neo4j 进一步向前迈进了一步。

根据关键字、内容评级和文档访问次数,Neo4j 还能够提供内容推荐,为销售人员提供他们可以在与客户达成交易时利用的额外信息。 下载案例研究