学术出版物中引文模式的解读:一项研究辅助工具
引言
学术研究主要包括阅读和撰写文本。这些文本可以被建模为一场对话。按照这个模型,成为一名研究人员就是参与到一场科学对话中,倾听(阅读)并偶尔发言(写作)。

包含对科学对话贡献的文本以图书章节、同行评审期刊文章、会议论文等形式出版。对于个体研究人员来说,一项主要任务是识别哪些已发表的项目与其研究相关,以便能够研究它们并作出回应。
关键概念:相关性与顺序
科学对话中已发表的项目本身可能与研究相关;因为它是一些需要被批评的论题的核心表达,因为它提供了发展新理论的共同背景,因为它提出了与自己观点相似的论证,需要在此基础上进行区分。

一个项目也可能因另一个项目而相关,这是其与科学对话其他部分顺序关联的结果。如果文章 A 本身与其领域内某个论题的核心阐述相关,而书籍 B 对 A 的论证提出了尖锐的反对意见,那么我就不能在不考虑 B 的情况下依赖或反对 A。由于对话的每个部分都与其他部分存在依赖、发展、回应、矛盾等顺序关系,我必须追溯这种顺序,以找到哪些个体项目与我的研究相关,否则我的贡献可能会重复别人已说过的内容,或者我的论点可能已经在某个我懒得阅读的文本中被驳斥了。
关键概念:引文模式
科学对话中部分内容之间的顺序被编入引文系统。一位打算反驳他人论点的作者会引用出现这些论点著作;如果他依赖他人或自己之前工作的结论,情况也一样。每份已发表的项目都在脚注、尾注和参考文献中包含这些表明相关性的外向指针。研究人员的任务包括追溯这些外向关系;在研究一篇相关著作时,必须考虑同时研究它所引用的著作。虽然已发表的项目不包含任何内向引文指针的索引,但这些对于确定相关性同样重要;在我详细批评文章 A 之前,我应该了解书籍 B,因为它可能已经提出了我所有的反对意见,甚至可能比我做得更好。

通过将带有引文的参考文献数据导入 Neo4j,我们可以访问双向的引文指针。我们可以将最简单的相关性指示模式描述为 (B)-[:CITES]→(A)
,其中 A
或 B
已知相关。我们可以继续定义更复杂的相关性指示模式,使 Neo4j 和 Cypher 成为强大的研究辅助工具;这就是我们在下文将要讨论的内容。
关键概念:从一般到具体
到目前为止,我们的案例都是通用的,但我认为实现不应如此。一个原因是科学对话在不同学科之间并非同质,因此顺序和引文模式在各个领域中的含义不同;另一个原因是没人拥有所有数据。下面是一个来自哲学领域的小例子,基于实际数据和模式。
我们的图谱
四位作者、五篇文章和一个图书章节,以及它们的发表背景和引用顺序。假定 Michael Gorman 的文章《独立与实体》(2006)已知相关,我们通过其唯一的 DOI 明确检索它。以此为出发点,我们定义一些指示相关性的引文模式,以了解哪些其他已发表的项目也可能相关。

定义 1:参考文献
参考文献是按标准化格式呈现的已发表项目的元数据。证明我们的数据和模型可靠的一个迹象是我们可以重建这些参考文献(它不必美观,只需可行)。
// Definition of reference
MATCH (author:Author)-[:WRITES]->(article:Article)-[context:IN]->(issue)-[:OF]->(journal)
RETURN author.name + ": " + issue.year + ", '" + article.title + "', " + journal.title + " " + issue.volume + ", " + context.pp[0] + "-" + context.pp[1] + "." as Reference
UNION MATCH (author:Author)-[:WRITES]->(chapter:Chapter)-[context:IN]->(book)<-[:EDITS]-(editor:Author), (book)<-[:PUBLISHED_BY]-(pub:Publisher)
RETURN author.name + ": " + book.year + ", '" + chapter.title + "' in " + editor.name + " (Ed.), " + book.title + ", pp." + context.pp[0] + "-" + context.pp[1] + "." + pub.location + ": " + pub.name + "." AS Reference
定义 2:引文
引文是指一个已发表的项目引用另一个项目,即通过提及其参考文献来正式地提及它。
// Definition of citation
MATCH (a)-[:WRITES]->(b)-[:CITES]->(c)<-[:WRITES]-(d)
RETURN b.title + " (by " + a.name + ") CITES " + c.title + " (by " + d.name + ")" as citation
指示相关性的模式 1:Gorman (2006) 引用的所有内容
任何被相关内容引用的项目都可能相关——这是最简单的用例。
// Cited by Gorman (2006)
MATCH (a {doi:"10.5840/ipq20064626"})-[:CITES]->(b)<-[:WRITES]-(c)
RETURN b.title + " (by " + c.name + ")" as citation
指示相关性的模式 2:引用 Gorman (2006) 的所有内容
虽然追溯外向引文指针并不新鲜,但我们现在也可以追溯内向引文指针。任何引用相关内容的项目都可能相关。
// Citing Gorman (2006)
MATCH (a {doi:"10.5840/ipq20064626"})<-[:CITES]-(b)<-[:WRITES]-(c)
RETURN b.title + " (by " + c.name + ")" as citation
指示相关性的模式 3:基本辩论
科学对话中一个常见的顺序是一个作者论证某个结论,另一个人提出反对意见,然后原作者回应反对意见或加强最初的论点。我们称之为辩论。它具有以下模式:项目 C 引用项目 B,而项目 B 引用项目 A,并且 A 和 C 由同一作者撰写,但 B 不是。这可能代表两位研究人员意见一致,轮流发展共同论点;但在我们例子所涉及的哲学领域,它更可能是一场辩论,作者提出陈述 C,然后由 B 提出批评,并在 A 中回应批评。我们可以这样测试 Gorman (2006) 是否参与了任何此类模式:
// Debates sparked by Gorman (2006)
MATCH (author)-[:WRITES]->(article {doi:"10.5840/ipq20064626"})<-[:CITES]-(criticism)<-[:CITES]-(response)<-[:WRITES]-(author), (criticism)<-[:WRITES]-(opponent)
WHERE NOT (author)-[:WRITES]->(criticism)
RETURN article.title + " (by " + author.name + ")" as statement, criticism.title + " (by " + opponent.name + ")" as criticism, response.title + " (by " + author.name + ")" as response
指示相关性的模式 4:复杂辩论
如果某个辩论相关,则除了基本辩论模式捕捉到的内容外,其他贡献也可能相关。一份同时引用了辩论模式中的陈述和反对意见,或反对意见和辩护的著作,是很好的候选项。如果一份著作引用了辩论中更多的参与者,这越来越表明其相关性,因此我们将对辩论模式的进一步引用进行计数并视为相关性得分。
// Other contributions to debates sparked by Gorman (2006)
MATCH (author)-[:WRITES]->(statement {doi:"10.5840/ipq20064626"})<-[:CITES]-(criticism)<-[:CITES]-(response)<-[:WRITES]-(author)
, (criticism)<-[:CITES]-(interjection)-[:CITES]->(statementOrResponse), (interjection)<-[:WRITES]-(interjector)
WHERE NOT (author)-[:WRITES]->(criticism) AND (statementOrResponse = statement OR statementOrResponse = response)
RETURN interjection.title + " (by " + interjector.name + ")" as interjection, count(*) as relevance
结论
我提供了四个简单的例子,说明如何在哲学领域的学术出版物中解释引文模式。这些模式可以进一步扩展,但我用于原型设计的部分数据是专有的,因此我将要点限制在非专有数据上。我相信以这种方式尝试绘制“最具影响力的学者”图谱是无用且误导的,但我认为这会成为个体研究人员非常有力的工具。让了解自己领域的人定义那些在其特定研究领域中指示相关性的引文模式。特别是,我认为这可以作为参考文献管理软件(如 Thomson Reuters 的 EndNote)的插件来实现,从而提供一些便捷的新搜索功能。如果有人对此感兴趣,请告诉我。
这个页面有帮助吗?