学术出版物中的引用模式解读:研究助手
引言
学术研究很大程度上包括阅读和写作文本。这些文本可以建模为一种对话。按照这种模型,成为一名研究人员就是参与科学对话,倾听(阅读)并偶尔发言(写作)。

体现对科学对话贡献的文本以书籍章节、同行评审期刊文章、会议论文等形式出版。对于个别研究人员来说,一项主要任务是确定这些已发表的项目中哪些与自己的研究相关,以便能够对其进行研究并做出回应。
关键概念:相关性和顺序
科学对话中已发表的项目本身可能与某人的研究相关;因为它是一些待批判的论题的核心表达,因为它提供了一个共同的背景,在此基础上可以发展一些新的理论,因为它发展了与自身类似的论证,需要在此基础上进行区分。

一个项目也可能由于另一个项目而具有相关性,作为其在科学对话中对其他部分的顺序的函数。如果文章A本身是相关的,因为它对我的领域中的某些论题进行了核心阐述,而书籍B对A的论点提出了尖锐的异议,那么我不能在不考虑B的情况下依赖或反对A。由于对话的每个部分都按依赖、发展、回应、反驳等方式有序地排列到其他部分,我必须追踪这种顺序才能找到哪些单独的项目与我的研究相关,否则我的贡献要么因为仅仅重复了已经说过的话而变得多余,要么因为我的论点已经在我不屑阅读的某些文本中被驳斥了。
关键概念:引用模式
科学对话各部分之间的一些顺序在引用系统中得到了规范化。打算反驳他人论点的作者会引用出现这些论点的著作;如果他依赖于他人或自己先前工作的结论,情况也是如此。每个已发表的项目在脚注、尾注和参考文献中都包含这些传出的指示相关性的指针。研究人员的工作涉及追踪这些传出的关系;在研究相关作品时,必须考虑也研究它引用的作品。虽然已发表的项目不包含任何传入引用指针的索引,但这些指针在建立相关性方面同样重要;在我写出对文章A的详细批评之前,我应该知道书籍B,因为它可能已经提出了我所有的异议,也许甚至比我做得更好。

通过将我们的带引用的书目数据导入Neo4j,我们可以双向访问引用指针。我们可以将最简单的指示相关性的模式描述为(B)-[:CITES]→(A)
,其中A
或B
已知是相关的。我们可以继续定义更复杂的指示相关性的模式,使Neo4j和Cypher成为强大的研究助手;这是我们在下面要讨论的内容。
关键概念:从一般到具体
到目前为止,我们的案例是一般的,但我认为实现不应如此。一个原因是科学对话在各个学科之间并不同质,因此顺序和引用的模式在各个领域并没有相同的意义;另一个原因是没有人拥有所有数据。下面是来自哲学领域的一个小例子,基于实际数据和模式。
我们的图
四位作者、五篇文章和一个书本章节,它们的出版背景和引用顺序。假设迈克尔·戈尔曼的“独立与实体”(2006)一文与研究相关,我们通过其唯一的DOI明确检索到它。以此为起点,我们定义了一些指示相关性的引用模式,以了解哪些其他已发表的项目也可能与研究相关。

定义1:参考文献
书目参考文献是对已发表项目的元数据进行标准化格式的呈现。我们数据和模型健全的一个迹象是,我们可以重新创建这些参考文献(不必漂亮,只需有可能即可)。
// Definition of reference
MATCH (author:Author)-[:WRITES]->(article:Article)-[context:IN]->(issue)-[:OF]->(journal)
RETURN author.name + ": " + issue.year + ", '" + article.title + "', " + journal.title + " " + issue.volume + ", " + context.pp[0] + "-" + context.pp[1] + "." as Reference
UNION MATCH (author:Author)-[:WRITES]->(chapter:Chapter)-[context:IN]->(book)<-[:EDITS]-(editor:Author), (book)<-[:PUBLISHED_BY]-(pub:Publisher)
RETURN author.name + ": " + book.year + ", '" + chapter.title + "' in " + editor.name + " (Ed.), " + book.title + ", pp." + context.pp[0] + "-" + context.pp[1] + "." + pub.location + ": " + pub.name + "." AS Reference
定义2:引用
引用是指一个已发表的项目引用另一个项目,即通过命名其参考文献正式引用它。
// Definition of citation
MATCH (a)-[:WRITES]->(b)-[:CITES]->(c)<-[:WRITES]-(d)
RETURN b.title + " (by " + a.name + ") CITES " + c.title + " (by " + d.name + ")" as citation
指示相关性的模式1:戈尔曼(2006)引用的所有内容
任何被相关内容引用的内容都可能是相关的——最简单的用例。
// Cited by Gorman (2006)
MATCH (a {doi:"10.5840/ipq20064626"})-[:CITES]->(b)<-[:WRITES]-(c)
RETURN b.title + " (by " + c.name + ")" as citation
指示相关性的模式2:引用戈尔曼(2006)的所有内容
虽然跟踪传出的引用指针并不是什么新鲜事,但我们现在也可以跟踪传入的指针了。任何引用相关内容的内容都可能是相关的。
// Citing Gorman (2006)
MATCH (a {doi:"10.5840/ipq20064626"})<-[:CITES]-(b)<-[:WRITES]-(c)
RETURN b.title + " (by " + c.name + ")" as citation
指示相关性的模式3:基本辩论
科学对话中的一种常见顺序是,一个作者为某个结论辩护,另一个人做出回应提出异议,而最初的作者则对这些异议做出回应,或加强最初的论点。让我们称之为辩论。它具有以下模式:项目C引用项目B,而B又引用项目A,并且同一作者撰写了A和C,但没有撰写B。这可能是两位研究人员意见一致、轮流发展共同论点的情况;但至少在我们的示例所涉及的哲学领域,更有可能是一种辩论,其中作者发表了陈述C,C受到了批评B,并在A中回应了批评。我们可以测试戈尔曼(2006)是否参与了任何此类模式,方法如下
// Debates sparked by Gorman (2006)
MATCH (author)-[:WRITES]->(article {doi:"10.5840/ipq20064626"})<-[:CITES]-(criticism)<-[:CITES]-(response)<-[:WRITES]-(author), (criticism)<-[:WRITES]-(opponent)
WHERE NOT (author)-[:WRITES]->(criticism)
RETURN article.title + " (by " + author.name + ")" as statement, criticism.title + " (by " + opponent.name + ")" as criticism, response.title + " (by " + author.name + ")" as response
指示相关性的模式4:复杂辩论
如果辩论是相关的,那么除了基本辩论模式捕获的内容之外,其他贡献也可能相关。引用辩论模式的陈述和异议,或异议和辩护的作品,都是很好的候选对象。如果该作品引用了更多辩论成员,则这越来越表明相关性,因此我们将辩论模式中的进一步引用次数作为相关性评分进行计算和考虑。
// Other contributions to debates sparked by Gorman (2006)
MATCH (author)-[:WRITES]->(statement {doi:"10.5840/ipq20064626"})<-[:CITES]-(criticism)<-[:CITES]-(response)<-[:WRITES]-(author)
, (criticism)<-[:CITES]-(interjection)-[:CITES]->(statementOrResponse), (interjection)<-[:WRITES]-(interjector)
WHERE NOT (author)-[:WRITES]->(criticism) AND (statementOrResponse = statement OR statementOrResponse = response)
RETURN interjection.title + " (by " + interjector.name + ")" as interjection, count(*) as relevance
结论
我给出了四个关于解读学术出版物(以哲学为例)中引用模式的简单示例。这些模式可以进一步扩展,但我用于原型设计的部分数据是专有的,因此我将要点限制在非专有数据上。我认为,以这种方式尝试绘制“最有影响力的学者”图表将毫无用处且误导性,但我认为这将成为个人研究人员的强大工具。让了解自己领域的人来定义在其特定研究领域内表示相关性的那些引用模式。特别是,我认为这可以作为文献管理软件(例如汤森路透的EndNote)的插件来实现,从而实现一些方便的新搜索功能。如果有人有兴趣这样做,请告诉我。
此页面是否有帮助?