近日,由经济学院统计学和数据科学系2021级在读博士生张妍与导师方匡南教授、中央财经大学潘蕊教授、复旦大学朱雪宁教授及北京大学王汉生教授合作完成的论文“A Latent Space Model for Weighted Keyword Co-occurrence Networks with Applications in Knowledge Discovery in Statistics”在 Journal of Computational and Graphical Statistics正式接受并在线发表。Journal of Computational and Graphical Statistics为学界公认的统计学国际权威期刊,也是我院认定的统计学国际一类期刊(国际A-类)。
关键词在传达学术文章核心思想方面至关重要。关键词共现网络的分析为某个研究主题提供了直接的概览。同时,对其进行动态分析有助于全面理解知识的发展。因此,关键词共现网络在多个领域得到了广泛研究,例如智能制造、物理学等。然而,统计学领域的关键词共现网络尚未得到探讨。为此,本文提出了一种潜在空间模型,用于在统计学领域的关键词共现网络中进行知识发现,并提供理论保证。
本文提出了一种用于动态关键词共现网络的潜在空间模型,可以捕捉关键词共现网络的一些特征。第一,关键词共现网络中的边是有权的,权重表示两个关键词在论文中共同出现的频数。然而现有的大多数研究主要集中于无权网络,其中邻接矩阵仅由0和1组成。简单地用0或1代替关键词共现的频数会导致信息损失。这些研究的理论证明通常依赖于亚高斯分布的性质,这可能不适用于加权网络。第二,论文的出版年份是可获得的,因此本文构建的关键词共现网络是随着时间的推移而演变。第三,在某一特定时期内,关键词的数量并不是固定的。这是因为随着研究领域的丰富,新关键词不断出现。然而,许多现有研究假设网络规模在时间上保持不变,这不符合实际数据的情况。基于这些特征,本文提出了一种新颖的潜在空间模型。具体而言,使用泊松分布来刻画关键词共现的次数,其均值依赖于关键词的潜在向量等参数。为了考虑网络的演变,假设关键词的潜在向量随时间变化。在实际应用中,本文分析了统计学领域的关键词共现网络,识别了整个时期以及每个时间段内的热门关键词。对于关键词对,本文的模型提供了一种新的方式来评估它们之间的关联,并发现统计学家对新兴研究领域的兴趣在逐渐增加。
综上所述,本文新提出的模型具有以下几个特点及应用场景,
l 个体效应:模型中包含反映每个关键词吸引力的系数,帮助揭示知识连接的潜在模式。
l 创新效应:引入一个随时间变化的创新系数,表示新兴研究领域在统计学中的吸引力。
l 热门研究主题:根据潜在向量为每个时期选择流行的关键词和关键词对。这一分析提供了统计学知识演变的全貌。
张妍,厦门大学经济学院统计学和数据科学系2021级博士研究生,指导老师为方匡南教授。目前已在Journal of Computational and Graphical Statistics、Knowledge-Based Systems等期刊发表(含正式接受)论文十余篇。