近日,由经济学院统计学和数据科学系方匡南教授与其2024届博士毕业生邱涌钦、2022届博士毕业生陈远星、天津大学方侃副教授及四川大学余乐安教授合作完成的论文“Fraud Detection by Integrating Multisource Heterogeneous Presence-Only Data”被INFORMS Journal on Computing正式接受并在线发表。INFORMS Journal on Computing由美国运筹学和管理学研究协会(INFORMS)出版,是管理学24种国际顶级期刊(UTD24 Top Journals)之一,也是厦门大学管理学科的国际A类期刊,主要发表运筹学与计算科学交叉领域的最新研究成果。
在金融欺诈识别中,通常将明确标识为欺诈的交易视为正样本,其余交易作为负样本,进而采用监督学习方法进行建模。然而,由于欺诈行为的隐蔽性和复杂性,金融机构难以全面捕捉所有欺诈交易,导致未被标识为欺诈的样本中不可避免地混杂了正常交易与欺诈交易,使得监督学习方法的估计产生偏差。为了解决这个问题,越来越多的金融机构采用了正例无标签(Positive and Unlabeled,PU)学习技术进行欺诈识别。在该类建模过程中,被标识为欺诈的样本依然作为正样本,而未被标识的样本则被视为无标签样本。
然而,金融机构的数据往往收集自多个渠道,不同数据集之间的固有异质性限制了现有PU学习方法的直接有效应用。为了更好地从多个异质PU数据集提取信息,本文提出了一种整合PU学习方法(I-PU)。该方法通过在组变量上施加融合惩罚,能够自动识别数据集中潜在的系数聚类结构,并有效整合具有相同聚类结构的数据集的信息,从而提升估计效果。为解决多源PU数据的复杂优化问题,本文设计了一个期望最大化(EM)算法框架,并提出了一种交替方向乘子法(ADMM)算法进行有效求解。同时,本文证明了在一定条件下,模型具有参数估计的相合性、模型选择的相合性和聚类结构的相合性。模拟结果展现了所提出的方法在变量筛选、参数精确估计及预测性能上的显著优势。最后,本文将所提出的方法应用于欺诈识别数据,验证了其在实际应用中的有效性。