近日,由经济学院统计学与数据科学系2018级博士毕业生陈远星与其导师组导师方匡南教授、张庆昭教授及耶鲁大学马双鸽教授合作完成的论文“Heterogeneity-aware Clustered Distributed Learning for Multi-source Data Analysis”被Journal of Machine Learning Research正式接受并在线发表。Journal of Machine Learning Research (英文缩写JMLR) 建刊于2000年,由麻省理工学院出版社(MIT Press)出版,依托于麻省理工学院的计算机科学与人工智能实验室(MIT CSAIL: MIT Computer Science & Artificial Intelligence Lab),旨在刊登人工智能与机器学习领域的高质量前沿研究成果,是国际上公认的统计学和计算机领域顶级期刊之一,也是中国计算机学会A类推荐的在人工智能、机器学习和模式识别领域的四大国际顶级期刊之一。
在多个研究领域中(例如金融领域、组学领域等),数据通常分布于多个独立的来源(在一些研究中这些来源被称为“用户”),每个用户收集一部分数据从而形成一个独立的数据集。传统的整合分析通常利用个体层面的原始数据进行建模,这种方式尽管有效,但在隐私保护的约束下难以付诸实践。因此,为了避免直接使用原始数据,分布式学习技术已被广泛应用于整合概要的统计信息。现有的分布式学习一般假设所有用户具有相同的模型,但这种同质性假设忽略了数据集之间潜在的分布异质性。为了处理数据的异质性,现有的统计学习方法一般假设每个用户具有特异的模型,而基于聚类的联邦学习方法则通过构建用户间的聚类结构对异质性进行建模。
受联邦聚类学习的启发,本文假设用户间构成聚类结构,属于同一类的用户具有相同的模型,分属不同类的用户具有不同的模型。通过进一步考虑这种聚类结构,我们可以更好地理解用户之间的“相互联系”,并减少待估参数的数量。为此,我们提出一种新颖的惩罚方法。具体而言,通过施加群组惩罚以进行正则化估计并筛选重要变量,通过施加融合惩罚来自动地对用户进行聚类。现有的统计方法假设用户是完全异质的,而本文提出的方法假设用户间存在聚类结构,在构建不同类用户模型异质性的同时,整合了同类用户的信息(即通过减少模型的待估参数来提高估计的精度)。与现有的联邦聚类学习相比,本文提出的方法还具有以下创新。一方面,联邦聚类学习通常假设所有变量的真实值均是非零,而本文提出的方法则考虑高维下的变量稀疏性;另一方面,联邦聚类学习需要事先给定聚类的个数,而本文提出的方法可以自适应地确定最优的聚类个数。为了求解目标函数,本文提出一个有效的交替方向乘子(ADMM)算法,并在严密的条件下建立了参数估计的相合性、模型选择的相合性(即依概率1正确地选出重要的变量)和聚类结构的相合性(即依概率1还原真实的聚类结构)。数值模拟显示所提出的估计量在有限样本下的显著优势。最后,本文将所提出的方法应用于金融机构的网站日志数据,构建异常检测模型来甄别异常的访问记录,进一步证明了所提方法的实际效用和优越性。
陈远星,厦门大学经济学院统计学与数据科学系2018级博士毕业生,指导老师为方匡南教授、张庆昭教授和耶鲁大学马双鸽教授。现为耶鲁大学生物统计系博士后,主要研究方向为高维数据分析、函数型数据分析、多源数据分析及分布式估计。目前已在Journal of Machine Learning Research、INFORMS Journal on Computing (UTD24)、Journal of Multivariate Analysis等期刊发表(含正式接收)论文多篇。