26
2017
02

大数据时代统计学发展的若干问题

大数据时代统计学发展的若干问题 

“大数据中的统计方法”课题组  课题组成员: 马双鸽 刘蒙阙 周峙利 方匡南 等

 该文发表在《统计研究》2017.01

内容提要近年来,计算机和互联网的发展使得人类信息的拥有量达到了前所未有的程度,各类信息被保存流通起来,人类进入了大数据时代。大数据具有规模性、多样性,高速性等特点,给统计学的发展带来了新的机遇,同时也带来了新的挑战。本文回顾了统计学发展历史,剖析了统计学发展特点,并在此基础上讨论了大数据背景下统计学的发展定位;进一步分析统计学与计算机之间的关系,最后针对大数据分析中存在的若干误区提出了自己的观点。

关键词:大数据计算机  因果关系  抽样  数据质量


引言

随着计算机技术,尤其是互联网和多媒体技术的普及与飞速发展,人类社会被呈爆炸性增长的信息所包围。据国际商业机器公司(IBM)资料显示[1],目前数据的生成每日以千万亿字节来计算,全球近90%的数据是在过去两年产生的。大数据时代已经到来。

基于自身态度和学术背景的差异,目前,来自不同领域、学科的学者对大数据的理解并没有一个统一的定义。依照美国咨询公司麦肯锡(McKinsey[2]的定义,大数据是指那些规模超出了典型的数据库软件工具的能力来进行捕获、存储、管理和分析的数据集。与传统数据相比,大数据的大不仅仅是体量上的扩充,数据的结构、形式、粒度、组织等各方面都更加复杂。凭借存储成本更低、运行效率更高的现代信息技术,大数据可以认为是一切可记录的数字化信号集合。从数据特征来看,Grobelink. M2012)提出了著名的“3V”定义,即多样性( Variety) 、规模性( Volume)、高速性( Velocity)[3]。在此基础上,国际数据公司(IDC)认为大数据还具有价值密度特点(Value),而国际商业机器公司(IBM)则提出大数据的真实性(Veracity 

近年来,IBMOracleMicrosoftGoogleAmazonFacebook等跨国公司大力推动了大数据处理技术的发展,大数据在自然科学、金融、医疗、移动通信等领域涌现出了大量应用成果[3]。伴随着大数据的广泛应用,越来越多的学者开始关注和讨论大数据问题,形成了一些颇具影响力有代表性的观点。其中最典型的要属舍恩伯格库克耶2013)提出的大数据时代三个重要思维转变更多(不是随机样本,而是全体数据)、更杂(不是精确性,而是混杂性)、更好(不是因果关系,而是相关关系 [4]上述观点在业界、学术界引起很多共鸣,同时存在很多质疑[5,6]。此观点对于大数据时代统计学的发展方向具有一定的指导性作用然而却很文章在探讨统计学科如何发展的背景系统对其进行反思。因此,本文首先回顾了统计学发展历史,剖析了统计学的发展总是以应用为驱动,并在此基础上讨论了大数据背景下统计学的发展定位,进一步分析统计学与计算机之间的关系,并针对舍三个重要思维转变提出自己的看法。

二、统计学与大数据

大数据包含了宽泛的理论及应用领域,统计学作为提取大数据价值的核心学科该如何发展?要想弄清楚这个问题,我们不妨先简略回顾一下统计学的发展历史,从历史的角度来把握大数据时代统计学的发展定位问题。

统计学作为一门学科已有三百多年的历史。按统计方法及历史的演变顺序,通常可以将统计学的发展史分为三个阶段,分别是古典统计学时期、近代统计学时期和现代统计学时期。古典统计学的萌芽最早可以追溯到17世纪中叶,此时的欧洲正处于封建社会解体和资本主义兴起的阶段,工业、手工业快速增长,社会经历着重大变革。政治改革家们急需辅助国家经营和管理的数据证据以适应经济发展需要,此时一系列统计学的奠基工作在欧洲各国相继展开。在这一时期,以威廉.配第和约翰.格朗特为代表的政治算术学派与海尔曼康令(Hermann Conring)创立的国势学派相互渗透和借鉴,服务与指导了国家管理和社会福利改善。

18世纪末至19世纪末近代统计学发展时期这一百年间欧洲各国先后完成了工业革命,科学技术开始进入全面繁荣时期,天文、气象、社会人口等领域的数据资料达到一定规模的积累,对统计的需求已从国家层面扩展至社会科学各个领域。对事物现象静态性的描述也已不能满足社会需求,数理统计学派创始人凯特勒(A·J·Quetelet)率先将概率论引进古典统计学,提出了大数定律思想,使统计学逐步成为揭示事物内在规律,可用于任何科学的一般性研究方法。一些重要的统计概念也在这一时期提出,误差测定、正态分布曲线、最小二乘法、大数定律等理论方法的大量运用为社会、经济、人口、法律等领域的研究提供了大量宝贵的指导。

20世纪科学技术的发展速度超过之前的时代,以描述性方法为核心的近代统计已无法满足需求,统计学的重心转为推断性统计,进入了现代统计学阶段。随着20世纪初细胞学的发展,农业育种工作全面展开。1923年,英国著名统计学家费雪(R.A.Fisher为满足作物育种的研究需求,提出了基于概率论和数理统计的随机试验设计技术以及方差分析一系列推断统计理论和方法。推断性统计方法的进步工农业生产和科学研究起到了极大的促进作用20世纪30年代,随着社会经济发展和医学先进理念的吸收融合,人们对于医疗保险和健康管理的需求日益增长,统计思想渗透到医学领域形成了现代医学统计方法[8]。例如在生存质量(Quality of life)研究领域,通过分析横向纵向资料,逐步形成了重复测量资料的方差分析、质量调整生存年(QALYs)法等统计方法[9]。这一阶段,统计在毒理学、分子生物学、临床试验等生物医学领域获得了大量应用,这些领域的发展又带动统计方法不断创新,主成分估计、非参数估计、MME算法等方法应运而生。随着现代生物医学的发展,计算机技术的进步,人类对健康的管理和疾病的治疗已进入基因领域,对基因数据分析产生了大量需求高维海量的基因数据具有全新的数据特征,由此一系列面高维数据的统计分析方法相继产生。

回顾统计学史可以发现,在不同的社会背景下,统计学的发展都是以实际需求为驱动,伴随着需求和数据的改变逐步向前发展。在以数据信息为核心的大数据时代,人类社会各个领域的发展需要从数据中汲取动力,这无疑对统计数据分析产生了大量的需求。大数据所具有的数据特征使得部分传统统计方法不再适用。根据学科特点和历史沿革,不难看出,在大数据时代,统计学需要针对大数据特征,以服务和满足各领域需求为目标,不断创新和发展数据分析方法与理论。

三、统计学与计算机

自上个世纪以来计算机经历了飞跃式发展,计算机技术催生了大数据,并支撑了它的处理与分析。计算机技术可以说是大数据发展的基础。大数据时代对统计学发展的探讨自然离不开对计算机科学的关注。大数据的价值产生于分析过程,作为大数据分析的主要工具与方法,统计学与计算机技术共同成为服务于大数据的核心科学。两者关系密切,它们之间存在着合作与竞争并存的关系。

计算机为统计学的发展起到了极大的促进作用。计算机使人类所拥有的数据水平达到了全新的高度,无论是从数量,类型,还是粒度等方面进行考察。新型的数据或者数据特征催生出新的数据处理方法,例如社交网络的发展直接要求了基于网络的统计方法的产生;大数据流环境对数据流算法的要求等。计算机技术也融进统计方法中,促进了新的统计方法的诞生。自20世纪计算机兴起,一系列建立在计算机基础之上的统计方法就被开发出来:MCMC模拟计算、JackknifeBootstrap等。此类方法不仅拓展了统计学领域,而且开创了解决问题的新思路。进入大数据时代,以互联网为中心的云计算技术为大数据提供了保管、访问的场所和渠道。伴随着分布式和并行计算(云计算核心技术)的快速发展,Bag of Little Bootstraps算法(2012)、Memory-Efficient Tucker Decomposition2008)、基于MapReduceK-means算法(2009)、基于MapReduce的并行Apriori算法(2012)等一系列面向大数据的抽样、分类、聚类、关联分析方法应运而生。[10,11,12]

在数据统计分析方法蓬勃发展的同时,以数据库技术为关键支撑的计算机信息处理技术在很多领域上也得到大量发展。例如,在数据获取方面,DEEP WEB技术可以用于感知数据,以及进行高质量的数据继承和整合;在数据存储方面,谷歌、IBM和百度等公司大量运用的GFS技术,能够实现高效率的分布式数据存储,并且可以给大量用户提供总体性能较高的服务;在数据索引方面,当前比较主流的索引技术之一是BigTable,它是一个分布式的、可扩展的、高效的非关系型数据库;在可视化方面,Clustergram技术可以进行聚类,从而优化大数据分析结果的形式[13]。大数据时代,统计学与计算机互相促进,存在着紧密合作关系。

另一方面,由于统计学的发展是以实际需求为驱动,如果要解决的问题随着计算机的发展可以得到很好的解决,那么相应的统计方法可能就埋没在浩瀚的历史长河里了。比如在大数据时代,出现了超高维数据LASSOSCAD等方法在处理超高维数据下计算效率远远不够[14]。对于超高维数据,FanLv[15]提出的SISSure Independence Screening)方法可以快速有效地把维数从超高维降到相对小的规模。这是一种基于相关准则的降维方法,相关准则把特征重要性按照它们与因变量的边际相关来排序,并把与因变量的边际相关弱的那些变量过滤掉。这种统计方法可以有效地降低计算成本,然而当计算机的速度和性能得到很大提升后,它的价值却在减小。基于分布式系统的大规模数据软件平台Hadoop,通过并行处理可以成倍地提高计算机性能,作为显卡核心的图形处理器GPU拥有一个专为同时处理多重任务而设计的由数以千计小而高效的核心组成的大规模并行计算架构,经过并行计算的优化,理论上在GPU上的计算速度会比CPU50-100[16],不借助SIS方法的“GPU+Hadoop”就可以直接处理超高维数据。部分统计学方法有可能淹没在计算机技术的发展洪流中。从学科的发展角度来看,统计学与计算机技术也存在一定的竞争关系。

与计算机的竞争关系揭示出统计学所面临的被替代的危机,而面对这个危机最好的态度是积极地拥抱计算机技术,让计算机技术融入统计学。在大数据时代,统计学应该与计算机技术更加紧密地结合。

四、大数据分析的若干误区

关于大数据的数据分析理念,学术界展开了很多研究与讨论,一定程度促进了统计学的发展和数据分析理念的更新,但是也出现了一些误区。接下来,我们探讨大数据分析中的几个主要误区。

(一)因果关系

大数据时代一个显著现象就是更关注于数据的相关关系。舍恩伯格在《大数据时代》[4]中提到大数据的一个思维转变:相关关系比因果关系能更好地了解这个世界。国内外学者也开始更多地关注大数据时代相关分析方法的研究[17,18]。针对相关分析展开的研究,使得人们对于自身和世界的认识拥有一个开放的信息系统视角,对事物的认识不再局限于封闭领域 [4,19]。例如通过谷歌趋势(Google Trends)服务,预测股市的涨跌,发现Twitter用户的情绪有助于预测股市等[20]在大数据时代下的相关关系分析利用发达的机器分析能力和计算能力来寻找到最优的关联物,相关分析在各个领域也涌现出了很多很好的应用成果,例如亚马逊的推荐系统、基于数据进行抓取、挖掘和可视化呈现的数据新闻等,这些应用通过数据挖掘实现了从数据到价值的转变,创造出很好的经济利润和社会效益。

尽管对相关关系的分析颇具价值,但相关分析只是停留在数据表面。相关关系强的对象之间可能并不存在本质上的关联性。例如在Google Flu TrendsGFT)的研究中[21]GFT预测的流感样病例门诊数超过了CDC(疾病预防控制中心)根据全美各实验室监测报告得出的预测结果的两倍,一个很大的原因是搜索关键词很多只是数据上看似与流感有关,但实际上无关联。其次相关分析不能揭示因果关系,为决策提供指导的能力十分局限。例如收集了世界上很多国家的数据,发现电视机拥有量与国民人均寿命有很强的正相关性,但是这个相关性并不能用来指导决策,如果利用相关性的结论,通过普及电视机以提高人均寿命,这是一个极大的荒谬。基于相关分析得出的结论往往是表面现象,反应的有某种共同变化的趋势,但并不必然存在因果关系。如果直接基于相关分析结果做决策,有时可能反而对决策造成误导。

大数据时代需要更深层次的分析,而对因果关系的研究一定程度上能满足此需求。在小数据时代,各类回归分析就试图通过假定因变量和自变量之间存在因果关系建立回归模型来估计自变量对因变量的影响程度,回归模型可用于预测或控制等问题。1934年,Wright [22]把路径分析引入统计学,用有向图来表示因果假设开始了因果推断,路径分析逐渐发展成结构方程模型。近几十年,很多学者致力于因果关系的研究,因果网(causal networks)和虚拟事实模型(counterfactual)或潜在反应(potential-outcomes)模型是最重要的用来刻画因果关系的两种模型[23,24]。在小数据中,因果分析可以提供有价值的决策支持,是社会科学和自然科学领域重要的研究手段。

致力于因果关系研究的分析方法在大数据时代依然有至关重要的地位。语音识别,自然语言的理解,图象识别,无人驾驶等领域的发展正深刻地改变这个世界,人工智能是大数据时代发展的趋势之一。在人工智能的核心领域-机器学习中,回归分析是有监督学习的主要方法之一。Pearl提出的概率和因果推理演算法彻底改变了人工智能最初基于规则和逻辑的方向,为该领域带来了革命性的影响[25]。在自然语言处理、计算机视觉、信息抽取和信息检索等领域单使用相关性模型就可以满足应用需求,然而如果要求在给定情景下提供如何干预或者控制某些因素决策支持,例如在医学领域,需要对疾病进行预防和控制,则需要使用因果推断模型。此类决策需求会随着大数据的深入发展而增多。

至今对于大数据的处理还存在很多挑战与问题,面对开放的大数据系统,统计思维和分析方法正在经历创新与变革 [26]。目前还缺少面向大数据的因果分析方法,可预见的是复杂而丰富的数据资源为复杂模型分析提供了更多可能性,因果关系研究可以在大数据时代获得更多的发展。因果关系研究意义深远,是大数据时代发展所需的理论基石,舍恩伯格认为相关关系比因果关系更重要,这样的结论恐怕过于偏面,容易造成误导。

(二)抽样

舍恩伯格在《大数据时代》[4]中提到大数据的另一个思维转变,就是要全体不要抽样。大数据可提供所有能够用现代信息技术记录的数据,它除了可以提供事物之间的共性信息与普遍性规律之外,还可以提供个性化的特征信息。对少数群体特征及微小的规律的揭示确实是传统抽样数据所无法给予的。然而如果因此认为抽样在大数据时代就不重要,甚至应该退出舞台了,这样的观点是值得怀疑的。

大数据所谓的不仅指的是数据体量的大,更重要的是因为高时空分辨率所带来的多层次数据信息结构。在一些大数据领域,可依靠高性能计算机使用分布式系统处理数据,然而在很多大数据环境下,计算机无法满足处理需求。例如在高速网络中,面对瞬息之间涌入的海量数据流,我们无法将信息完全存储下来。此时一种合理的策略就是基于抽样建立起能够进行事后分析的汇总信息来保存数据核心内容[27]。针对大数据流环境,耿直(2014)提出需要探索如何抽取足以满足统计目的和精度的样本,需要研究新的适应性、序贯性和动态的抽样方法[28]同时从计算成本,便捷性角度考虑,抽样相比于全数据处理往往是更优的选择。因此即使是在有能力处理全数据的计算环境下,对抽样依然存在着巨大的需求。

大数据的生成与采集在人为的设计框架之下,可能存在系统性偏差。例如在社交网络数据中,人群的上网行为习惯,计算机知识,经济地位等都是左右数据生成的因素[29]。大数据与真实总体之间可能存在差距。其次,大数据存在混杂性,数据误差普遍存在于大型数据库和网络中[30],在捕捉主要趋势信息时,如果进行全数据处理,大量的误差会影响分析结果的有效性[26,31]虽然抽样受条件、时间资源成本等诸多因素限制,然而在设计合理的情况下,大数据领域仍然具有价值,可以与大数据起到相互印证的作用。比如国家统计机构的官方数据互联网数据很好的相互补充校准[28]当抽样数据与大数据结果冲突严重时,的数据设计与采集值得考虑,此时抽样大数据系统起到了预警作用。

在大数据环境下,为获取在总体中的难于捕捉观测的信息,需要研究案例抽样,不等概率抽样等方法[28]。在图像、社交网络等领域的大数据中,抽样方法存在很多需求与挑战,有待研究[32]总之,大数据时代抽样仍然有着举足轻重的地位。

(三)数据质量

舍恩伯格认为执迷于精确性是信息缺乏时代和模拟时代的产物,因为有限的信息量会使细微错误被放大。而在大数据时代,对错误的包容和对混杂性的接纳所带来的更为广泛的海量数据能揭示大致趋势,能提供足够有价值的信息。牺牲精确性常为我们换来信息的时效性与广泛性。舍恩伯格指出允许不精确已成为大数据的一个特点[4]。然而如若因此认为大数据可以忽视数据质量问题,则进入了一个理解误区。

大数据记录了所有可以记录的数据,然而因为大数据的复杂性与混杂性,充斥着各种可能性误差的数据整体并不一定能提供有效信息。大数据的生成与采集经过了人为设计,并非完全客观,因此数据有可能存在本质性偏差。若数据的来源没有经过分析和评估,那么由它得出的任何结论都值得被质疑[29,31]数据显示,部分公司数据错误率可达到30%以上。数据误差普遍存在于大型数据库和网络中[30]。尽管在大数据时代,为掌握更多数据,容错标准被放松,数据误差不可避免,但是大数据对误差的容许,不代表着对误差的无视。误差的界限需要被测评,数据质量需要被管理,否则信息价值缺乏保障。

其次,大数据分析对数据误差有很高的敏感性。大数据的体量、高维性以及数据生成的速度使得数据中很小的误差会如滚雪球一样累积被放大[30]在大数据分析中,误差累积效应会掩盖真实信号,从而得出错误的结论。目前这一问题可部分通过稀疏模型、变量选择来缓解但同时变量选择的准确性受数据误差的影响。在统计回归模型中,为保证模型估计的一致性要求解释变量需满足外生性。而在大数据情况下数据来源的各异、形态的多元化会加剧解释变量数据误差的产生,由此有可能会出现内生性问题,影响模型的结果[26]。因此,在大数据环境下不可忽视数据的质量反而需要得到更多的关注

解决的问题

大数据给统计学带来了新的发展机遇,也给传统的统计学带来了一定的挑战,最直接的挑战就是部分传统经典的统计方法在大数据环境下失效了。那么,大数据时代,统计学科的发展何去何从呢?又有哪些大数据问题亟待统计学去解决的呢?这些是统计学者很关心的问题,但是这个命题比较大,很难给出满意的答案。课题组从所研究的课题出发,谈谈我们所认为的大数据时代几个相对比较重要的问题。由于笔者的知识局限性,所提出的几个问题不一定完全正确,也肯定是不全面的。我们希望抛砖引玉,吸引更多统计学者参与探讨大数据时代下的统计学发展方向

(一) 如何在大数据时代发展经典统计

很多应用于小数据时代的经典统计方法,从理论到实践,经过不同领域的长时间检验,表现效果好,但在大数据时代直接应用产生一些问题本文认为直接抛弃这些经典统计方法是不恰当的,甚至一种损失。如何结合高速计算方法以及相应的软硬件环境改进这些经典小数据方法并将之应用到大数据中,即老枝发新芽,是一个值得思考的问题。

(二) 多源异构大数据的整合分析

大数据时代,对同一对象或问题的描述常存在多种不同来源的数据例如分析城市居民出行模式可以通过GPS定位,社交网络,公交刷卡等不同数据来获取居民的位置信息等。在大数据时代搜集数据更便利,通过对数据进行有效整合一方面可以获取更为丰富的信息,另一方面不同来源的数据相互印证,可以检验信息的真实性和准确性。但由于不同来源的数据有不同的数据特征和结构,对于这种多源异构大数据的整合分析和建模也是统计学的重要发展方向之一

(三) 大数据的边际效应问题

大数据时代提供给人们一个开放的信息系统,可以利用各类信息收集设备采集数据,然而在实际中,数据并不是一味的越多越好。大数据所产生的信息价值存在边际递减效应,即数据体量一定程度,所提供的信息几乎不再增加,但是收集、处理的成本却在不断增加同时所含有的数据噪声反而影响信息提取。因此大数据时代,对于数据的体量并不能一味追求大而需要考虑成本与效用之间的平衡选择一个最优的数据量。因此有必要从统计角度来讨论大数据在建模中的边际效应

六、总结

高维海量的大数据,同时具有多样性,高速性等特点,实际应用和数据驱动着统计学向前发展。在大数据时代,计算机和统计的结合成为分析和研究大数据的基础。大数据时代统计学者应该积极拥抱计算机技术,需要更全面地了解计算机相关知识。虽然对大数据的数据分析理念,思维变革等都已展开了很多研究与讨论,但是大数据时代的帷幕才刚刚被揭开,人们对新事物的认识总是需要一个过程。对一些问题的误解可能会统计学的发展造成重大损失,例如相关分析比因果分析更重要大数据时代不需要抽样了大数据时代数据质量的不重要了。作为统计学者不能人云亦云,对当前存在的一些认识误区应及时指出并纠正。另外,大数据时代,还有很多问题需要经过反复的讨论以及时间的检验,比如大数据时代经典统计方法该如何发展多源异构大数据如何整合分析大数据是否真的就越大越好以上所讨论的问题是关于统计发展方向的几个比较重要的问题,值得统计学者继续研究。

 


 


« 上一篇 下一篇 »