大数据时代统计学应拥抱数据科学
方匡南
厦门大学经济学院统计系 教授 博士生导师
该文发表在《统计与信息论坛》创刊30周年学者观点上
21世纪是信息爆炸的时代,随着计算机技术的飞速发展,极大地便利了数据的采集和存储,各个部门每天都积累了大量的数据,比如商业银行交易记录、超市的销售记录、政府统计中各中小企业的财务报表等等。同时这些数据的维度也越来越高,比如研究基因与癌症的关系涉及的基因有几万个,信用评分中有上千个自变量等等。且数据来源多样化,有业务记录数据、有传感器数据,也有第三方数据,甚至是从网上爬取来的数据等。此外,数据的格式也越来越多样化,有结构化数据,也有文字、图片、音频、视频等非结构化数据。这些海量高维、来源多样化、格式多样化的大数据给传统的统计分析带来了极大的挑战。
数据科学(data science)是一门研究数据的科学,但这个词在计算机圈子里接受程度较高,而在统计圈子里接受程度不是很高。大数据时代,统计学应适应时代的发展,主动拥抱数据科学。必须做到如下两点:
(一)统计研究应坚持以实际需求驱动发展。统计的发展跟实际需求是息息相关的,比如20世纪初,为了研究如何提高农作物产量,提出了农田实验设计方法;再比如20世纪60年代为了研究工业品的质量,提出了可靠性统计方法;而到了21世纪初,随着互联网技术的发展,积累了海量的数据,也需要更多统计学家积极研究互联网大数据分析方法。
(二)统计研究需要主动结合计算机。对于大数据的研究,对研究人员的计算机技术要求也更高了,统计学家不能把这些都推给计算机学科去做,更不能只守着统计的一亩三分地,这样只会越做越小,不断被边缘化。而是要主动学习一些必要的计算机技术或者与计算机研究人员合作,不断扩大统计研究的范围,只有这样,在大数据时代,统计学才能发挥其更大的作用,迎来新的发展机遇!