近日,方匡南教授新著《数据科学》由电子工业出版社发行,并在京东(http://item.jd.com/12393841.html)等开始预售。该书是作者在厦门大学开设《数据挖掘》等课程的教学心得,在其课程讲义资料的基础上整理出本书稿,该书写作历时4年多时间。
数据科学(Data Science)是一门交叉学科,是一门分析和挖掘数据并从中提取规律的学科,包含了统计、机器学习、数据可视化、高性能计算等。近几年,大数据如火如荼,与此同时,数据科学家(Data Scientist)也成为职场中的香饽饽,正如谷歌首席经济学家哈尔?瓦里恩(Hal Varian)2009年在纽约时报撰文所说,“未来十年最性感的工作将是统计学家”,这里的统计学家是广义的统计学家,其中包括了数据科学家。数据科学家职业被招聘网站Glassdoor在2016年被评选为美国最佳工作。德勤Deloitte 预测2018年全球企业将至少需要100万数据科学家,大学培养的数据科学家数量远远不能满足市场需求,按照目前数据科学家的培养数量来看,这个缺口是很大的。
市面上有各种各样讲大数据、数据科学的书,但多是理念方面相关的,或者只讲一些抽象的原理和算法,很少从数据到模型的角度去讲解,缺少真正能把数据科学方法、模型与实务操作结合起来的书。该书是一本数据科学的入门教材,从实际的应用案例出发,考虑不同的数据类型,以问题为导向讲解数据科学的模型与方法,在解决实际问题中学习数据科学相关方法。
全书共16章,内容包括数据读写、清洗与预处理,数据可视化,线性回归,线性分类,重抽样,模型选择与正则化,决策树与组合学习,支持向量机,神经网络,无监督学习,推荐算法,文本挖掘,社交网络等。每一章节都提供了实际案例分析,数据和源代码将免费提供给读者。为了方便读者使用,还为本书开发了一个R包RDS。
本书适合高校数据科学、机器学习、数据挖掘、大数据分析等相关专业的研究生和高年级本科的教学用书,也适合作为相关企业的数据科学家、数据挖掘工程师、数据分析师及数据科学爱好者等的工具书。