R语言是由新西兰奥克兰大学的Ross Ihaka与Robert Gentleman一起开发的一个面向对象的编程语言,因两人的名都是以R开头,所以命名为“R”。R是“GNU S”,一个免费开源、能够自由有效地用于统计计算和绘图的语言和环境,可以在UNIX、Windows和Mac OS系统运行,它提供了广泛的统计分析和绘图技术,包括回归分析、时间序列、分类、聚类等方法。2009年,《纽约时报》发表了题为 “DataAnalysts Captivated by R’s Power”的社评,集中讨论了R语言在数据分析领域的发展,并引发了SAS和R用户广泛而激烈的争论。文章认为让R变得如此有用和如此快地广受欢迎是因为统计学家、工程师、科学家们在不断精炼代码或编写各种特具体的包。而且现在R软件增添了很多高级算法、作图颜色、文本注释,以及为与数据库链接等提供了挖掘技术。文中引用几位科学家对R做的高度评价,比如Google首席经济学家Hal Varian讲了一句很好的话:“R最优美的地方是它能够修改很多前人编写的包的代码做各种你所需的事情,实际你是站在巨人的肩膀上。”
2010年,美国统计协会(American StatisticalAssociation)将第一届 “统计计算及图形奖” 授予R语言,用于表彰其在统计应用和统计研究广泛的影响。
我自接触R语言至今也近10年了,记得最早听到R语言是2004年日本同志社文化大学情报研究所金明哲教授前来讲座,他给我们讲了一个关于利用文本挖掘方法破了人身意外保险诈骗杀人案。第一次听到数据挖掘竟然可以做如此神奇的破案,被深深地吸引住了,当初金教授提到其主要分析工具就是R语言。这是我第一次接触R语言。
其后,我的硕士导师王斌会教授要求我们学习R语言,坦诚地讲,R对于刚入门的人来讲确实有点困难,而且那个时候R的参考书少的可怜,那个时候市面上还没有R中文教材,用的人也很少。我参与了王斌会老师R中文教材的编写小组,一边学习R英文经典教材,一边整理学习心得和相关资料,一年之后,中国第一本R语言中文教材《R语言统计分析软件教程》也就面世了。通过编写教材,从中体会到了学习R的乐趣,自从学会了R语言了,我以后的数据分析就主要使用R语言。
后来,人大经济论坛邀请我为他们录制R语言视频课程,我利用闲暇时间整理讲义,先后录制了《R语言初级》、《R语言高级》、《R金融时间序列初级》、《R金融时间序列高级》等视频课程,反响很好,很多学员要求我写相应的系列教材。由于繁重的科研压力以及个人的惰性,虽有此想法很久了,但却迟迟未动笔。后来我成为厦门大学教师,系里让我教《计算机在统计中的应用》一课,我觉得讲R语言是最恰当不过了,因此边上课,边整理讲义,并不断地完善,教该课程已经4年,讲义也先后修改了4年。
再后来,人大经济论坛又邀请我为他们在北京、上海等地开设暑期和节假日现场公开课,前来听课的学生有国外著名高校的教师、研究生,国内高校的教师、研究生,医药公司的数据分析人员、互联网企业的数据分析人员等。他们对我的讲义提了很多有用的建议,我在这些公开课的讲课中,不断地完善讲义,最终形成了此书。关于如何取一个恰当而又响亮的书名,确实是一个挺难的事,我想了好几个书名,和姚新军先生也前后沟通多次,但最终还是认为取名为《R数据分析——方法与案例详解》可能比较合适些。
该书是一本R语言和数据分析的入门教材,循序渐进、深入浅出,每个知识点尽量从实际的应用案例出发,以问题为导向,在解决问题中学习统计方法、R语言的基本使用以及编程技巧。本书的定位是为业界数据分析人员、经济管理类、医学类等学生提供方法和程序上的参考,在写作过程中尽量删去比较理论的数学原理,当然有些原理部分没法跳过去,所以在学习时需要有一定高等数学和概率论的基础,但我想如果真正掌握某个统计方法,学习方法背后的原理还是非常有必要的。当然,如果对方法原理确实不感兴趣,只是为了用R程序实现某种方法,或者分析某个有意义的数据,可以跳过方法部分只看案例和程序。
该书的姐妹书,会讲解更为高深的统计方法,涉及到聚类分析、分类分析、关联规则、时间序列等问题,更注重在互联网、金融、企业营销、基因分析等领域的应用,目前暂时定书名为《R数据挖掘——方法与案例详解》。
该书适合高校数据分析相关专业的教科书,也适合医学、市场调查、金融以及互联网等企业的相关数据分析人员。
感谢成都道然科技有限责任公司的专业意见和建议。感谢四川大学严珂玮为本书配的精美插图。感谢参与一起编写和校正的易煌迪、张声威、欧阳汉、王秉权。感谢夫人在我的写作过程中给予的支持和帮助。再次感谢为本书提供了直接或者间接帮助的各位朋友,没有你们的帮助,本书的出版没有这么顺利!
欢迎关注微博: