内容简介

大数据分析,其学习起点应是大数据的统计分析;大数据分析,其学习特点应是案例化、工具化和业务导向化。《R语言:大数据分析中的统计方法及应用》面向大数据分析实践,基于大数据案例,以问题为线索,以解决问题为导向讲解统计方法及R语言实现;突出大数据应用特色,兼顾统计方法的经典性和普适性、理论讲解的通俗性和严谨性、R语言代码的实操性和示范性。《R语言:大数据分析中的统计方法及应用》提供配套全部案例数据及各章节R语言程序代码,可登录华信教育资源网www.hxedu.com.cn免费下载。

作者简介

薛薇,中国人民大学统计学院副教授,应用统计科学研究中心副主任,主要著作:SPSS统计分析方法及应用(第4版),北京市高等教育精品教材,电子工业出版社,2017.R语言数据挖掘方法及应用,电子工业出版社,2016.SPSSModoler数据挖掘方法及应用(第2版),电子工业出版社,2014.SPSS统计分析方法及应用(第4版),北京市高等教育精品教材,电子工业出版社,2017.1

目录

第1章R语言与统计分析概述1
1.1写在前面的话1
1.1.1大数据的广义概念1
1.1.2目标定位2
1.1.3初识R3
1.2R语言入门3
1.2.1R中的基本概念3
1.2.2R的下载安装5
1.2.3R程序的运行6
1.2.4R使用的其他方面10
1.3Rstudio简介12
1.4从大数据分析案例看统计分析的基本框架13
1.4.1数据集14
1.4.2分析目标和数据预处理16
1.4.3数据的基本分析17
1.4.4总体特征的推断17
1.4.5推断多个变量间的总体相关性18
1.4.6数据的聚类19
1.5本章涉及的R函数19
第2章R的数据组织20
2.1R的数据对象20
2.1.1R对象的类型划分20
2.1.2创建和管理R对象21
2.2R数据组织的基本方式22
2.2.1R向量及其创建与访问22
2.2.2R矩阵和数组及其创建与访问27
2.2.3R数据框及其创建与访问32
2.2.4R列表及其创建与访问36
2.3R数据组织的其他问题37
2.3.1R对象数据的保存37
2.3.2通过键盘读入数据38
2.3.3共享R自带的数据包39
2.4大数据案例的数据结构和R组织39
2.4.1读文本文件数据到R数据框39
2.4.2大数据分析案例:北京市空气质量监测数据40
2.4.3大数据分析案例:美食餐馆食客点评数据41
2.4.3大数据分析案例:超市顾客购买行为数据42
2.5本章涉及的R函数43
第3章R的数据整理和编程基础45
3.1从大数据分析案例看数据整理45
3.1.1美食餐馆食客点评数据的整理问题45
3.1.2超市顾客购买行为数据的整理问题45
3.1.3北京市空气质量监测数据的整理问题46
3.2数据的初步整理46
3.2.1数据整合46
3.2.2数据筛选46
3.2.3大数据分析案例:美食餐馆食客点评数据的初步整理47
3.3数据质量评估49
3.3.1缺失数据报告49
3.3.2异常值排查50
3.3.3大数据分析案例:美食餐馆食客点评数据的质量评估50
3.4数据加工52
3.4.1数据加工管理中的常用函数53
3.4.2数据分组和重编码59
3.4.3大数据分析案例:利用数据加工寻找“人气”餐馆60
3.5数据管理中的R编程基础61
3.5.1分支结构的流程控制及示例――促销折扣的计算61
3.5.2循环结构的流程控制及示例:等差数列的求和63
3.5.3用户自定义函数及示例:汇总数据还原为原始数据65
3.5.4R编程大数据分析案例:超市顾客购买行为数据的RFM计算67
3.5.5R编程大数据分析案例:北京市空气质量监测数据的整理68
3.6本章涉及的R函数70
第4章R的基本分析和统计图形71
4.1从大数据分析案例看数据基本分析71
4.1.1美食餐馆食客点评数据的基本分析71
4.1.2北京市空气质量监测数据的基本分析72
4.2R的绘图基础73
4.2.1图形设备和图形文件73
4.2.2图形组成和图形参数74
4.3分类型单变量的基本分析78
4.3.1计算频数分布表78
4.3.2分类型变量的基本统计图形78
4.3.3大数据分析案例:主打菜的餐馆分布有怎样的特点79
4.4数值型单变量的基本分析80
4.4.1计算基本描述统计量80
4.4.2数值型变量的基本统计图形81
4.4.3大数据分析案例:餐馆评分的分布有怎样的特点83
4.5大数据分析案例综合:北京市空气质量监测数据的基本分析85
4.6本章涉及的R函数88
第5章R的变量相关性分析和统计图形89
5.1分类型变量相关性的分析89
5.1.1分类型变量相关性的描述89
5.1.2分类型变量相关性的统计图形93
5.1.3大数据分析案例:餐馆的区域分布与主打菜分布是否具有相关性93
5.2数值型变量相关性的分析94
5.2.1数值型变量相关性的描述94
5.2.2数值型变量相关性的统计图形95
5.2.3大数据分析案例:餐馆各打分之间、打分与人均消费之间是否具有相关性96
5.3大数据分析案例综合:北京市空气质量监测数据的相关性分析100
5.4本章涉及的R函数102
第6章R的均值检验:单个总体的均值推断及两个总体均值的对比104
6.1从大数据分析案例看推断统计104
6.1.1美食餐馆食客点评数据分析中的推断统计问题104
6.1.2北京市空气质量监测数据分析中的推断统计问题105
6.2单个总体的均值推断106
6.2.1以PM2.5总体均值推断为例看假设检验基本原理106
6.2.2大数据案例分析:估计供暖季北京市PM2.5浓度的总体均值110
6.3两个总体均值的对比:基于独立样本的常规t检验111
6.3.1两个独立样本均值t检验的原理和R实现111
6.3.2深入问题:方差齐性检验和R实现114
6.3.3大数据分析案例:两个区域美食餐馆人均消费金额是否存在差异115
6.4两个总体均值的对比:置换检验117
6.4.1两个独立样本均值差的置换检验原理和R实现117
6.4.2大数据分析案例:利用置换检验对比两个区域美食餐馆人均消费金额的总体均值118
6.5两个总体的均值对比:自举法检验118
6.5.1两个独立样本均值差的自举法检验原理和R实现118
6.5.2大数据分析案例:利用自举法对比两个区域美食餐馆人均消费金额的总体均值120
6.6两个总体的均值对比:基于配对样本的常规t检验121
6.6.1两个配对样本均值t检验的原理和R实现121
6.6.2大数据分析案例:两个区域美食餐馆口味评分与就餐环境评分的均值是否存在差异122
6.7大数据分析案例综合:北京市空气质量监测数据的均值研究123
6.8本章涉及的R函数125
第7章R的方差分析:多个总体均值的对比127
7.1从大数据分析案例看方差分析127
7.1.1美食餐馆食客点评数据分析中的方差分析问题127
7.1.2北京市空气质量监测数据分析中的方差分析问题128
7.2多个总体均值的对比:单因素方差分析128
7.2.1单因素方差分析原理和R实现128
7.2.2深入问题:方差齐性检验和多重比较检验131
7.2.3大数据分析案例:利用单因素方差分析对比不同主打菜餐馆人均消费金额的
总体均值131
7.3多个总体均值的对比:多因素方差分析135
7.3.1多因素方差分析原理和R实现135
7.3.2大数据分析案例:利用多因素方差分析对比不同主打菜餐馆人均消费金额的
总体均值137
7.4大数据分析案例综合:北京市空气质量监测数据的均值研究140
7.5本章涉及的R函数142
第8章R的线性回归分析:对数值变量影响程度的度量和预测143
8.1从数据分析案例看线性回归分析143
8.1.1美食餐馆食客点评数据分析中的回归分析问题143
8.1.2北京市空气质量监测数据分析中的回归分析问题143
8.1.3线性回归分析的一般步骤143
8.2建立回归方程145
8.2.1线性回归模型和线性回归方程145
8.2.2线性回归方程的参数估计和R实现145
8.2.3大数据分析案例:建立美食餐馆食客评分的线性回归模型146
8.3回归方程的检验147
8.3.1回归方程的显著性检验148
8.3.2回归系数的显著性检验149
8.3.3大数据分析案例:美食餐馆食客评分回归方程的检验149
8.4回归方程的应用152
8.4.1回归方程拟合效果的度量152
8.4.2预测和预测误差153
8.4.3大数据分析案例:美食餐馆食客评分回归方程的评价和预测153
8.5回归模型的验证154
8.5.1回归模型的N折交叉验证法和R实现155
8.5.2回归模型的自举法验证和R实现155
8.5.3大数据分析案例:美食餐馆食客评分回归模型的验证156
8.6虚拟自变量回归和协方差分析157
8.6.1虚拟自变量回归157
8.6.2协方差分析159
8.6.3大数据分析案例:就餐环境对不同区域美食餐馆人均消费的影响159
8.7大数据分析案例综合:北京市空气质量监测数据的回归分析研究162
8.8本章涉及的R函数168
第9章R的Logistic回归分析:对分类变量影响程度的度量和预测169
9.1从大数据分析案例看Logistic回归分析169
9.1.1人力资源调查数据分析中的Logistic回归分析问题169
9.1.2Logistic回归分析的基本建模思路172
9.2Logistic回归方程的解读173
9.2.1Logistic回归方程的系数173
9.2.2Logistic回归方程的检验174
9.2.3大数据分析案例:基于人力资源调查数据探讨技术人员离职的原因176
9.3Logistic回归方程的应用179
9.3.1Logistic回归方程拟合效果的评价179
9.3.2大数据分析案例:基于人力资源调查数据预测技术人员离职的可能性180
9.4本章涉及的R函数181
第10章R的聚类分析:数据分组182
10.1从大数据分析案例看聚类分析182
10.1.1超市顾客购买行为数据分析中的聚类分析问题182
10.1.2北京市空气质量监测数据分析中的聚类分析问题183
10.1.3聚类分析的基本思路183
10.2K-Means聚类185
10.2.1K-Means聚类原理和R实现185
10.2.2大数据分析案例:超市顾客购买行为数据分析中的K-Means聚类187
10.3分层聚类191
10.3.1分层聚类原理和R实现191
10.3.2大数据分析案例:超市顾客购买行为数据分析中的分层聚类192
10.4大数据分析案例综合:北京市空气质量监测数据的聚类分析研究195
10.5本章涉及的R函数197
第11章R的线性判别分析:分类预测198
11.1从大数据分析案例看判别分析198
11.1.1人力资源调查数据分析中的判别分析问题198
11.1.2判别分析的数据和基本出发点199
11.2距离判别法199
11.2.1距离判别的基本思路199
11.2.2判别函数的计算和R实现201
11.2.3大数据分析案例:利用距离判别预测技术人员离职的可能性203
11.3Fisher判别法205
11.3.1Fisher判别的基本原理205
11.3.2Fisher判别系数的求解和R实现207
11.3.3大数据分析案例:利用Fisher判别预测技术人员离职的可能性209
11.4本章涉及的R函数210
第12章R的因子分析:特征提取211
12.1从大数据分析案例看因子分析211
12.1.1植物物种分类中的因子分析问题211
12.1.2北京市空气质量监测数据分析中的因子分析问题213
12.2因子分析基础213
12.2.1因子分析的数学模型213
12.2.2因子分析的特点和基本步骤215
12.2.3因子分析的模型评价216
12.3确定因子变量217
12.3.1主成分分析法的基本原理217
12.3.2基于主成分分析法的因子载荷矩阵求解和R实现219
12.3.3计算因子得分和R实现220
12.3.4大数据分析案例:利用因子分析实现植物物种分类中的特征提取221
12.4因子变量命名223
12.4.1从大数据分析案例看因子变量命名的必要性223
12.4.2因子旋转的原理和R实现226
12.4.3大数据分析案例:利用因子分析实现北京市空气质量的区域综合评价227
12.5本章涉及的R函数229

前言/序言

大数据时代,数据是生产资料,计算是生产力,互联网是生产关系,而数据分析就是串联各个生产要素的基本生产方式。

目前比较有代表性的大数据定义,来自麦肯锡全球研究院McKinseyGlobalInstitute、高德纳公司Gartner和IBM公司等先行研究机构的综合观点。从狭义角度来讲,大数据是一个具有5V特征的大规模数据集合。5V即海量的数据规模(Volume)、快速流转且动态激增的数据体系(Velocity)、多样异构的数据类型(Variety)、潜力大但密度低的数据价值(Value),以及受噪声影响的数据质量(Veracity)。而从广义角度来讲,大数据的概念还应包含大数据的理论、技术、应用和产业生态这四个基本范畴。

近年来,我国大数据事业迅猛发展,大数据人才的需求与培养也日趋紧迫。全国高校“大数据技术与应用”和“数据科学与大数据技术”专业建设不断升温。一般我们可将大数据技术概括为两大方向:一是大数据工程,二是大数据分析,并分别对应着大数据工程师和大数据分析师这两个角色。总体而言,随着大数据系统架构和基础设施的不断完善和普及,以大数据工程为核心的相关项目终究是有限的。而随着移动互联网和物联网的广泛应用,以及各方对精细化管理、个性化营销和智能化决策的渴望,大数据分析将不断深入到各行各业,大数据分析人才的需求也必将呈现出长期性、有规模的增长态势。

数据分析的理论发展和实践经验都证明,掌握大数据分析,其学习起点应是大数据的统计分析。进一步,我们认为,学习大数据的统计分析应面向市场需求、面向实际应用,所以应具有以下三个特点。

第一,要结合大数据分析的实际案例。

面对“5V俱全”的大数据体系,许多经典的统计分析方法仍然有效,是我们分析问题、解决问题的可靠手段,但需要突破那种“小样本、习题式”的传统学习模式,要精挑有针对性的大数据集合,细选有说明性的大数据案例,以这些数据和案例为引导,有条理地形成分析思路,并贯穿整个学习过程,从而真正实现由表及里、深入浅出的学习体验。

第二,要结合大数据分析的应用工具。

大数据的统计分析应进一步突破“重理论讲解,重公式推导,轻技能培养,轻工具实现”的传统学习模式,要将各个知识点言简意赅地阐述透彻,同时也要同步掌握一个有效的软件工具,进而可对相应的数据与案例进行实操破解。

第三,要结合大数据分析的目标导向。

大数据的统计分析应进一步突破“方法导向”的传统学习模式,应围绕大数据案例,确定分析目标,细化研究问题,明确分析思路,并以业务问题为出发点,形成以目标为导向的学习模式,努力培养大数据分析人才的数据敏感性,以及发现问题和运用恰当统计分析方法解决问题的能力。最终针对整个知识体系建立“问题→概念→方法→工具→结果→分析解释”一条龙式的学习模式。

R语言:大数据分析中的统计方法及应用》正是结合上述三个特点而筹划推出的,具体表现在以下三个方面。

第一,选择典型的大数据分析案例。

选用三个典型的大数据案例贯穿《R语言:大数据分析中的统计方法及应用》,并提供数据集和分析程序的下载,主要内容为手机APP美食餐馆食客点评数据、北京市空气质量监测数据、超市顾客购买行为数据等。这些案例具有大数据分析应用的代表性,而且业务问题直观明了,数据含义通俗易懂。一方面使读者能够直接感知大数据处理规模,另一方面也可有效避免由于专业领域不同而带来的数据理解问题。

第二,选择开源的大数据分析工具R语言。

选用R语言作为大数据分析工具。从分析工具的方法覆盖全面性、学习难易程度、使用流行性、未来发展潜力和开源性等多方面考虑,R语言都是进行大数据统计分析的最恰当工具。

第三,设计并提出研究问题和分析思路。

R语言:大数据分析中的统计方法及应用》在每章开篇,均首先围绕大数据案例提出若干分析需求的问题,同时提炼总结出这些问题的共性特征,进而提出可行的统计分析思路,建立学习途径;然后讨论方法原理,给出解决案例问题的R语言程序代码和详细的结果说明。

为确保内容的完整性和实用性,《R语言:大数据分析中的统计方法及应用》在大数据分析案例的选择、分析工具讲解的详略程度、以目标为导向的主流统计方法覆盖的全面性等方面,都进行了精心安排和综合设计。《R语言:大数据分析中的统计方法及应用》共12章。第1章在大数据基本定义的基础上,明确给出了《R语言:大数据分析中的统计方法及应用》的学习目标和定位。然后,对R语言的基本概念和入门知识进行了较为详尽的讲解。之后,提出了大数据的统计分析整体框架和思路,并基于大数据分析案例,对相关统计概念和内容进行了说明,旨在方便读者尽快明晰统计分析路线。数据组织是数据分析的基础,数据整理是数据分析不可或缺的必要环节。因此第2章和第3章直入主题,讨论了R语言的数据组织、整理以及编程基础,引入三个大数据分析案例并贯穿《R语言:大数据分析中的统计方法及应用》。大数据的统计分析起步于数据的基本分析,包括从单个变量分布特征到两个变量相关性的基本描述等,因此第4章和第5章首先基于大数据分析案例,提出了若干个基本数据分析问题,然后逐一讲解问题、阐述解决方法并给出R代码实现。第6章和第7章,继续针对大数据分析案例中更广泛的应用问题,细致地讨论了解决应用问题的诸多统计方法,包括单个总体的均值检验方法、两个及多个总体的均值对比方法和相应的R代码设计。第8章、第9章和第11章分别涉及线性回归分析、Logistic回归分析和线性判别分析。这些分析方法均是当前大数据分析中应用极为广泛的主流核心方法,旨在探究影响因素,解决分类预测等问题。第10章的聚类分析关注数据分组,不仅普遍存在于大数据的一般统计分析中,也广泛拓展到了数据挖掘、机器学习等诸多领域。同时第12章的因子分析更是大数据特征工程中的最常用方法。

总之,作者希望为致力于大数据分析和R语言实践的初学者,奉献一本具有大数据统计分析应用特色、R语言代码可操作性和示范性、统计方法经典性和普适性的优秀作品。《R语言:大数据分析中的统计方法及应用》提供配套的全部案例数据以及各章节R语言程序代码,可登录华信教育资源网www.hxedu.com.cn免费下载。《R语言:大数据分析中的统计方法及应用》可作为大数据相关专业、统计学专业及其他有关专业的本科生或硕士研究生数据分析的教材,也可作为从事大数据分析实际工作人员的参考用书。

书中不妥和错误之处,诚望读者不吝指正。

薛薇

于中国人民大学应用统计科学研究中心

中国人民大学统计学院


其他推荐