大数据时代,各行各业积累的数据不断增多,海量数据经过清洗、整理以后,基于分析与挖掘工作,才能获取到有用的数据信息,挖掘到数据背后的价值,掌握大数据的规律。而数据分析与挖掘的核心工作即是数据建模。数据建模,通俗地说,就是通过建立数据科学模型的手段解决现实问题的过程。
本书共分为五章,内容包括数据建模概述、数据建模常用数据计算软件MATLAB和SPSS入门介绍、数据建模方法、实战案例分析等。本书注重理论与实践相结合,不仅有详细的数据建模理论方法,还有赛题案例,以及非常详细的程序代码,让读者既能具备数据建模理论的基础,又能掌握解决数据建模问题的技巧与方法,还能轻松应对大数据问题的编程计算。
样章试读
目录
- 目录
前言
第1章 关于数据建模 1
1.1 数据建模概述 1
1.2 数据建模基本任务 1
1.3 数据建模过程 4
1.3.1 定义挖掘目标 5
1.3.2 探索数据 6
1.3.3 数据预处理 7
1.3.4 挖掘建模 8
1.3.5 模型评价 9
1.4 数据可视化 9
第2章 MATLAB快速入门 13
2.1 MATLAB概述 13
2.2 MATLAB的帮助系统 15
2.3 MATLAB的常用技巧 18
2.4 MATLAB的矩阵和数组 19
2.5 MATLAB的程序语句 22
2.6 MATLAB数据可视化 25
第3章 SPSS快速入门 29
3.1 SPSS概述 29
3.2 SPSS的基本特点 29
3.3 SPSS的操作界面 30
3.4 SPSS数据格式概述 33
3.5 SPSS的功能使用介绍 35
3.6 SPSS分析栏的使用方法 44
第4章 数据挖掘 56
4.1 数据探索性分析 56
4.1.1 数据探索性分析目的 56
4.1.2 数据质量分析 57
4.1.3 数据特征分析 61
4.2 数据预处理 73
4.2.1 缺失值处理 73
4.2.2 异常值处理 79
4.2.3 完整性检验 80
4.3 参数估计与假设检验 81
4.3.1 常见分布的参数估计 81
4.3.2 正态总体参数的检验 82
4.3.3 分布的拟合与检验 84
4.4 方差分析 85
4.4.1 单因素方差分析 86
4.4.2 双因素方差分析 89
4.5 回归分析 91
4.5.1 一元线性回归分析 91
4.5.2 多元线性回归分析 98
4.5.3 多元非线性回归分析 101
4.5.4 逐步回归 105
4.5.5 Logistic回归 110
4.6 聚类分析 114
4.6.1 聚类分析简介 114
4.6.2 K-均值聚类法 115
4.6.3 系统聚类法 119
4.6.4 模糊聚类法 123
4.7 判别分析 133
4.7.1 判别分析简介 133
4.7.2 距离判别 133
4.7.3 贝叶斯判别 139
4.8 主成分分析 143
4.8.1 主成分分析简介 143
4.8.2 从总体协方差矩阵出发求解主成分 144
4.8.3 主成分的性质 145
4.8.4 从总体相关系数矩阵出发求解主成分 147
第5章 数据建模“实战”案例 152
案例1 公共自行车服务系统的运行 152
案例2 百货商场会员画像描绘 183
案例3 基于数据挖掘对“薄利多销”进行分析 214
案例4 基于统计分析下的空气质量数据的校准 238
案例5 基于大数据技术的校园供水系统漏损分析研究 296
案例6 中小微企业的信贷策略 312
参考文献 343