本书是编者在多年从事大数据相关领域教学和科研的基础上编写而成的。全书系统地对大数据采集、存储、计算、处理、分析、挖掘和可视化等相关内容进行介绍,并结合大数据在社交、交通、医疗、金融、教育等方面的应用进行剖析阐述。
样章试读
目录
- 目录
前言
第1章 大数据概述 1
1.1 大数据定义 1
1.1.1 初识大数据 1
1.1.2 大数据的特征 2
1.1.3 大数据技术 3
1.2 大数据的结构类型 6
1.2.1 结构化数据 6
1.2.2 半结构化数据 7
1.2.3 非结构化数据 7
1.2.4 其他分类方式下的数据类型 8
1.3 大数据发展 9
1.3.1 大数据概念发展 9
1.3.2 大数据浪潮下数据存储的发展 10
1.4 大数据应用及挑战 11
1.4.1 大数据应用 11
1.4.2 大数据发展面临的挑战 15
本章小结 17
思考题 18
第2章 大数据采集 19
2.1 大数据来源 19
2.2 大数据采集设备 20
2.2.1 科研数据采集设备 20
2.2.2 网络数据采集设备 21
2.3 大数据采集方法 21
2.3.1 科研大数据采集方法 21
2.3.2 网络大数据采集方法 22
2.3.3 系统日志采集方法 24
2.4 大数据预处理技术 25
2.4.1 数据预处理技术基本概述 26
2.4.2 数据清理 27
2.4.3 数据集成 30
2.4.4 数据变换与数据离散化 31
本章小结 34
思考题 34
第3章 大数据存储 35
3.1 云存储 35
3.1.1 云存储简介 35
3.1.2 云存储技术 38
3.2 大数据存储 43
3.2.1 大数据存储的特点与挑战 43
3.2.2 存储系统架构 44
3.2.3 新兴数据库技术 47
3.3 数据中心 50
3.3.1 数据中心概述 50
3.3.2 数据中心的演进 52
3.3.3 数据中心的分级 55
3.3.4 数据中心的体系结构 56
3.4 数据仓库 59
3.4.1 数据仓库的基本概念 59
3.4.2 数据仓库的体系结构 62
本章小结 62
思考题 63
第4章 大数据计算平台 64
4.1 云计算 64
4.1.1 云计算定义 64
4.1.2 云计算特点 64
4.1.3 云计算体系架构 65
4.1.4 云计算与相关计算形式 67
4.1.5 云计算的机遇与挑战 68
4.2 云计算平台 70
4.2.1 主流分布式计算系统 70
4.2.2 主流分布式计算平台 70
4.3 MapReduce平台 74
4.3.1 数据存储技术 75
4.3.2 数据管理技术 76
4.3.3 编程模型 77
4.4 Hadoop平台 78
4.4.1 Hadoop概述 78
4.4.2 Hadoop结构 79
4.4.3 Hadoop分布式文件系统HDFS 80
4.4.4 Hadoop中的MapReduce 80
4.4.5 Hadoop中MapReduce的任务调度 82
4.5 Spark平台 82
4.5.1 Spark简介 82
4.5.2 核心思想与编程模型 84
4.5.3 工作原理 85
4.5.4 Spark的优势 87
本章小结 87
思考题 88
第5章 大数据分析 89
5.1 大数据分析方法 89
5.1.1 布隆过滤器 89
5.1.2 散列法 91
5.1.3 索引法 93
5.1.4 字典树 95
5.1.5 并行计算 96
5.2 大数据分析架构 98
5.2.1 实时分析与离线分析 98
5.2.2 不同层次的分析 100
5.2.3 不同复杂度的分析 102
5.3 大数据分析应用 103
5.3.1 R语言 103
5.3.2 Excel和SQL 103
5.3.3 RapidMiner 104
5.3.4 KNIME 105
5.3.5 Weka和Pentaho 105
本章小结 106
思考题 107
第6章 大数据挖掘 108
6.1 大数据挖掘算法 109
6.1.1 关联规则 109
6.1.2 分类分析 114
6.1.3 聚类分析 119
6.2 大数据挖掘工具 123
6.2.1 RapidMiner 123
6.2.2 Weka 123
6.2.3 KNIME 124
6.2.4 Orange 124
6.2.5 R语言 125
6.3 大数据挖掘平台 125
6.3.1 基于Hadoop的平台 126
6.3.2 基于云计算的平台 128
6.3.3 基于Spark的平台 129
6.4 大数据挖掘应用 131
6.4.1 社交媒体 131
6.4.2 医学 132
6.4.3 教育 132
6.4.4 金融 133
本章小结 134
思考题 134
第7章 大数据下的机器学习算法 135
7.1 大数据特征选择 135
7.1.1 大数据特征选择的必要性 135
7.1.2 大数据特征选择方法 136
7.2 大数据分类 140
7.2.1 决策树分类 140
7.2.2 朴素贝叶斯分类 142
7.2.3 贝叶斯网络分类 143
7.2.4 支持向量机分类 144
7.3 大数据聚类 145
7.3.1 K-means算法 146
7.3.2 DBSCAN算法 150
7.3.3 层次聚类算法 151
7.4 大数据关联分析 153
7.4.1 有趣关系 154
7.4.2 Apriori算法 154
7.4.3 FP-growth算法 156
7.5 大数据并行算法 158
7.5.1 基于MapReduce的并行算法设计 158
7.5.2 超越MapReduce的并行算法设计 160
本章小结 162
思考题 162
第8章 大数据可视化 163
8.1 大数据可视化之美 163
8.1.1 数据可视化的基本概念 163
8.1.2 大数据可视化的表现形式 164
8.2 大数据可视化技术 165
8.2.1 基于图形的可视化方法 166
8.2.2 基于平行坐标法的可视化技术 168
8.2.3 其他数据可视化技术 169
8.3 大数据可视化工具 169
8.3.1 R语言在可视化中的应用 170
8.3.2 D3在可视化中的应用 171
8.3.3 Python在可视化中的应用 172
8.4 大数据可视化案例 173
8.4.1 波士顿地铁数据可视化 173
8.4.2 实时风场可视化 175
8.4.3 GapMinder 176
8.4.4 死亡率与税收 177
8.4.5 社交关系图 177
8.5 大数据可视化的未来 178
8.5.1 数据可视化面临的挑战 178
8.5.2 数据可视化技术的发展方向 178
8.5.3 数据可视化未来的主要应用 178
本章小结 179
思考题 179
第9章 社交大数据 180
9.1 社交大数据 180
9.1.1 社交数据分析让社交网站更懂用户 180
9.1.2 大数据和社交网络 181
9.2 社交大数据在国内社交网络中的应用 182
9.2.1 在腾讯大数据中的应用 182
9.2.2 在微博大数据中的应用 185
9.2.3 在淘宝大数据中的应用 188
9.2.4 在滴滴大数据中的应用 189
9.2.5 在百度大数据中的应用 190
9.3 大数据与Facebook:人们情绪的分析 192
9.3.1 用大数据分析人们对品牌的情绪 192
9.3.2 关于人们在Facebook上怀旧情绪的分析 194
9.4 大数据和Twitter:实例分析 196
9.4.1 分析用户消费习惯 196
9.4.2 预测热门股票走势 199
思考题 202
第10章 交通大数据 203
10.1 交通数据分类及其相关分析 203
10.1.1 社会信号数据 203
10.1.2 移动手机数据 205
10.1.3 刷卡数据 205
10.1.4 社交网络数据 205
10.1.5 交通数据处理 206
10.2 交通情况监测 207
10.2.1 交通事故数据集应用 208
10.2.2 监测交通情况 210
10.3 预测人类移动行为 214
10.3.1 人类移动性分析与概述 215
10.3.2 人类移动性研究的数据基础与方法 215
10.3.3 人类活动模式与移动行为预测 217
10.3.4 人类移动性研究及预测的挑战及展望 218
10.4 其他应用 220
本章小结 225
思考题 225
第11章 医疗大数据 226
11.1 医疗大数据简介 226
11.1.1 医疗大数据的来源 226
11.1.2 医疗大数据特点 226
11.1.3 大数据对医疗的影响 226
11.2 基于大数据的临床决策分析 228
11.2.1 基于大数据的临床决策支持系统的架构 228
11.2.2 基于大数据的临床决策支持系统的功能应用 228
11.2.3 大数据在临床决策中的价值 229
11.2.4 促进数据解锁的示例 230
11.3 基于大数据的医疗数据系统分析 231
11.3.1 大数据在医疗信息化行业的应用研究 231
11.3.2 医疗健康数据来源 232
11.3.3 医疗大数据体系结构 232
11.4 基于大数据的远程患者监控 235
11.4.1 远程医疗的应用领域 235
11.4.2 大数据在远程医疗产业中的应用 236
11.4.3 大数据推动远程医疗发展存在的问题 237
11.4.4 运用大数据推动远程医疗发展的前景展望 237
本章小结 238
思考题 238
第12章 金融大数据 239
12.1 摩根大通信贷市场分析 241
12.1.1 摩根大通信贷市场介绍 241
12.1.2 金融科技助力摩根大通 243
12.1.3 金融大数据面临的挑战 244
12.2 瑞士银行集合风险分析 244
12.2.1 集合风险分析 245
12.2.2 大数据分析信用风险 245
12.2.3 大数据对金融数据的处理 246
12.3 民生银行新核心业务平台分析 247
12.3.1 技术支持 248
12.3.2 新一代数据分析体系 248
12.3.3 大数据应用场景 250
12.3.4 面临的挑战 251
12.4 阿里信贷金融模式分析 251
12.4.1 阿里巴巴大数据平台支持 252
12.4.2 阿里信贷金融模式的优势 253
12.4.3 阿里信贷金融模式所面临的风险 254
本章小结 256
思考题 256
第13章 大数据教育 257
13.1 大数据教育简介 257
13.2 微课教学 263
13.2.1 微课简述 263
13.2.2 大数据背景下的微课 264
13.2.3 微课在编程语言类教学模式的应用 265
13.3 慕课教学 266
13.3.1 慕课简述 266
13.3.2 大数据背景下的慕课 267
13.3.3 慕课中的大数据应用实例 269
13.4 云教育 270
13.4.1 云教育平台简述 270
13.4.2 基于大数据的云教学环境 272
13.4.3 大数据背景下的智慧教育云的应用 273
本章小结 275
思考题 275
参考文献 276