本书试图较全面地介绍大数据技术的基本原理和方法,包括以统计模型为主的各类数据模型以及它们的计算方法,同时还将介绍这些方法在一些领域(如人工智能)中的应用。
样章试读
目录
- 目录
前言
第1章 引言 1
1.1 什么是大数据 1
1.1.1 大数据概论 1
1.1.2 大数据的特点 1
1.1.3 大数据带来的利益 2
1.1.4 大数据的类型 3
1.2 数据分析过程 4
1.3 专业领域知识 4
1.3.1 统计学 5
1.3.2 数据挖掘 5
1.3.3 机器学习 5
1.3.4 人工智能 6
1.3.5 数学 6
1.4 数据科学家做什么? 6
1.4.1 学术界 6
1.4.2 工业界 6
第2章 大数据的预处理、存储和计算 8
2.1 数据的预处理 8
2.1.1 数据源 9
2.1.2 数据格式 9
2.1.3 数据形式 10
2.2 数据清洗 11
2.2.1 数据清洗的系统框架 12
2.2.2 待清洗数据的主要类型 12
2.2.3 数据检测算法和清洗算法 13
2.2.4 数据清洗评估 16
2.3 云存储和云计算* 17
习题2 18
第3章 数据可视化 20
3.1 基本原理 20
3.2 实现过程 20
3.3 可视化工具 21
3.4 数据可视化方法 21
第4章 回归与分类(一) 25
4.1 线性回归 25
4.1.1 模型介绍 26
4.1.2 参数估计 28
4.1.3 假设检验 32
4.1.4 模型评价与诊断 35
4.1.5 预测 39
4.2 线性回归的推广* 40
4.2.1 多项式回归 41
4.2.2 样条回归 43
4.2.3 局部回归 47
4.2.4 广义加性模型 52
4.2.5 回归性能的度量 54
4.3 时间序列分析 57
4.3.1 AR(p)模型 57
4.3.2 MA(q)模型 60
4.3.3 ARMA(p,q)模型 63
4.4 逻辑斯谛回归 68
4.5 判别分类 72
4.5.1 线性判别分析 72
4.5.2 二次判别分析 75
4.6 k最近邻分类 76
习题4 78
第5章 回归与分类(二) 81
5.1 决策树 81
5.1.1 回归树 82
5.1.2 分类树 88
5.1.3 决策树的优缺点 91
5.2 Bagging分类 91
5.3 随机森林分类 96
5.4 AdaBoost分类 98
5.5 支持向量机分类 103
5.5.1 最大间隔分类器 103
5.5.2 支持向量分类器 109
5.5.3 支持向量机 113
5.5.4 多分类的支持向量机 118
习题5 118
第6章 聚类及相关数据分析 120
6.1 聚类分析 120
6.1.1 距离的定义 120
6.1.2 系统聚类法 127
6.1.3 K{均值聚类 130
6.2 文本分析 134
6.2.1 基本概念 134
6.2.2 处理过程和任务 136
6.2.3 特征处理 138
6.2.4 文本表示模型 139
6.2.5 文本分类与文本聚类 143
6.2.6 应用实例 144
6.2.7 分布式文本挖掘 147
6.3 网络图形描述和模型* 148
6.3.1 图的基本概念 148
6.3.2 复杂网络的统计特征 149
6.3.3 小世界现象 151
6.3.4 模型介绍 154
6.4 网络数据分析和图形模型 157
6.4.1 网络数据概述 157
6.4.2 网络数据收集 158
6.4.3 网络数据分析 160
6.5 关联规则和推荐系统 164
6.5.1 关联规则 164
6.5.2 推荐系统 166
6.5.3 基于内容的推荐系统设计过程 169
习题6 170
第7章 高维统计中的变量选择 173
7.1 经典降维方法 173
7.1.1 主成分分析 173
7.1.2 因子分析 178
7.2 Lasso模型及其变形 185
7.2.1 Lasso基本方法 185
7.2.2 Lasso方法的拓展 188
7.2.3 其他降维方法 196
7.3 流形降维方法* 204
7.3.1 核主成分分析 205
7.3.2 局部线性嵌入 206
7.3.3 多维缩放 208
7.3.4 Isomap 209
7.4 非负矩阵分解* 210
7.4.1 基本原理 210
7.4.2 NMF的求解方法 211
7.4.3 应用 212
7.5 自编码器 212
7.5.1 基本原理 213
7.5.2 可视化自编码器 215
7.6 t-SNE 216
7.6.1 算法 216
7.6.2 应用 217
7.7 正则化方法 218
7.7.1 多项式拟合 218
7.7.2 过拟合和欠拟合 221
7.7.3 L2正则 222
7.7.4 L1正则 224
7.7.5 缩减参数的选取 225
习题7 225
第8章 最大期望算法(EM算法) 227
8.1 预备知识 228
8.2 算法描述 229
8.3 算法导出* 230
8.4 EM算法的应用 232
8.4.1 简单实例——抛投硬币实验 232
8.4.2 男女生身高实例——混合高斯模型 235
习题8 240
第9章 贝叶斯方法 242
9.1 引论 242
9.2 贝叶斯统计推断 243
9.2.1 一个例子 243
9.2.2 确定先验分布 244
9.2.3 点估计 245
9.2.4 区间估计 245
9.2.5 假设检验 246
9.3 贝叶斯方法在变量选择中的应用 246
9.3.1 贝叶斯模型选择 246
9.3.2 采样 248
9.3.3 贝叶斯变量选择 249
习题9 250
第10章 隐马尔可夫模型 252
10.1 隐马尔可夫模型的基本概念 252
10.1.1 马尔可夫链 252
10.1.2 隐马尔可夫模型 253
10.1.3 观测序列的生成过程 257
10.1.4 隐马尔可夫模型的三个基本问题 257
10.2 概率计算算法 258
10.2.1 前向算法 258
10.2.2 后向算法 260
10.2.3 一些概率与期望值的计算 261
10.3 学习算法 262
10.3.1 监督学习方法 262
10.3.2 Baum-Welch算法 263
10.3.3 Baum-Welch模型参数估计 265
10.4 预测算法 266
10.4.1 近似算法 266
10.4.2 维特比算法 267
习题10 271
第11章 神经网络与深度学习 272
11.1 引言 272
11.2 神经网络 272
11.2.1 简介 272
11.2.2 神经元 274
11.2.3 感知器 275
11.2.4 神经网络模型 276
11.2.5 激活函数 278
11.2.6 代价函数 280
11.2.7 梯度下降法 281
11.2.8 反向传播算法 283
11.2.9 梯度检验 285
11.3 深度神经网络 285
11.4 卷积神经网络 286
11.4.1 卷积 287
11.4.2 卷积层 288
11.4.3 池化层 291
11.4.4 卷积神经网络的网络架构 292
11.4.5 权值的训练 293
11.4.6 LeNet-5卷积神经网络 295
11.5 循环神经网络 297
11.5.1 简单循环神经网络 297
11.5.2 基于时间的反向传播算法 299
11.5.3 梯度消失和梯度爆炸 302
11.5.4 长短时记忆网络* 302
11.5.5 门限循环单元* 304
11.6 强化学习* 305
11.6.1 什么是强化学习? 305
11.6.2 强化学习的不同的环境 307
11.6.3 强化学习的几个有代表性的算法及理论基础 307
11.6.4 强化学习的相关应用 308
11.6.5 强化学习的平台 308
11.6.6 强化学习的展望 309
11.7 深度学习在人工智能中的应用 309
11.7.1 深度学习在无人驾驶汽车领域的应用 309
11.7.2 深度学习在自然语言处理领域的应用 311
11.7.3 深度学习在医疗健康领域的应用 314
习题11 315
第12章 案例分析 316
12.1 金融数据分析案例 316
12.2 高维稀疏单细胞RNA测序数据的聚类研究 321
12.2.1 背景介绍 321
12.2.2 研究目标和内容 322
12.2.3 数据标准化 323
12.2.4 基于隐变量标准化两阶段单细胞无监督类 325
12.3 手写数字识别 327
12.3.1 MNIST数据的说明和导入 327
12.3.2 MNIST手写数字神经网络识别 330
参考文献 337
附录A R语言简介 344
A.1 特点 344
A.2 安装和运行 344
A.3 帮助命令和帮助工具 345
A.4 RStudio 346
A.5 R编程要点 347
附录B Python语言介绍 356
B.1 基础介绍 356
B.2 非基础部分 367
B.3 机器学习常用module介绍 375
索引 379
彩图