本书作为机器学习及工业大数据解析领域的入门教材,在内容设置上尽可能涵盖该研究领域基础知识的各个方面。全书共28章,分为六篇。其中第一篇为概论篇;第二篇为有监督学习篇;第三篇为无监督学习篇;第四篇为半监督学习篇;第五篇为深度学习篇;第六篇为大数据解析篇。每章都附有继续阅读和参考文献,以便有兴趣的读者进一步钻研探索。
样章试读
目录
- 目录
前言
第一篇 概论篇
第1章 绪论 3
1.1 机器学习简介 3
1.2 机器学习与人工智能 3
1.3 机器学习的主要研究领域 4
1.4 机器学习的发展历史与发展趋势 5
1.4.1 机器学习的发展历史 5
1.4.2 机器学习的发展趋势 7
1.5 机器学习系统的基本结构 8
1.5.1 数据 8
1.5.2 模型 9
1.5.3 损失函数 11
1.5.4 训练 13
1.6 模型评估与模型选择 14
1.6.1 训练误差与测试误差 14
1.6.2 过拟合与模型选择 14
1.7 正则化与交叉验证 15
1.7.1 正则化 15
1.7.2 交叉验证 16
1.8 泛化能力 17
1.8.1 泛化误差 17
1.8.2 泛化误差上界 18
1.9 机器学习的基本术语 18
1.9.1 假设空间 18
1.9.2 变形空间 19
1.9.3 归纳偏置 20
1.10 机器学习的分类 20
iv 机器学习及工业大数据解析应用
1.10.1 有监督学习 21
1.10.2 无监督学习 22
1.10.3 半监督学习 23
1.10.4 深度学习 25
1.11 工业大数据解析统计学基础 25
1.11.1 期望、方差、协方差 25
1.11.2 一元高斯分布 26
1.11.3 多元高斯分布 27
继续阅读 27
参考文献 27
第2章 概念学习和一般到特殊序 29
2.1 概念学习的定义 29
2.2 概念学习的术语 29
2.3 归纳学习假设 33
2.4 假设的一般到特殊序 34
2.5 寻找极大特殊假设 34
2.5.1 候选消除算法的表示 35
2.5.2 列表后消除算法 36
2.5.3 变形空间的简洁表示 37
2.5.4 候选消除学习算法 38
2.6 归纳偏置 38
2.6.1 有偏的假设空间 39
2.6.2 无偏学习器 39
2.6.3 无偏学习的无用性 39
继续阅读 40
参考文献 40
第二篇 有监督学习篇
第3章 感知机 43
3.1 感知机学习模型 43
3.2 感知机学习策略 44
3.2.1 数据集的线性可分性 44
3.2.2 学习策略 44
3.3 感知机学习算法 45
3.3.1 感知机学习算法的一般形式 45
3.3.2 感知机学习算法的收敛性 46
继续阅读 47
参考文献 47
第4章 k 近邻算法及模型 49
4.1 k 近邻算法 49
4.2 k 近邻模型 50
4.2.1 模型 50
4.2.2 距离度量 50
4.2.3 k 值的选择 51
4.2.4 分类决策规则 52
4.3 k 近邻算法的实现 52
4.3.1 构造kd树 53
4.3.2 搜索kd树 54
继续阅读 55
参考文献 55
第5章 决策树 56
5.1 决策树模型与学习 56
5.1.1 决策树模型 56
5.1.2 决策树与if-then规则 56
5.1.3 决策树与条件概率分布 57
5.1.4 决策树学习 57
5.2 决策树方法的产生及算法过程 58
5.2.1 ID3算法 58
5.2.2 CART算法 59
5.2.3 C4.5算法 61
5.3 决策树常见问题 61
5.3.1 熵、信息增益和特征选择问题 61
5.3.2 决策树学习过拟合问题 64
5.3.3 交叉验证与树的修剪问题 65
5.3.4 最佳划分的度量问题 66
5.3.5 处理缺失属性值问题 67
5.3.6 处理连续属性值问题 68
5.3.7 叶节点判定问题 68
5.3.8 待测样本分类问题 68
继续阅读 69
参考文献 69
第6章 集成学习 70
6.1 个体与集成 70
6.2 Bagging算法 70
6.2.1 Bagging算法工作机制 71
6.2.2 Bagging算法简介 71
6.2.3 Bagging算法的自主采样 72
6.2.4 Bagging算法的结合策略 72
6.2.5 偏差与方差分析 73
6.2.6 随机森林算法 74
6.3 Boosting算法 74
6.3.1 Boosting算法工作机制 74
6.3.2 Boosting算法的两个核心问题 75
6.3.3 AdaBoost算法 75
6.3.4 提升树算法 77
6.3.5 梯度提升决策树算法 79
6.4 Stacking算法 79
6.5 集成学习的结合策略 80
6.5.1 平均法 80
6.5.2 学习法 81
继续阅读 82
参考文献 82
第7章 回归分析 83
7.1 回归分析的概念与特点 83
7.2 回归模型的选择 84
7.3 常用的回归模型 85
7.3.1 线性回归 85
7.3.2 逻辑回归 86
7.3.3 多项式回归 88
7.3.4 逐步回归 89
7.3.5 岭回归与Lasso 回归 91
7.3.6 主元回归 93
7.3.7 偏最小二乘回归 94
7.3.8 弹性回归 96
继续阅读 96
参考文献 97
第8章 支持向量机 98
8.1 间隔与支持向量 98
8.2 线性可分支持向量机与硬间隔最大化 99
8.2.1 函数间隔和几何间隔 99
8.2.2 间隔最大化 100
8.2.3 对偶问题求解 100
8.3 线性支持向量机与软间隔最大化 101
8.3.1 软间隔的对偶算法 101
8.3.2 Hinge损失函数 103
8.4 非线性支持向量机与核函数 104
8.4.1 核技巧 104
8.4.2 正定核 104
8.4.3 核非线性支持向量机 105
8.5 序列最小优化算法 105
8.5.1 两个变量二次规划的求解方法 105
8.5.2 SMO算法步骤 106
继续阅读 107
参考文献 108
第9章 隐马尔可夫模型 109
9.1 马尔可夫模型 109
9.2 隐马尔可夫模型的要素和假设 110
9.2.1 要素 110
9.2.2 假设 111
9.3 隐马尔可夫模型的基本问题 111
9.4 三个基本问题的求解算法 114
9.4.1 前向算法 114
9.4.2 后向算法 115
9.4.3 Viterbi算法 116
继续阅读 117
参考文献 117
第10章 条件随机场 118
10.1 概率无向图模型 118
10.1.1 概率无向图模型的定义 118
10.1.2 概率无向图模型的因子分解 119
10.2 条件随机场的定义与形式 120
10.2.1 条件随机场的定义 120
10.2.2 条件随机场的参数化形式 122
10.2.3 条件随机场的简化形式 122
10.2.4 条件随机场的矩阵形式 123
10.3 条件随机场的概率计算问题 124
10.3.1 前向-后向算法 124
10.3.2 概率计算 125
10.3.3 期望计算 125
10.4 条件随机场的学习算法 126
10.4.1 改进的迭代尺度法 126
10.4.2 拟牛顿法 129
继续阅读 130
参考文献 130
第三篇 无监督学习篇
第11章 贝叶斯学习 133
11.1 贝叶斯理论 133
11.1.1 先验概率和后验概率 133
11.1.2 贝叶斯公式 133
11.1.3 极大后验假设 134
11.1.4 极大似然假设 134
11.2 贝叶斯公式和概念学习 135
11.2.1 Brute-Force 贝叶斯概念学习算法 135
11.2.2 特定情况下的极大后验假设 135
11.2.3 极大后验假设和一致学习器 136
11.2.4 极大似然和最小误差平方假设 137
11.2.5 用于预测概率的极大似然假设 137
11.2.6 最小描述长度准则 138
11.2.7 贝叶斯最优分类器 138
11.2.8 吉布斯算法 139
11.3 朴素贝叶斯 139
11.3.1 朴素贝叶斯的基本框架 139
11.3.2 朴素贝叶斯分类器 140
11.3.3 朴素贝叶斯模型 141
11.3.4 平滑技术 142
11.4 贝叶斯网络 143
11.4.1 贝叶斯网络的定义及性质 143
11.4.2 贝叶斯网络的结构形式 143
11.4.3 贝叶斯网络的判定条件 143
11.4.4 贝叶斯网络的构建及学习 144
继续阅读 145
参考文献 145
第12章 聚类分析 146
12.1 聚类与分类 146
12.2 聚类分析的过程及要求 146
12.3 聚类分析的度量 147
12.3.1 外部指标 148
12.3.2 内部指标 149
12.3.3 选择相似性度量的原则 151
12.4 基于划分的聚类 153
12.4.1 K-means算法 153
12.4.2 K-medoids算法 154
12.4.3 K-prototype算法 155
12.5 基于层次的聚类 157
12.5.1 聚合聚类与分裂聚类算法 157
12.5.2 平衡迭代削减聚类算法 158
12.5.3 使用代表点的聚类算法 161
12.6 基于密度的聚类 162
12.6.1 DBSCAN算法 162
12.6.2 WS-DBSCAN算法 164
12.6.3 MDCA算法 164
12.7 基于模型的聚类 165
12.7.1 基于SOM神经网络的聚类算法 165
12.7.2 基于概率模型的聚类算法 166
继续阅读 167
参考文献 167
第13章 降维与度量学习 168
13.1 降维方法概述 168
13.2 线性降维方法 168
x 机器学习及工业大数据解析应用
13.2.1 子集选择法 168
13.2.2 主成分分析法 169
13.2.3 慢特征分析法 171
13.2.4 判别分析法 174
13.2.5 典型相关分析法 177
13.2.6 奇异值分解法 179
13.2.7 因子分析法 180
13.3 非线性降维方法 181
13.3.1 流形学习简介 181
13.3.2 保留局部特征 181
13.3.3 保留全局特征 187
13.4 度量学习 192
13.4.1 度量的定义 192
13.4.2 KL 散度 192
继续阅读 193
参考文献 193
第14章 概率潜在语义分析 195
14.1 单词向量空间与话题向量空间 195
14.1.1 单词向量空间 195
14.1.2 话题向量空间 197
14.2 潜在语义分析算法 199
14.2.1 矩阵奇异值分解算法 199
14.2.2 应用案例 201
14.3 非负矩阵分解算法 203
14.3.1 非负矩阵分解 203
14.3.2 潜在语义分析模型 204
14.3.3 非负矩阵分解的形式化 204
14.4 概率潜在语义分析模型 205
14.4.1 基本想法 205
14.4.2 生成模型 206
14.4.3 共现模型 206
14.4.4 模型性质 207
14.5 概率潜在语义分析算法 208
继续阅读 210
参考文献 211
第15章 潜在狄利克雷分布 212
15.1 概率分布 212
15.1.1 分布定义 212
15.1.2 共轭先验 215
15.2 潜在狄利克雷分布模型 216
15.2.1 模型定义 216
15.2.2 概率图模型 217
15.2.3 随机变量序列的可交换性 218
15.2.4 概率公式 219
15.3 LDA 的吉布斯抽样算法 220
15.3.1 基本思想 220
15.3.2 算法的主要部分 221
15.3.3 算法的后处理 223
15.4 LDA的变分EM 算法 224
15.4.1 变分推理 224
15.4.2 变分EM算法 225
15.4.3 算法推导 225
继续阅读 231
参考文献 231
第四篇 半监督学习篇
第16章 基于图的半监督学习 235
16.1 标签传播算法 235
16.1.1 标签传播算法实例 235
16.1.2 基于scikit-learn的标签传播算法 237
16.1.3 拉普拉斯矩阵正则化提升平滑度 238
16.2 基于马尔可夫随机游走的标签传播算法 240
16.3 流形学习 243
16.3.1 等距特征映射流形学习算法 243
16.3.2 局部线性嵌入算法 244
16.3.3 拉普拉斯谱嵌入算法 246
16.3.4 t-SNE 246
继续阅读 251
参考文献 251
第17章 有约束的概率半监督聚类 252
17.1 基于HMRF 的半监督聚类模型 252
17.1.1 HMRF 模型 253
17.1.2 类别的马尔可夫随机域 253
17.1.3 HMRF 中的联合概率 254
17.1.4 HMRF 的半监督聚类的目标函数 255
17.2 HMRF-Kmeans 算法 256
17.3 获取约束的主动学习方法 261
继续阅读 263
参考文献 263
第18章 基于条件调和混合的半监督学习 265
18.1 条件调和混合模型 265
18.2 CHM 模型的学习 266
18.3 融入先验知识 270
18.4 学习条件分布 270
18.5 模型平均 271
继续阅读 271
参考文献 271
第19章 高级半监督分类 272
19.1 对比性悲观似然估计 272
19.2 半监督支持向量机 273
19.2.1 算法 274
19.2.2 实例 277
继续阅读 278
参考文献 278
第五篇 深度学习篇
第20章 前馈神经网络 281
20.1 前馈神经网络的模型 282
20.1.1 前馈神经网络的定义 282
20.1.2 前馈神经网络的表示能力 282
20.2 前馈神经网络的学习 283
20.2.1 前馈神经网络学习的优化算法 283
20.2.2 反向传播算法 284
20.3 前馈神经网络的正则化 286
20.3.1 深度学习中的正则化 286
20.3.2 早停法 286
20.3.3 暂退法 286
继续阅读 287
参考文献 287
第21章 循环神经网络 288
21.1 循环神经网络的模型 288
21.1.1 循环神经网络的定义 288
21.1.2 循环神经网络的学习算法 289
21.1.3 梯度消失与爆炸 289
21.2 常用的循环神经网络 290
21.2.1 长短期记忆网络 290
21.2.2 门控循环单元网络 292
21.2.3 深度循环神经网络 293
21.2.4 双向循环神经网络 294
21.3 循环神经网络在自然语言生成中的应用 295
21.3.1 词向量 295
21.3.2 语言模型与语言生成 296
继续阅读 297
参考文献 297
第22章 卷积神经网络 299
22.1 卷积神经网络的模型 299
22.1.1 卷积 299
22.1.2 池化 300
22.1.3 卷积神经网络的性质 301
22.2 卷积神经网络的学习算法 301
22.2.1 卷积导数 301
22.2.2 反向传播算法 302
22.3 卷积神经网络在图像分类中的应用 305
22.3.1 AlexNet 305
22.3.2 残差网络 307
继续阅读 307
参考文献 307
xiv 机器学习及工业大数据解析应用
第23章 生成对抗网络与宽度学习 309
23.1 生成对抗网络的基本模型 309
23.1.1 模型 309
23.1.2 学习算法 310
23.2 生成对抗网络在图像生成中的应用 311
23.2.1 转置卷积 311
23.2.2 DCGAN 313
23.3 宽度学习 314
23.3.1 产生背景 314
23.3.2 RVFLNN 简介 314
23.3.3 算法介绍 316
继续阅读 318
参考文献 318
第24章 强化学习 320
24.1 强化学习的定义 320
24.2 强化学习与其他机器学习方法的区别 320
24.3 强化学习的特点 321
24.4 强化学习的要素与架构 321
24.4.1 四个基本要素 321
24.4.2 强化学习的架构 322
24.5 强化学习的训练过程 323
24.6 强化学习算法分类 323
24.6.1 基于价值的方法 323
24.6.2 基于策略的方法 324
24.6.3 参与评价方法 324
24.6.4 其他分类 325
24.7 强化学习的代表算法 325
24.7.1 SARSA 325
24.7.2 Q 学习 326
24.7.3 策略梯度 327
24.7.4 Actor-Critic 329
24.7.5 深度Q 网络 331
继续阅读 332
参考文献 332
第六篇 大数据解析篇
第25章 工业大数据解析过程 337
25.1 基于机器学习与规则方法的区别 337
25.2 业务理解 338
25.3 数据理解 339
25.3.1 初始数据解析 339
25.3.2 探索性数据分析 340
25.3.3 描述数据 341
25.3.4 数据的类型 341
25.4 数据准备 342
25.4.1 脏数据 342
25.4.2 数据清洗 343
25.4.3 数据离散化 343
25.4.4 数据压缩/数据整理 344
25.4.5 文本清洗 345
25.4.6 特征工程 346
25.4.7 特征选择的方法 346
25.4.8 特征提取 347
25.5 数据建模 349
25.6 模型评估 350
25.6.1 评估模型性能 350
25.6.2 优化模型参数 351
25.6.3 解释模型结果 352
25.7 模型部署 352
继续阅读 353
参考文献 353
第26章 时间序列分析 354
26.1 探索与理解时间序列 354
26.1.1 时间序列数据分析 354
26.1.2 时间序列中缺失值的数据清理 354
26.1.3 归一化和标准化时间序列数据 355
26.2 时间序列特征工程 356
26.2.1 日期时间特征 356
26.2.2 滞后特征和窗口特征 356
xvi 机器学习及工业大数据解析应用
26.2.3 滑动窗口统计信息 357
26.2.4 扩展窗口统计信息 357
26.3 时间序列预测的自回归和自动方法 357
26.3.1 自回归 357
26.3.2 移动平均 358
26.3.3 自回归移动平均 360
26.3.4 自回归差分移动平均 360
26.3.5 自动化机器学习 362
继续阅读 363
参考文献 363
第27章 因果图学习 365
27.1 无监督图学习 365
27.2 有监督图学习 371
27.2.1 有监督图嵌入算法的层次结构 371
27.2.2 基于特征的方法 371
27.2.3 浅嵌入方法 372
27.2.4 图卷积神经网络 372
27.3 基于图学习的工业大数据解析 374
27.3.1 数据集概述 374
27.3.2 网络拓扑和异常检测 375
27.3.3 有监督学习和无监督学习任务 376
27.3.4 基于图学习的工业场景分析 377
27.4 图学习的新趋势 380
27.4.1 图的数据增强技术 380
27.4.2 拓扑数据分析 381
27.4.3 拓扑机器学习 382
继续阅读 383
参考文献 383
第28章 可解释性学习 385
28.1 大数据解析的可解释性 385
28.1.1 可解释性的重要性 385
28.1.2 可解释性方法的分类 386
28.1.3 可解释性范围 387
28.1.4 可解释性评估 388
28.1.5 解释方法和解释的性质 388
28.1.6 人性化的解释 389
28.2 模型无关可解释性方法 390
28.2.1 部分依赖图 391
28.2.2 个体条件期望 393
28.2.3 累计局部效应图 394
28.2.4 特征交互 396
28.2.5 置换特征重要性 398
28.2.6 全局代理模式 399
28.2.7 局部代理 401
28.3 基于大数据样本的解释 402
28.3.1 反事实解释 403
28.3.2 对抗样本 405
28.3.3 原型与批评 407
28.3.4 有影响力的实例 410
28.4 可解释性的未来 412
继续阅读 413
参考文献 413