本书对数据挖掘领域的若干算法进行较为详尽的讨论,重点介绍算法的基本思想、数学原理和程序实现框架,同时介绍算法在开源工具Weka中的实现,对相关参数的含义和取值原则进行解读,以便初学者能直接运用Weka解决简单问题。在内容组织方面,本书以算法功能为主线,将算法划分为四个主要部分,包括分类方法、数值预测方法、聚类方法和基于频繁模式的关联规则方法。对于算法的介绍,本书注重相关算法之间的递进和承接关系,力求更清晰地呈现某类算法的发展历程和发展脉络,以期读者触类旁通,改进、发展、创造和实现满足实际应用场景需求的新方法。
样章试读
目录
- 目录
第1章 绪论 1
1.1 数据挖掘 1
1.1.1 数据挖掘是什么 2
1.1.2 数据挖掘的功能 3
1.1.3 数据挖掘的过程 4
1.1.4 数据挖掘与机器学习 5
1.2 Weka简介 6
1.3 示例数据集 9
1.3.1 天气问题 9
1.3.2 鸢尾花问题 11
1.3.3 CPU性能问题 11
1.3.4 购物篮问题 12
1.3.5 美国国会投票记录 13
第2章 认识数据 14
2.1 概念、实例集、属性 14
2.2 ARFF格式文件 16
第3章 分类 20
3.1 分类器的输出与评价 20
3.1.1 汇总 20
3.1.2 成本敏感学习方案评价指标及工具 22
3.2 分类决策树 29
3.2.1 ID3算法 29
3.2.2 C4.5算法 31
3.2.3 带嫁接功能的C4.5算法 41
3.2.4 分类树与回归树 42
3.2.5 减少-误差剪枝决策树 49
3.3 分类规则 50
3.3.1 分类规则算法基本思想 50
3.3.2 分类规则算法的基本方法——覆盖算法 51
3.3.3 决策列表 59
3.3.4 基于全局优化的分类规则 63
3.3.5 基于例外的分类规则——涟波下降算法 66
3.3.6 单属性分类规则——1R分类算法 71
3.3.7 简单连接规则 75
3.3.8 简单分类规则 77
3.4 贝叶斯方法 77
3.4.1 贝叶斯方法基础 77
3.4.2 朴素贝叶斯方法 80
3.4.3 多项式朴素贝叶斯方法 90
3.4.4 贝叶斯网络 92
3.4.5 隐匿朴素贝叶斯方法 121
3.5 分类函数 125
3.5.1 logistic回归 125
3.5.2 Winnow分类器 134
3.5.3 多层感知机 139
3.5.4 径向基函数网络 156
3.5.5 序列最小优化算法 160
3.5.6 核logistic回归 179
3.5.7 投票感知机 182
3.5.8 随机梯度下降算法 184
3.6 惰性方法 187
3.6.1 惰性方法的基本思想 187
3.6.2 k-最近邻分类器 188
第4章 数值预测 219
4.1 预测器的输出与评价 219
4.1.1 反映预测值与实际值之间绝对偏差的度量指标 219
4.1.2 反映预测值与实际值之间相对偏差的度量指标 219
4.2 预测规则 220
4.2.1 简单连接规则 220
4.2.2 简单分类规则——0-规则分类器 221
4.3 预测函数 222
4.3.1 线性回归 222
4.3.2 简单线性回归 229
4.3.3 最小中值平方线性回归 229
4.3.4 基于投影的线性回归 232
4.3.5 保序回归 234
4.3.6 序列最小优化回归 241
第5章 聚类 247
5.1 K-均值聚类 248
5.1.1 K-均值聚类的基本思想 248
5.1.2 初始化聚类中心 248
5.1.3 顶盖方法 249
5.1.4 Weka实现 255
5.2 X-均值聚类 257
5.2.1 X-均值聚类的基本思想 257
5.2.2 聚类簇总数k的估计 257
5.2.3 基于kD树的算法加速 260
5.2.4 Weka实现 264
5.3 层次聚类 265
5.3.1 层次聚类法的基本思想 265
5.3.2 凝聚聚类算法 266
5.3.3 Weka实现 270
5.4 增量聚类 271
5.4.1 增量聚类法的基本思想 271
5.4.2 分类效用 273
5.4.3 敏锐度 274
5.4.4 截断参数 275
5.4.5 Weka实现 276
5.5 基于概率的聚类 277
5.5.1 基于概率的聚类方法基础 277
5.5.2 EM算法 279
5.5.3 扩展混合模型 281
5.5.4 交叉验证与聚类簇总数 283
5.5.5 Weka实现 283
5.6 基于密度的聚类 285
5.6.1 基本概念 285
5.6.2 DBSCAN算法 286
5.6.3 OPTICS算法 288
5.6.4 Weka实现 291
5.7 CLOPE聚类 296
5.7.1 稀疏数据 296
5.7.2 CLOPE的基本思想 297
5.7.3 算法描述 298
5.7.4 算法实现细节 301
5.7.5 Weka实现 302
5.8 聚类方法辅助工具 303
5.8.1 FilteredClusterer 303
5.8.2 MakeDensityBasedClusterer 304
第6章 基于频繁模式的关联规则 305
6.1 模式挖掘的基本概念 305
6.1.1 频繁模式 305
6.1.2 频繁项集和关联规则 306
6.1.3 闭频繁项集和极大频繁项集 308
6.1.4 模式评估度量 309
6.1.5 模式挖掘的分类 320
6.2 Apriori算法 322
6.2.1 算法思想及算法步骤 322
6.2.2 算法效率提升策略 327
6.2.3 典型模式提取 329
6.2.4 基于频繁模式的分类器 338
6.2.5 Weka实现 342
6.3 FP-Growth算法 345
6.3.1 算法思想 345
6.3.2 算法步骤 349
6.3.3 基于约束的剪枝 350
6.3.4 Weka实现 355
6.4 模式挖掘方法的辅助工具 356
参考文献 358