本书较全面地介绍了数据挖掘的基本理论、算法及应用。首先介绍数据挖掘的基本概念,随后重点讲述关联规则、分类、聚类等模式的挖掘技术并介绍相关的经典算法,同时注重数据挖掘技术的应用实例讲解,包括多模态脑影像挖掘、脑网络分析及其在生物信息学和软件工程中的应用。最后,对近年来发展迅猛的领域,如使用进化计算作为主要方法的数据挖掘技术也用了一定篇幅讲述其基本内容。
样章试读
目录
- 目录
第1章 绪论
1.1 什么是数据挖掘 1
1.2 数据挖掘的任务 2
1.3 数据挖掘在脑疾病诊断以及生物信息学中的应用 3
1.4 数据挖掘在软件设计和应用领域的应用 4
1.5 基于进化计算的数据挖掘技术 4
1.6 本书的内容与组织 4
第2章 数据准备 6
2.1 数据 6
2.1.1 数据集类型 6
2.1.2 数据属性及类型 7
2.1.3 数据相似性与相异性 8
2.2 数据预处理方法 10
2.2.1 数据清理 10
2.2.2 数据变换 11
2.2.3 数据归约 12
2.2.4数据集成 14
参考文献 15
第3章 关联规则 16
3.1 基本概念 16
3.2 Apriori算法 17
3.3 其他关联规则挖掘 18
参考文献 19
第4章 分类 21
4.1 基本概念 21
4.2 决策树分类 22
4.2.1 决策树概念 22
4.2.2 常见决策树算法 23
4.3 基于贝叶斯定理的分类方法 28
4.3.1 朴素贝叶斯分类器 28
4.3.2 贝叶斯信念网络 29
4.4 多层前馈神经网络分类器 30
4.4.1 基本概念 31
4.4.2 BP算法 32
4.5 支持向量机分类器 34
4.5.1 支持向量与超平面 34
4.5.2 线性可分支持向量机 36
4.5.3 线性不可分支持向量机 39
4.5.4 非线性支持向量机 42
4.6 最近邻分类器 43
4.7 分类器的评估与度量 44
4.7.1 性能评估指标 44
4.7.2 分类器的准确率评估 45
4.7.3 常见评估方法 45
参考文献 47
第5章 聚类分析 48
5.1 聚类概述 48
5.2 基于划分的聚类算法 51
5.2.1 k均值聚类 51
5.2.2 k中心点聚类 52
5.2.3 EM 53
5.3 基于层次的聚类算法 54
5.3.1 簇间距离度量方法 54
5.3.2 BIRCH 55
5.3.3 CURE 57
5.3.4 ROCK 57
5.3.5 Chame1eon 58
5.4 基于网格与基于密度的聚类 59
5.4.1 STLNG 59
5.4.2 DBSCAN 60
5.4.3 OPTICS 61
5.5 其他方法聚类 61
5.5.1 NMF 61
5.5.2 子空间聚类 62
5.6 聚类有效性验证 63
参考文献 65
第6章 多模态脑影像挖掘 67
6.1 引言 67
6.2 多模态分类 68
6.2.1 基于多核学习的多模态分类器 68
6.2.2 实验结果 69
6.3 多模态特征选择 72
6.3.1 基于流形正则化多模态特征选择 72
6.3.2 实验结果 74
6.4 结论 76
参考文献 77
第7章 脑网络分析 79
7.1 脑网络分析概述 79
7.2 基于拓扑结构的结构化特征选择 81
7.2.1 方法的框架 81
7.2.2 Weisfei1er-Lehman子树核 82
7.2.3 特征提取 83
7.2.4 结构化特征选择 84
7.3 脑网络的判别性子图学习 86
7.3.1 判剔性子图 86
7.3.2 基于判别性子图的脑网络分类 88
7.3.3 进一步提高效果的方法 88
参考文献 89
第8章 数据挖掘在生物信息学中的应用 92
8.1 基于树型结构引导的稀疏学习方法在基因-影像关联分析中的应用 92
8.1.1 引言 92
8.1.2 方法 93
8.1.3 实验 96
8.1.4 结论 98
8.2 基于结构化ECOC的蛋白质图像亚细胞定位方法 98
8.2.1 引言 98
8.2.2 方法 100
8.2.3 实验 102
8.2.4 结论 104
参考文献 104
第9章 软件数据挖掘 106
9.1 软件数据挖掘概述 106
9.2 软件缺陷预测简介 106
9.2.1 概述 106
9.2.2 基于机器学习的静态软件缺陷预测 106
9.3 代价敏感特征选择在软件缺陷预测中的应用 108
9.3.1 双重代价敏感特征选择 108
9.3.2 代价敏感特征选择算法思想概述 110
9.3.3 CSVS特征选择算法 111
9.3.4 CSLS特征选择算法 112
9.3.5 CSCS特征选择算法 112
9.3.6 实验及结果分析 113
9.4 小结 117
参考文献 117
第10章 基于进化计算的数据挖掘 119
10.1 引言 119
10.2 进化计算 119
10.2.1 进化算法 119
10.2.2 多目标进化算法 120
10.3 数据挖掘中进化计算的应用 122
10.3.1 进化计算用于特征选择 122
10.3.2 进化计算用于分类 125
10.3.3 进化计算用于聚类分析 128
10.3.4进化计算用于规则发现 131
10.4 结束语 133
参考文献 134