特征约简是数据挖掘的一项基础性技术,其目的在于降低数据的维度和提取数据中的重要特征或特征组合。本书系统地阐述了特征变换、特征选择的基本原理、基本过程,介绍了针对连续型、类属型等不同类型数据的过滤型、封装型及嵌入型特征约简方法。着重讨论了近年兴起的软特征选择技术,以及嵌入自动特征约简的子空间聚类、子空间分类技术,并以实例的方式给出了不同方法在文档挖掘、信息安全以及生物信息学等领域的应用。
样章试读
目录
- 目录
前言
符号定义
第 1 章 概论 1
1.1 数据挖掘基础 1
1.2 数据挖掘模型 2
1.2.1 分类分析 4
1.2.2 聚类分析 5
1.2.3 关联分析 6
1.2.4 回归分析 6
1.3 维灾问题 7
1.3.1 数据挖掘中的特征 7
1.3.2 什么是维灾 9
1.3.3 如何应对维灾问题 11
1.4 特征约简及其应用 13
1.4.1 特征约简概述 13
1.4.2 特征约简的应用 15
1.5 关于数据类型 17
1.5.1 数值型数据 17
1.5.2 类属型数据 19
参考文献 20
第 2 章 特征约简技术 23
2.1 理论基础 23
2.2 主要技术 25
2.2.1 特征选择 26
2.2.2 特征变换 27
2.3 过滤型特征约简 30
2.4 封装型特征约简 32
2.5 嵌入型特征约简 35
参考文献 37
第 3 章 特征变换方法 41
3.1 特征变换的基本原理 41
3.2 SVD 41
3.3 PCA 43
3.3.1 PCA原理 43
3.3.2 主成分个数的选取 45
3.4 ICA 46
3.4.1 ICA 概念 46
3.4.2 ICA 估计原理 47
3.5 LDA 48
3.6 NMF 52
3.6.1 NMF 的基本思想 52
3.6.2 损失函数及迭代规则 53
3.7 非线性特征变换 54
3.8 主要特征变换方法对比 57
参考文献 60
第 4 章 特征选择方法 63
4.1 特征选择的基本原理 63
4.2 特征评价函数 65
4.2.1 无监督评价函数 65
4.2.2 有监督评价函数 68
4.2.3 信息度量 72
4.3 粗糙集方法 76
4.3.1 基本概念 76
4.3.2 差别矩阵法 77
4.3.3 启发式属性约简法 78
4.3.4 与其他软计算相结合的方法 79
4.3.5 基于粗糙集的入侵检测特征选择 81
4.4 特征组选择 85
4.5 层次特征选择及其应用 87
4.5.1 背景知识 87
4.5.2 恶意代码的层次特征选择 89
参考文献 92
第 5 章 自动特征选择技术 96
5.1 自动特征选择 96
5.2 子空间聚类 98
5.2.1 子空间类型 99
5.2.2 子空间簇类 101
5.3 主要技术 103
5.3.1 硬特征选择 103
5.3.2 软特征选择 107
5.3.3 类属型特征选择 117
5.4 嵌入型特征选择的概率模型方法 120
5.4.1 数值型数据的概率模型方法 120
5.4.2 类属型数据的概率模型方法 127
5.5 无中心聚类中的自动特征选择 135
5.5.1 属性加权的无中心聚类模型 136
5.5.2 软特征选择方法及分析 139
参考文献 142
第 6 章 子空间分类及其应用 146
6.1 分类挖掘概述 146
6.1.1 分类及分类挖掘过程 146
6.1.2 常用的分类方法 149
6.2 子空间分类技术 156
6.3 子空间贝叶斯分类及其应用 160
6.3.1 类属型数据子空间贝叶斯分类 162
6.3.2 数值型高维数据子空间贝叶斯分类 167
6.3.3 基因数据子空间分类应用 174
6.4 子空间近邻分类及其应用 176
6.4.1 特征加权的近邻分类 177
6.4.2 子空间原型分类 182
6.4.3 文档子空间分类 185
6.5 网络入侵检测中的特征约简 194
6.5.1 网络入侵检测数据 194
6.5.2 关键特征选择 196
6.5.3 特征选择结果及分析 198
参考文献 200