本书从文本挖掘技术和数据分析技术出发,详细描述如何利用可视化开源数据挖掘平台RapidMiner完成商业智能的一些实践案例,包括网页信息采集、文本分类、文本聚类、文本摘要、关联分析、关联推荐、特征分析和热点分析等。依赖本书提供的知识和资源,读者不需要敲代码就可以实现上述商业智能的应用场景,掌握相关的文本挖掘和数据分析技术。
样章试读
目录
- 目录
前言
第1章 概述 1
1.1 数据挖掘 1
1.1.1 发展史 1
1.1.2 意义 2
1.1.3 常用方法 4
1.1.4 常用工具 10
1.2 文本挖掘 13
1.2.1 常用方法 13
1.2.2 常用工具 17
1.3 商业智能 20
1.3.1 方法论 21
1.3.2 常用工具 24
1.4 本章小结 27
参考文献 27
第2章 网页信息采集 28
2.1 信息采集原理 28
2.2 信息采集实现方法 30
2.2.1 爬取页面内容 31
2.2.2 抽取网页信息 32
2.2.3 正则表达式 34
2.3 搭建新闻信息采集系统 40
2.4 扩展知识 46
2.4.1 网络爬虫 46
2.4.2 网络数据抽取 51
2.5 本章小结 55
参考文献 56
第3章 文本分类 59
3.1 分类概念 59
3.1.1 相关术语 59
3.1.2 相关概念 61
3.2 传统分类方法 63
3.2.1 决策树 63
3.2.2 规则分类器 64
3.2.3 最近邻分类器 66
3.2.4 贝叶斯分类器 67
3.2.5 人工神经网络 69
3.2.6 支持向量机 71
3.3 分类评估 72
3.3.1 评估指标 73
3.3.2 评估方法 74
3.4 文本预处理方法 75
3.4.1 英文文本预处理 75
3.4.2 中文文本预处理 77
3.5 文本分类实践 78
3.5.1 英文文本分类实践 78
3.5.2 中文文本分类实践 82
3.6 扩展知识 85
3.7 本章小结 91
参考文献 91
第4章 文本聚类 95
4.1 聚类概念 95
4.1.1 自然簇的概念 96
4.1.2 簇的类型 97
4.1.3 聚类的类型 98
4.2 传统聚类方法 99
4.2.1 K均值聚类 99
4.2.2 层次聚类 103
4.2.3 DBSCAN 108
4.3 聚类评估 109
4.4 文本聚类实践 110
4.4.1 网页预处理 110
4.4.2 网页聚类 111
4.4.3 聚类评估 112
4.5 扩展知识 115
4.6 本章小结 120
参考文献 120
第5章 文本摘要 123
5.1 文本摘要原理 123
5.2 文本摘要方法 125
5.2.1 PageRank算法的原理与流程 125
5.2.2 PageRank算法在摘要中的应用 128
5.3 文本摘要质量评估 128
5.3.1 Edmundson评估 128
5.3.2 ROUGE评估 129
5.4 搭建新闻摘要系统 132
5.5 扩展知识 138
5.6 本章小结 147
参考文献 147
第6章 关联分析与推荐 152
6.1 关联分析概念 152
6.2 关联分析方法 153
6.2.1 直观方法 153
6.2.2 实用方法 154
6.2.3 频繁项集的产生 156
6.2.4 关联规则的产生 157
6.3 关联规则评估 160
6.4 购物篮分析与商品推荐实践 161
6.4.1 购物篮分析 162
6.4.2 商品推荐实践 165
6.5 扩展知识 169
6.6 本章小结 173
参考文献 173
第7章 网站日志分析 176
7.1 案例概述 176
7.2 商业理解 176
7.3 数据理解 178
7.4 数据整理 181
7.4.1 抽取访问事件和访问者信息 181
7.4.2 抽取用户访问行为信息 189
7.4.3 整合不同数据集 199
7.5 建模评估 202
7.5.1 导致购买行为的访问特征分析 203
7.5.2 影响购买产品风格的特征分析 206
7.5.3 基于访问事件群体购买偏好的推荐建模 211
7.6 模型应用 216
7.7 本章小结 220
参考文献 221
第8章 众筹项目分析 222
8.1 案例概述 222
8.2 商业理解 223
8.3 数据理解 224
8.4 数据整理 225
8.4.1 集成三个月的项目数据 226
8.4.2 从标签集中分离出省份和城市 241
8.4.3 构造项目成败分析表 245
8.4.4 构造筹款进度趋势分析表 247
8.5 建模评估 252
8.5.1 分析成功或失败的项目特征 253
8.5.2 分析筹款进度快慢的项目特征 260
8.5.3 基于词云图的项目热点分析 267
8.6 本章小结 272
参考文献 273