本书讨论基于决策树的集成,分析被视为当前现代集成算法高级性能的主要原因之一的正则化问题,描述集成方法领域近年来的两个发展——重要性采样(IS)和规则集成(RE),论述新数据信息集成在复杂性和更高精度方面的悖论等重要命题。全书面向前沿、文字简练、论述充分、可读性好。
样章试读
目录
- 目录
译者序
原书序一
原书序二
摘要
第1章集成发现1
1.1建立集成5
1.2正则化6
1.3现实世界中的实例:信用评分+网飞挑战7
1.4本书的组织架构8
第2章预测学习和决策树10
2.1决策树归纳纵览14
2.2决策树的性能16
2.3决策树的缺陷17
第3章模型复杂度?模型选择和正则化19
3.1什么是树的“合适”规模19
3.2偏差-方差分解20
3.3正则化23
3.3.1正则化与成本-复杂度树修剪23
3.3.2交叉验证24
3.3.3运用收缩的正则化26
3.3.4通过构建增量模型的正则化30
3.3.5实例31
3.3.6正则化综述34
第4章重要性采样和经典集成方法36
4.1重要性采样39
4.1.1参数重要性测度40
4.1.2扰动采样42
4.2泛化集成生成42
4.3Bagging44
4.3.1实例47
4.3.2为什么Bagging有用51
4.4随机森林51
4.5AdaBoost53
4.5.1实例54
4.5.2为什么使用指数损失56
4.5.3AdaBoost的总体最小值57
4.6梯度Boosting58
4.7MART59
4.8并行集成与顺序集成的比较59
第5章规则集成和解释统计61
5.1规则集成61
5.2解释63
5.2.1仿真数据实例64
5.2.2变量重要性68
5.2.3偏相关69
5.2.4交互统计70
5.3制造业数据实例70
5.4总结74
第6章集成复杂性75
6.1复杂性75
6.2广义自由度77
6.3实例:带有噪声的决策树表面78
6.4广义自由度的R代码和实例82
6.5总结与讨论83
参考文献85
附录AAdaBoost与FSF程序的等价性90
附录B梯度Boosting和鲁棒损失函数93