0去购物车结算
购物车中还没有商品,赶紧选购吧!
当前位置: 图书分类 > 信息技术 > 软件开发与程序设计 > 强化学习原理及其应用

相同语种的商品

浏览历史

强化学习原理及其应用


联系编辑
 
标题:
 
内容:
 
联系方式:
 
  
强化学习原理及其应用
  • 书号:9787030406408
    作者:王雪松,朱美强,程玉虎
  • 外文书名:
  • 装帧:平装
    开本:B5
  • 页数:253
    字数:320000
    语种:zh-Hans
  • 出版社:科学出版社
    出版时间:2014-06-01
  • 所属分类:G79 自学
  • 定价: ¥89.00元
    售价: ¥70.31元
  • 图书介质:
    纸质书

  • 购买数量: 件  可供
  • 商品总价:

相同系列
全选

内容介绍

样章试读

用户评论

全部咨询

作为一类求解序贯优化决策问题的有效方法,强化学习在运筹学、计算科学和自动控制等领域得到广泛应用,业已成为机器学习领域最活跃的研究分支之一。
  现阶段,强化学习研究的核心问题是如何解决维数灾难,提高学习效率。本书的主要内容正是针对上述问题展开的,分别从值函数逼近、直接策略搜索和基于谱方法的学习3个方面来阐述强化学习的理论、方法及其应用,共13章。第1章~第2章为强化学习概述和相关基础理论。第3章~第5章为基于值函数估计的强化学习方法,包括基于支持向量机、测地高斯基的强化学习和基于抽象状态的贝叶斯强化学习。第6章~第9章为直接策略搜索强化学习方法,包括基于增量最小二乘时间差分的Actor-Critic学习、融合经验数据的Actor-Critic强化学习、基于资格迹的折扣回报型增量自然Actor-Critic学习和基于参数探索的期望最大策略搜索。第10章~第13章为基于谱方法的强化学习研究,包括基于拉普拉斯特征映射的启发式策略选择、Dyna规划和迁移研究。为便于应用本书阐述的算法,书后附有部分强化学习算法MATLAB源程序。
样章试读
  • 暂时还没有任何用户评论
总计 0 个记录,共 1 页。 第一页 上一页 下一页 最末页

全部咨询(共0条问答)

  • 暂时还没有任何用户咨询内容
总计 0 个记录,共 1 页。 第一页 上一页 下一页 最末页
用户名: 匿名用户
E-mail:
咨询内容:

目录

  • 目录
    《智能科学技术著作丛书》序

    前言
    第1章 强化学习概述 1
    1.1 强化学习模型及其基本要素 2
    1.1.1 强化学习模型 2
    1.1.2 强化学习基本要素 3
    1.2 强化学习的发展历史 5
    1.2.1 试错学习 5
    1.2.2 动态规划与最优控制 6
    1.2.3 时间差分学习 7
    1.3 强化学习研究概述 7
    1.3.1 分层强化学习研究现状 8
    1.3.2 近似强化学习研究现状 10
    1.3.3 启发式回报函数设计研究现状 15
    1.3.4 探索和利用平衡研究现状 16
    1.3.5 基于谱图理论的强化学习研究现状 17
    1.4 强化学习方法的应用 19
    1.4.1 自适应优化控制中的应用 19
    1.4.2 调度管理中的应用 22
    1.4.3 人工智能问题求解中的应用 22
    1.5 本书主要内容及安排 23
    参考文献 25
    第2章 强化学习基础理论 41
    2.1 马尔科夫决策过程概述 41
    2.1.1 马尔科夫决策过程 41
    2.1.2 策略和值函数 42
    2.2 基于模型的动态规划方法 44
    2.2.1 线性规划 45
    2.2.2 策略迭代 45
    2.2.3 值迭代 46
    2.2.4 广义策略迭代 47
    2.3 模型未知的强化学习 48
    2.3.1 强化学习基础 48
    2.3.2 蒙特卡罗法 49
    2.3.3 时间差分TD法 54
    2.3.4 Q学习与SARSA学习 56
    2.3.5 Dyna学习框架 57
    2.3.6 直接策略方法 59
    2.3 7 Actor-Critic学习 60
    2.4 近似强化学习 61
    2.4.1 带值函数逼近的TD学习 61
    2.4.2 近似值迭代 63
    2.4.3 近似策略迭代 65
    2.4.4 最小二乘策略迭代 66
    2.5 本章小结 68
    参考文献 68
    第3章 基于支持向量机的强化学习 71
    3.1 支持向量机原理 71
    3.1.1 机器学习 72
    3.1.2 核学习 73
    3.1.3 SVM的思想 74
    3.1.4 SVM的重要概念 74
    3.2 基于半参数支持向量机的强化学习 75
    3.2.1 基于半参数回归模型的Q学习结构 76
    3.2.2 半参数回归模型的学习 78
    3.2.3 仿真研究 79
    3.3 基于概率型支持向量机的强化学习 82
    3.3.1 基于概率型支持向量机分类机的Q学习 82
    3.3.2 概率型支持向量分类机 83
    3.3.3 仿真研究 85
    3.4 本章小结 88
    参考文献 88
    第4章 基于状态-动作图测地高斯基的策略迭代强化学习 90
    4.1 强化学习中的基函数选择 90
    4.2 基于状态动作图测地高斯基的策略迭代 91
    4.2.1 MDP的状态动作空间图 92
    4.2.2 状态动作图上测地高斯核 93
    4.2.3 基于状态动作图测地高斯基的动作值函数逼近 94
    4.3 算法步骤 95
    4.4 仿真研究 96
    4.5 本章小结 104
    参考文献 104
    第5章 基于抽象状态的贝叶斯强化学习电梯群组调度 106
    5.1 电梯群组调度强化学习模型 107
    5.2 基于抽象状态的贝叶斯强化学习电梯群组调度 108
    5.2.1 状态空间抽象 109
    5.2.2 强化学习系统的回报函数 110
    5.2.3 贝叶斯网推断 110
    5.2.4 状态动作值函数的神经网络逼近 111
    5.2.5 动作选择策略 112
    5.3 仿真研究 112
    5.4 本章小结 115
    参考文献 115
    第6章 基于增量最小二乘时间差分的Actor-Critic学习 117
    6.1 策略梯度理论 118
    6.2 基于常规梯度的增量式Actor-Critic学习 120
    6.3 基于iLSTD(λ)的Actor-Critic学习 121
    6.4 仿真研究 123
    6.5 本章小结 126
    参考文献 126
    第7章 融合经验数据的Actor-Critic强化学习 128
    7.1 增量式Actor-Critic学习算法的数据有效性改进 128
    7.1.1 基于RLSTD(λ)或iLSTD(λ)的增量式Actor-Critic学习 130
    7.1.2 算法步骤 132
    7.1.3 仿真研究 133
    7.2 基于自适应重要采样的Actor-Critic学习 140
    7.2.1 基于最小二乘时间差分的Actor-Critic强化学习 141
    7.2.2 基于重要采样的估计 143
    7.2.3 基于自适应重要采样的估计 145
    7.2.4 算法步骤 147
    7.2.5 仿真研究 147
    7.3 本章小结 150
    参考文献 151
    第8章 基于资格迹的折扣回报型增量自然Actor-Critic学习 153
    8.1 自然梯度 154
    8.2 自然策略梯度的估计方法 155
    8.2.1 基于Fisher信息矩阵的自然策略梯度 155
    8.2.2 基于兼容函数逼近器的自然策略梯度 156
    8.2.3 自然策略梯度的仿真 157
    8.2.4 自然策略梯度的特性 158
    8.3 基于资格迹的折扣回报型增量自然Actor-Critic学习 158
    8.4 仿真研究 161
    8.5 本章小结 164
    参考文献 165
    第9章 基于参数探索的EM策略搜索 166
    9.1 策略搜索强化学习方法分析 166
    9.2 期望最大化策略搜索强化学习 167
    9.3 基于参数探索的EM策略搜索学习 169
    9.4 算法步骤 171
    9.5 仿真研究 172
    9.5.1 小球平衡问题 172
    9.5.2 倒立摆平衡问题 175
    9.6 本章小结 177
    参考文献 178
    第10章 基于谱图理论的强化学习基础 180
    10.1 谱图理论与谱图分割 180
    10.1.1 谱图理论与谱方法 180
    10.1.2 谱图分割和谱聚类 181
    10.2 基于谱图理论的流形和距离度量学习 183
    10.2.1 流形学习概述 183
    10.2.2 基于流形学习的度量学习 183
    10.3 基于拉普拉斯特征映射法的强化学习 185
    10.3.1 拉普拉斯特征映射法基础 185
    10.3.2 基于拉普拉斯特征映射的强化学习 186
    10.4 基于拉普拉斯特征映射的强化学习分析 190
    10.5 本章小结 191
    参考文献 191
    第11章 基于拉普拉斯特征映射的启发式策略选择 194
    11.1 探索和利用平衡问题概述 194
    11.2 启发式策略选择原理 195
    11.3 基于拉普拉斯特征映射的启发式策略选择 196
    11.3.1 基本思想 196
    11.3.2 基于拉普拉斯特征映射的启发式Q学习 197
    11.4 算法步骤、计算复杂度和适用范围 202
    11.4.1 算法主要步骤 202
    11.4.2 计算复杂度 202
    11.4.3 适用范围 203
    11.5 仿真研究 203
    11.5.1 5房间格子世界 203
    11.5.2 对称4房间格子世界 205
    11.6 本章小结 206
    参考文献 206
    第12章 基于拉普拉斯特征映射的Dyna规划 208
    12.1 强化学习在移动机器人自主导航中的应用研究概述 208
    12.2 强化学习在井下救援机器人导航中的应用研究 209
    12.3 基于拉普拉斯特征映射的Dyna_Q算法 210
    12.3.1 Dyna_Q的基本思想 210
    12.3.2 基于谱图理论的优先级机制 211
    12.3.3 算法步骤 212
    12.3.4 计算复杂度分析和适用范围 212
    12.4 仿真结果及分析 212
    12.4.1 5房间格子地图 213
    12.4.2 对称4房间格子地图 213
    12.4.3 9房间格子地图 214
    12.5 本章小结 215
    参考文献 215
    第13章 基于谱方法的强化学习迁移研究 217
    13.1 基于谱图理论的强化学习迁移 217
    13.1.1 强化学习迁移概述 217
    13.1.2 基于谱图理论的强化学习迁移分析 219
    13.2 基于谱图理论的Option自动生成研究 220
    13.2.1 Option原理 220
    13.2.2 基于谱图分割的Option自动生成算法概述 221
    13.2.3 虚拟值函数法 222
    13.3 基于谱图理论的强化学习混合迁移方法 226
    13.3.1 基函数的线性插值 226
    13.3.2 迁移基函数的逼近能力 227
    13.3.3 基函数与子任务策略的混合迁移 230
    13.4 算法步骤和适用范围 231
    13.4.1 算法步骤 231
    13.4.2 适用范围 232
    13.5 仿真实验与分析 232
    13.5.1 地图不变迁移 233
    13.5.2 地图比例放大迁移 233
    13.5.3 实验结果统计分析 235
    13.6 本章小结 237
    参考文献 237
    附录 240
帮助中心
公司简介
联系我们
常见问题
新手上路
发票制度
积分说明
购物指南
配送方式
配送时间及费用
配送查询说明
配送范围
快递查询
售后服务
退换货说明
退换货流程
投诉或建议
版权声明
经营资质
营业执照
出版社经营许可证