中图网

>

人工智能

深度强化学习:学术前沿与实战应用

作者：刘驰王占健马晓鑫等

出版社：机械工业出版社出版时间：2020-03-01

开本： 16开 页数： 388

本类榜单：计算机/网络销量榜

中图价:¥69.3(7.0折) 定价 ~~¥99.0~~ 登录后可看到会员价

加入购物车收藏

运费6元，满39元免运费

?新疆、西藏除外

本类五星书更多>

>
决战行测5000题(言语理解与表达)

决战行测5000题(言语理解与表达)

¥38.8¥88
>
软件性能测试.分析与调优实践之路

软件性能测试.分析与调优实践之路

¥49.3¥69
>
第一行代码Android

第一行代码Android

¥58.4¥99
>
深度学习

深度学习

¥92.4¥168
>
Unreal Engine 4蓝图完全学习教程

Unreal Engine 4蓝图完全学习教程

¥72.2¥168
>
深入理解计算机系统-原书第3版

深入理解计算机系统-原书第3版

¥104.3¥139
>
Word/Excel PPT 2013办公应用从入门到精通-(附赠1DVD.含语音视频教学+办公模板+PDF电子书)

Word/Excel PPT 2013办公应用从入门到精通-(附赠1DVD.含语音视频教学+办公模板+PDF电子书)

¥21¥49.9

商品详情
商品评论(0条)

中图价:¥69.3 加入购物车

版权信息
本书特色
内容简介
目录
作者简介

微信公众号

深度强化学习:学术前沿与实战应用版权信息

ISBN：9787111646648
条形码：9787111646648 ; 978-7-111-64664-8
装帧：平装-胶订
册数：暂无
重量：暂无
所属分类：
计算机/网络
>
人工智能

深度强化学习:学术前沿与实战应用本书特色

本书共分为四篇，即深度强化学习、多智能体深度强化学习、多任务深度强化学习和深度强化学习的应用。由浅入深、通俗易懂，涵盖经典算法和近几年的前沿技术进展。特别是书中详细介绍了每一种代表性算法的代码原型实现，旨在理论与实践相结合，让读者学有所得、学有所用。
*篇（包含第1～3章）主要讲解深度强化学习基础，侧重于单智能体强化学习算法，相对简单，有助于初级读者理解，同时涵盖了近几年的经典算法和一些前沿的研究成果。
第二篇（包含第4～5章）主要侧重于对多智能体深度强化学习的讲解，从多智能体强化学习基本概念到相关算法的讲解和分析，以多个极具代表性的算法为例带领读者逐步学习多智能体训练及控制的理论与方法。同时，还介绍了多智能体强化学习领域一些前沿学术成果。
第三篇（包含第6～7章）扩展到多任务场景，称为多任务深度强化学习。首先介绍了多任务强化学习的基本概念和相关基础知识，随后讲解了部分经典的多任务深度强化学习算法。
第四篇（包含第8～11章）主要讲解深度强化学习的实际应用，涉及游戏、机器人控制、计算机视觉和自然语言处理四大领域。通过领域应用中思想和方法的讲解，培养读者跨领域解决实际问题的能力，以帮助读者熟练掌握和使用深度强化学习这一强大的方法来解决和优化实际工程领域中的问题。

深度强化学习:学术前沿与实战应用内容简介

读者对象：1.从事AI理论研究的研究人员；2.高校智能方向的高年级本科生和研究生；3.工业界做AI应用的机器学习工程师、算法工程师等。 1.作者资深。本书由北京理工大学刘驰教授团队撰写； 2.直奔主题，理论结合实践。详解单智能体、多智能体深度强化学习和分布式、多任务深度强化学习相关算法，深入解读每种算法的代码原型实现； 3.领域应用分析：给出深度强化学习在游戏、机器人控制、计算机视觉和自然语言处理四大领域的实际应用，侧重讨论深度强化学习在不同领域应用的思想和方法； 4.前沿经典综述：详述近五年深度强化学习领域的重要进展，涵盖新的算法理论、工程实现和领域应用，从基础到算法，再到典型应用场景。

深度强化学习:学术前沿与实战应用目录

前言
数学符号
**篇　深度强化学习
第1章　深度强化学习基础 2
1.1　强化学习 2
1.1.1　强化学习的发展历史 2
1.1.2　强化学习简介 4
1.1.3　深度强化学习简介 6
1.2　马尔可夫属性和决策过程 9
1.2.1　马尔可夫属性 9
1.2.2　马尔可夫决策过程 11
1.3　强化学习核心概念 12
1.3.1　值函数 12
1.3.2　动态规划 14
1.3.3　时间（序）差分 15
1.3.4　策略梯度 16
1.3.5　actor-critic方法 17
1.4　Q-learning 18
1.4.1　Q-learning简介 18
1.4.2　算法 19
1.4.3　相关变量及影响 20
1.4.4　实现方法 21
第2章　深度强化学习算法 22
2.1　基于值的深度强化学习算法 22
2.1.1　深度Q网络 22
2.1.2　深度双Q网络 27
2.1.3　竞争网络架构 31
2.1.4　平均值DQN 33
2.1.5　多DQN变种结合体：Rainbow 37
2.1.6　基于动作排除的DQN 42
2.2　基于策略的深度强化学习算法 46
2.2.1　循环确定性策略梯度 46
2.2.2　深度确定性策略梯度 55
2.2.3　信赖域策略优化 62
2.2.4　近端策略优化 68
2.3　基于模型的深度强化学习算法 73
2.3.1　基于模型加速的连续深度Q-learning 73
2.3.2　范例模型探索 80
2.3.3　基于模型集成的信赖域策略优化 88
2.3.4　时间差分模型 95
2.4　基于分层的深度强化学习算法 102
2.4.1　分层深度强化学习 102
2.4.2　基于封建网络的分层强化学习 109
2.4.3　基于随机神经网络的分层强化学习 116
第3章　分布式深度强化学习 123
3.1　分布式系统 123
3.1.1　分布式系统简介 123
3.1.2　分布式系统的发展历史 124
3.1.3　架构演进 125
3.1.4　主流分布式系统框架 128
3.2　分布式深度强化学习算法 129
3.2.1　分布式近端策略优化 129
3.2.2　分布式深度确定性策略梯度 138
3.3　分布式深度强化学习框架 145
3.3.1　重要性加权Actor-Learner架构 145
3.3.2　分布式优先经验复用池 153
第二篇　多智能体深度强化学习
第4章　多智能体深度强化学习基础 162
4.1　多智能体强化学习 162
4.1.1　多智能体强化学习发展历史 162
4.1.2　多智能体强化学习简介 164
4.1.3　优势和挑战 166
4.2　部分可见马尔可夫决策过程 166
4.2.1　POMDP模型 166
4.2.2　POMDP相关研究 169
4.2.3　POMDP应用领域 170
第5章　多智能体深度强化学习算法 171
5.1　基于值函数的多智能体深度强化学习 171
5.1.1　基于DQN的多智能体网络 171
5.1.2　增强智能体间学习 174
5.1.3　协同多智能体学习的价值分解网络 178
5.1.4　多智能体深度强化学习的稳定经验复用池 182
5.1.5　单调值函数分解 187
5.1.6　深度强化学习中的对立智能体建模 190
5.1.7　平均场多智能体强化学习 193
5.2　基于策略的多智能体深度强化学习 197
5.2.1　基于自身策略的其他智能体行为预测 197
5.2.2　双重平均方案 201
5.2.3　多智能体深度强化学习的统一博弈论方法 208
5.3　基于AC框架的多智能体深度强化学习 212
5.3.1　多智能体深度确定性策略梯度 212
5.3.2　多智能体集中规划的价值函数策略梯度 220
5.3.3　多智能体系统的策略表示学习 227
5.3.4　部分可观察环境下的多智能体策略优化 231
5.3.5　基于联网智能体的完全去中心化MARL 236
第三篇　多任务深度强化学习
第6章　多任务深度强化学习基础 244
6.1　简介 244
6.1.1　理论概述 244
6.1.2　面临的挑战 247
6.2　策略蒸馏法 248
第7章　多任务深度强化学习算法 253
7.1　无监督强化与辅助学习 253
7.1.1　算法介绍 253
7.1.2　算法分析 255
7.1.3　使用场景与优势分析 261
7.2　使用渐进式神经网络解决任务的复杂序列 262
7.2.1　算法介绍 262
7.2.2　算法分析 262
7.2.3　使用场景与优势分析 266
7.3　基于单智能体的多任务共享模型 267
7.3.1　算法介绍 267
7.3.2　算法分析 268
7.3.3　使用场景与优势分析 272
7.4　使用PopArt归一化多任务更新幅度 273
7.4.1　算法介绍 273
7.4.2　算法分析 274
7.4.3　使用场景与优势分析 276
第四篇　深度强化学习的应用
第8章　游戏 278
8.1　Gym Retro游戏平台 278
8.1.1　平台简介 278
8.1.2　安装Gym Retro平台 281
8.1.3　安装Retro UI 282
8.1.4　Gym Retro主要函数说明 283
8.2　相关应用 285
8.2.1　Pong游戏 285
8.2.2　CartPole 291
8.2.3　Flappy Bird 298
8.2.4　Gradius 302
第9章　机器人控制 312
9.1　机器人导航 312
9.1.1　无地图导航 312
9.1.2　社会感知机器人导航 316
9.2　路径规划 321
9.3　机器人视觉 324
第10章　计算机视觉 327
10.1　图像 327
10.1.1　图像字幕 327
10.1.2　图像恢复 332
10.2　视频 337
10.2.1　视频字幕 337
10.2.2　视频快进 345
10.2.3　视觉跟踪 348
第11章　自然语言处理 354
11.1　与知识库交互的多轮对话智能体 354
11.1.1　概率KB查找 355
11.1.2　端到端KB-InfoBot 356
11.1.3　总结 359
11.2　鲁棒远程监督关系提取 359
11.2.1　问题表述 360
11.2.2　使用基于策略的智能体重新分配训练数据集 363
11.2.3　总结 363
11.3　非成对情感–情感翻译 363
11.3.1　问题表述 363
11.3.2　训练算法 366
11.3.3　总结 367
缩写参照表 368
常用词中英文对照 371
参考文献 374

展开全部

深度强化学习:学术前沿与实战应用作者简介

刘驰刘驰北京理工大学计算机学院副院长、教授、博士生导师，英国工程技术学会会士（IET Fellow），IEEE高级会员（IEEE Senior Member）。分别于清华大学和英国帝国理工学院获得学士和博士学位，曾任美国IBM T.J. Watson研究中心和IBM中国研究院研究主管，并在德国电信研究总院（柏林）任博士后研究员。研究方向为大数据与物联网技术。主持了国家自然科学基金、国家重点研发计划课题、工信部、教育部、装发预研等20余省部级研究项目。共发表SCI/EI论文百余篇，其中ESI高被引论文2篇、CCF-A类论文20余篇，授权国内外发明专利14项，编写书籍9本，Google Scholar索引3500余次，H index为28。现任国家自然科学基金会评专家、科技部重点研发计划会评专家、教育部科技奖评审专家、全国信标委技术委员会委员、中国电子学会理事、中国计算机学会青工委委员、中国计算机学会物联网/大数据/普适计算专委会委员、中国电子学会物联网专委会委员/副秘书长、中国自动化学会大数据专委会委员、中国通信学会物联网专委会委员等；以及IEEE Transactions on Network Science and Engineering编委、IEEE ICC 2020 Symposium Chair for Next Generation Networking。入选了国家人社部“高层次留学人才回国资助计划”、中国科协“青年人才托举工程”、陕西省第八批“百人计划（短期项目）”、中国产学研合作促进奖、中国电子学会科技工作者、国家“十二五”轻工业科技创新先进个人、2017年中国物联网年度人物等。并获得省部级一等奖1项、二等奖1项、三等奖1项。

商品评论(0条)

写书评赚书币

暂无评论……

书友推荐

>
伯纳黛特,你要去哪(2021新版)
伯纳黛特,你要去哪(2021新版)
[美] 玛利亚·森普尔著，何雨珈译
¥24.9~~¥49.8~~
>
罗曼·罗兰读书随笔-精装
罗曼·罗兰读书随笔-精装
[法]罗曼·罗兰著,郑克鲁译
¥24.9~~¥58.0~~
>
我从未如此眷恋人间
我从未如此眷恋人间
史铁生/汪曾祺
¥19.0~~¥49.8~~
>
新文学天穹两巨星--鲁迅与胡适/红烛学术丛书(红烛学术丛书)
新文学天穹两巨星--鲁迅与胡适/红烛学术丛书(红烛学术丛书)
易竹贤
¥9.9~~¥23.0~~
>
我与地坛
我与地坛
史铁生
¥16.8~~¥28.0~~
>
史学评论
史学评论
杨玉圣
¥23.1~~¥42.0~~
>
伊索寓言-世界文学名著典藏-全译本
伊索寓言-世界文学名著典藏-全译本
[古希腊] 伊索著，陈韵如译
¥6.1~~¥19.0~~
>
小考拉的故事-套装共3册
小考拉的故事-套装共3册
[澳] 多萝西·沃尔著，崔育平译
¥36.7~~¥68.0~~