中图网

>

计算机理论

强化学习:原理与Python实战

作者：肖智清

出版社：机械工业出版社出版时间：2023-08-01

开本： 16开 页数： 490

本类榜单：计算机/网络销量榜

中图价:¥100.6(7.8折) 定价 ~~¥129.0~~ 登录后可看到会员价

加入购物车收藏

运费6元，满69元免运费

?快递不能达地区使用邮政小包，运费14元起

云南、广西、海南、新疆、青海、西藏六省，部分地区快递不可达

本类五星书更多>

>
全国计算机等级考试最新真考题库模拟考场及详解·二级MSOffice高级应用

全国计算机等级考试最新真考题库模拟考场及详解·二级MSOffice高级应用

¥11.3¥45
>
决战行测5000题(言语理解与表达)

决战行测5000题(言语理解与表达)

¥28.2¥88
>
软件性能测试.分析与调优实践之路

软件性能测试.分析与调优实践之路

¥55.2¥69
>
第一行代码Android

第一行代码Android

¥76.2¥99
>
C Primer Plus 第6版中文版

C Primer Plus 第6版中文版

¥75.6¥108
>
深度学习

深度学习

¥82.3¥168
>
MATLAB计算机视觉与深度学习实战-赠在线交流卡和本书源码

MATLAB计算机视觉与深度学习实战-赠在线交流卡和本书源码

¥43.5¥79

商品详情
商品评论(0条)

中图价:¥100.6 加入购物车

版权信息
本书特色
内容简介
目录
作者简介

微信公众号

强化学习:原理与Python实战版权信息

ISBN：9787111728917
条形码：9787111728917 ; 978-7-111-72891-7
装帧：平装-胶订
册数：暂无
重量：暂无
所属分类：
计算机/网络
>
计算机理论

强化学习:原理与Python实战本书特色

携七大优势，带你一书学透强化学习，掌握ChatGPT背后的关键技术。
1）内容完备：完整地介绍了主流强化学习理论，全面覆盖主流强化学习算法，包括了资格迹等经典算法和MuZero等深度强化学习算法，且给出主要定理的证明过程。让你参透ChatGPT背后的关键技术。
2）表述一致：全书采用统一的数学符号，并兼容主流强化学习教程。
3）配套丰富：每章都配有知识点总结、代码和习题。
4）环境全面：既有Gym的内置环境，也有在Gym基础上进一步扩展的第三方环境，还带领读者一起实现了自定义的环境。
5）兼容广泛：所有代码均可在Windows、macOS、Linux上运行，提供安装和配置方法。同时，为深度强化学习相关算法提供了TensorFlow和PyTorch的对照实现，学习方案任你选择。
6）硬件要求低：所有代码均可在没有GPU的个人计算机上运行，也可以在线查阅运行结果。
7）版权输出：本书内容受到国际知名出版社Springer和评审专家认可，英文版同步输出，以飨读者。

强化学习:原理与Python实战内容简介

本书从原理和实战两个方面介绍了强化学习。原理方面，深入介绍了主流强化学习理论和算法，覆盖资格迹等经典算法和MuZero等深度强化学习算法；实战方面，每章都配套了编程案例，以方便读者学习。全书从逻辑上分为三部分。第1章：从零开始介绍强化学习的背景知识，介绍环境库Gym的使用。第2～15章：基于折扣奖励离散时间Markov决策过程模型，介绍强化学习的主干理论和常见算法。采用数学语言推导强化学习的基础理论，进而在理论的基础上讲解算法，并为算法提供配套代码实现。基础理论的讲解突出主干部分，算法讲解全面覆盖主流的强化学习算法，包括经典的非深度强化学习算法和近年流行的强化学习算法。Python实现和算法讲解一一对应，还给出了深度强化学习算法的TensorFlow和PyTorch对照实现。第16章：介绍其他强化学习模型，包括平均奖励模型、连续时间模型、非齐次模型、半Markov模型、部分可观测模型等，以便更好了解强化学习研究的全貌。

强化学习:原理与Python实战目录

目录
数学符号表
前言
第1章初识强化学习111强化学习及其关键元素1
1．2强化学习的应用3
1．3智能体/环境接口4
1．4强化学习的分类6
1．4．1按任务分类6
1．4．2按算法分类8
1．5强化学习算法的性能指标9
1．6案例：基于Gym库的智能体/环境接口10
1．6．1安装Gym库11
1．6．2使用Gym库11
1．6．3小车上山13
1．7本章小结18
1．8练习与模拟面试19
第2章Markov决策过程2121Markov决策过程模型21
2．1．1离散时间Markov决策过程21
2．1．2环境与动力24
2．1．3策略26
2．1．4带折扣的回报26
2．2价值27
2．2．1价值的定义28
2．2．2价值的性质28
2．2．3策略的偏序和改进34
2．3带折扣的分布35
2．3．1带折扣的分布的定义35
2．3．2带折扣的分布的性质37
2．3．3带折扣的分布和策略的等价性39
2．3．4带折扣的分布下的期望40
2．4*优策略与*优价值41
2．4．1从*优策略到*优价值41
2．4．2*优策略的存在性42
2．4．3*优价值的性质与Bellman
*优方程43
2．4．4用线性规划法求解*优价值48
2．4．5用*优价值求解*优策略51
2．5案例：悬崖寻路52
2．5．1使用环境52
2．5．2求解策略价值53
2．5．3求解*优价值54
2．5．4求解*优策略55
2．6本章小结55
2．7练习与模拟面试57
第3章有模型数值迭代5931Bellman算子及其性质59
3．2有模型策略迭代64
3．2．1策略评估65
3．2．2策略改进66
3．2．3策略迭代67
3．3价值迭代68
3．4自益与动态规划69
3．5案例：冰面滑行70
3．5．1使用环境71
3．5．2有模型策略迭代求解73
3．5．3有模型价值迭代求解76
3．6本章小结76
3．7练习与模拟面试77
第4章回合更新价值迭代78
4．1同策回合更新79
4．1．1同策回合更新策略评估79
4．1．2带起始探索的同策回合更新84
4．1．3基于柔性策略的同策回合更新86
4．2异策回合更新89
4．2．1重要性采样89
4．2．2异策回合更新策略评估92
4．2．3异策回合更新*优策略求解93
4．3实验：21点游戏94
4．3．1使用环境94
4．3．2同策策略评估96
4．3．3同策*优策略求解98
4．3．4异策策略评估101
4．3．5异策*优策略求解102
4．4本章小结103
4、5练习与模拟面试104
第5章时序差分价值迭代10651时序差分目标106
5．2同策时序差分更新109
5．2．1时序差分更新策略评估109
5．2．2SARSA算法113
5．2．3期望SARSA算法115
5．3异策时序差分更新117
5．3．1基于重要性采样的异策算法117
5．3．2Q学习119
5．3．3双重Q学习120
5．4资格迹121
5．4．1λ回报122
5．4．2TD(λ)算法123
5．5案例：的士调度125
5．5．1使用环境126
5．5．2同策时序差分学习127
5．5．3异策时序差分学习130
5．5．4资格迹学习132
56本章小结134
57练习与模拟面试135
第6章函数近似方法137
6.1函数近似原理138
6.2基于梯度的参数更新139
6.2．1随机梯度下降139
6.2．2半梯度下降141
6.2．3带资格迹的半梯度下降142
6．3函数近似的收敛性144
6．3．1收敛的条件144
6．3．2Baird反例145
6．4深度Q网络147
6．4．1经验回放148
6．4．2目标网络151
6．4．3双重深度Q网络152
6．4．4决斗深度Q网络153
6．5案例：小车上山154
6．5．1使用环境155
6．5．2用线性近似求解*优策略156
6.5.3用深度Q网络求解*优策略161
6.6本章小结172
6.7练习与模拟面试172
第7章回合更新策略梯度方法17471策略梯度算法的原理174
7.1.1函数近似策略174
7.1.2策略梯度定理175
7.1.3策略梯度和极大似然估计的关系179
7.2同策回合更新策略梯度算法179
7.2.1简单的策略梯度算法180
7.2.2带基线的简单策略梯度算法180
7.3异策回合更新策略梯度算法182
7.4案例：车杆平衡183
7.4.1用同策策略梯度算法求解*优策略184
7.4.2用异策策略梯度算法求解*优策略189
7.5本章小结195
7.6练习与模拟面试196
第8章执行者/评论者197
8.1执行者/评论者方法197
8.2同策执行者/评论者算法198
8.2.1动作价值执行者/评论者算法198
8.2.2优势执行者/评论者算法199
8.2.3带资格迹的执行者/评论者算法200
8.3基于代理优势的同策算法201
8.3.1性能差别引理201
8.3.2代理优势202
8.3.3邻近策略优化203
8.4自然梯度和信赖域算法205
8.4.1KL散度与Fisher信息矩阵206
8.4.2代理优势的信赖域208
8.4.3自然策略梯度算法209
8.4.4信赖域策略优化212
8.5重要性采样异策执行者/评论者算法213
8.6案例：双节倒立摆214
8.6.1用同策执行者/评论者算法求解*优策略216
8.6.2用基于代理优势的同策算法求解*优策略226
8.6.3用自然策略梯度和信赖域算法求解*优策略230
8.6.4用重要性采样异策执行者/评论者算法求解*优策略242
8.7本章小结246
8.8练习与模拟面试247
第9章连续动作空间的确定性策略248
9.1确定性策略梯度定理248
9.2同策确定性算法250
9.3异策确定性算法251
9.3.1基本的异策确定性执行者/评论者算法251
9.3.2深度确定性策略梯度算法253
9.3.3双重延迟深度确定性策略梯度算法254
9.4探索过程255
9.5案例：倒立摆的控制256
9.5.1用深

展开全部

强化学习:原理与Python实战作者简介

肖智清强化学习一线研发人员，清华大学工学博士。在国内外出版多本人工智能专著，在知名期刊和会议上发表多篇第一作者论文。他是开源项目Gym的源码贡献者，并在国内外多项程序设计和数据科学竞赛上获得冠军。

商品评论(0条)

写书评赚书币

暂无评论……

书友推荐

>
苦雨斋序跋文-周作人自编集
苦雨斋序跋文-周作人自编集
周作人著，止庵校订
¥6.9~~¥16.0~~
>
大红狗在马戏团-大红狗克里弗-助人
大红狗在马戏团-大红狗克里弗-助人
[美] 诺尔曼·伯德韦尔著，杜可名译
¥3.9~~¥10.0~~
>
月亮与六便士
月亮与六便士
[英]毛姆著,胡曦译
¥13.4~~¥42.0~~
>
小考拉的故事-套装共3册
小考拉的故事-套装共3册
[澳] 多萝西·沃尔著，崔育平译
¥36.7~~¥68.0~~
>
名家带你读鲁迅:朝花夕拾
名家带你读鲁迅:朝花夕拾
鲁迅著，陈漱渝主编
¥10.5~~¥21.0~~
>
我从未如此眷恋人间
我从未如此眷恋人间
史铁生/汪曾祺
¥16.4~~¥49.8~~
>
史学评论
史学评论
杨玉圣
¥17.2~~¥42.0~~
>
龙榆生：词曲概论/大家小书
龙榆生：词曲概论/大家小书
龙榆生
¥9.1~~¥24.0~~

本类畅销

数学之美

吴军著

¥48.3~~¥69~~
浪潮之巅-下册-第二版

吴军

¥22.1~~¥45~~
挑战程序设计竞赛(第2版)

秋叶拓哉，岩田阳一，北川宜稔　编，巫泽俊，庄俊元，李津羽　译

¥55.3~~¥79~~
算法竞赛入门经典-(第2版)

刘汝佳

¥34.9~~¥49.8~~
2022图书×抽奖盲袋

¥9.9~~¥25~~
2023读书月阅读盲盒——天黑，闭眼，刀谁？

中图网

¥42.3~~¥158~~

强化学习:原理与Python实战

强化学习:原理与Python实战版权信息

强化学习:原理与Python实战本书特色

强化学习:原理与Python实战内容简介

强化学习:原理与Python实战目录

强化学习:原理与Python实战作者简介

苦雨斋序跋文-周作人自编集

大红狗在马戏团-大红狗克里弗-助人

月亮与六便士

小考拉的故事-套装共3册

名家带你读鲁迅:朝花夕拾

我从未如此眷恋人间

史学评论

龙榆生：词曲概论/大家小书

数学之美

浪潮之巅-下册-第二版

挑战程序设计竞赛(第2版)

算法竞赛入门经典-(第2版)

2022图书×抽奖盲袋

2023读书月阅读盲盒——天黑，闭眼，刀谁？

时间停止的那一天

上海滩的贾斯汀·比伯

女孩们

熊千佳昆虫记

百年梦忆－梁实秋人生自述

朱仙镇年画:七日谈

强化学习:原理与Python实战

强化学习:原理与Python实战 版权信息

强化学习:原理与Python实战 本书特色

强化学习:原理与Python实战 内容简介

强化学习:原理与Python实战 目录

强化学习:原理与Python实战 作者简介

强化学习:原理与Python实战版权信息

强化学习:原理与Python实战本书特色

强化学习:原理与Python实战内容简介

强化学习:原理与Python实战目录

强化学习:原理与Python实战作者简介