高扬《白话强化学习与PyTorch》PDF 源代码 - 《深度学习基础理论实战》

《白话强化学习与PyTorch》以“平民”的起点，从“零”开始，基于PyTorch框架，介绍深度学习和强化学习的技术与技巧，逐层铺垫，营造良好的带入感和亲近感，把学习曲线拉平，使得没有学过微积分等高级理论的程序员一样能够读得懂、学得会。同时配合漫画插图来调节阅读气氛，并对每个原理都进行了对比讲解和实例说明，非常适合入门强化学习的不错的书，娓娓道来，激发了我继续研究学习强化学习的兴趣。
高扬《白话强化学习与PyTorch》PDF+源代码
下载: https://pan.baidu.com/s/1izKKKcMZTTl6pnjUE1tNnw
提取码: mcy4
《白话强化学习与PyTorch》PDF，384页，有书签目录，文字可复制，高扬等著，配套源代码。

把“贯序决策”翻译成“白话”就是：强化学习希望机器人或者智能体在一个环境中，随着“时间的流逝”，不断地自我学习，并最终在这个环境中学到一套最为合理的行为策略。在这样一个完整的题设下，机器人应该尽可能在没有人干预的情况下，不断根据周围的环境变化学会并判断“在什么情况下怎么做才最好”，从而一步一步完成一个完整的任务。这样一系列针对不同情形的最合理的行为组合逻辑，才是一个完整的策略，而非一个简单而孤立的行为。

实际上，蒙特卡罗法的思想并不复杂。它所秉承的观点是这样的：因为我们没有办法开启“上帝视角”，所以，我们不知道各种状态转化的概率是多少。那么，我们能不能通过反复实验进行统计，当统计的次数足够多的时候，就用这个统计的转化概率的近似值来代替模型中相应的真实值呢？其实是可以的——“实践出真知”有了另一种解释。

PyTorch 也有很多自己的优势。PyTorch 代码简洁、直观，而且没有太多复杂的由第三方封装的接口，甚至在底层实现上也比TensorFlow“轻”——至少在同样的硬件环境和神经网络拓扑中，我几乎每次都能感觉到PyTorch 的运行速度要比TensorFlow 快一些。我相信，PyTorch 有着非常好的发展前景，毕竟TensorFlow、PyTorch、Theano、Chainer、Keras、Caffe 等深度学习框架经过角逐，人气最旺的是TensorFlow 和PyTorch。顺便说一句：如果不是因为Caffe 的安装太烦琐，我还是很爱它的……

强化学习的主要目的是研究并解决机器人智能体贯序决策问题。尽管我不喜欢直接把定义硬邦邦、冷冰冰地扔出来让大家被动接受，可还是免不了要在这里猛然给出“贯序决策”这么专业的词汇。好在，很快我就能通过例子把这个词汇给大家解释清楚了。既然大家要么是程序员，要么正走在程序员养成的路上，要么正看着其他人走在程序员养成的路上，那么，按照程序员的思维来理解强化学习将会更加顺畅。