《白话强化学习与PyTorch》以“平民”的起点,从“零”开始,基于PyTorch框架,介绍深度学习和强化学习的技术与技巧,逐层铺垫,营造良好的带入感和亲近感,把学习曲线拉平,使得没有学过微积分等高级理论的程序员一样能够读得懂、学得会。同时配合漫画插图来调节阅读气氛,并对每个原理都进行了对比讲解和实例说明,非常适合入门强化学习的不错的书,娓娓道来,激发了我继续研究学习强化学习的兴趣。
高扬《白话强化学习与PyTorch》PDF+源代码
下载: https://pan.baidu.com/s/1izKKKcMZTTl6pnjUE1tNnw
提取码: mcy4
《白话强化学习与PyTorch》PDF,384页,有书签目录,文字可复制,高扬等著,配套源代码。
把“贯序决策”翻译成“白话”就是:强化学习希望机器人或者智能体在一个环境中,随着“时间的流逝”,不断地自我学习,并最终在这个环境中学到一套最为合理的行为策略。在这样一个完整的题设下,机器人应该尽可能在没有人干预的情况下,不断根据周围的环境变化学会并判断“在什么情况下怎么做才最好”,从而一步一步完成一个完整的任务。这样一系列针对不同情形的最合理的行为组合逻辑,才是一个完整的策略,而非一个简单而孤立的行为。
实际上,蒙特卡罗法的思想并不复杂。它所秉承的观点是这样的:因为我们没有办法开启“上帝视角”,所以,我们不知道各种状态转化的概率是多少。那么,我们能不能通过反复实验进行统计,当统计的次数足够多的时候,就用这个统计的转化概率的近似值来代替模型中相应的真实值呢?其实是可以的——“实践出真知”有了另一种解释。
PyTorch 也有很多自己的优势。PyTorch 代码简洁、直观,而且没有太多复杂的由第三方封装的接口,甚至在底层实现上也比TensorFlow“轻”——至少在同样的硬件环境和神经网络拓扑中,我几乎每次都能感觉到PyTorch 的运行速度要比TensorFlow 快一些。我相信,PyTorch 有着非常好的发展前景,毕竟TensorFlow、PyTorch、Theano、Chainer、Keras、Caffe 等深度学习框架经过角逐,人气最旺的是TensorFlow 和PyTorch。顺便说一句:如果不是因为Caffe 的安装太烦琐,我还是很爱它的……
强化学习的主要目的是研究并解决机器人智能体贯序决策问题。尽管我不喜欢直接把定义硬邦邦、冷冰冰地扔出来让大家被动接受,可还是免不了要在这里猛然给出“贯序决策”这么专业的词汇。好在,很快我就能通过例子把这个词汇给大家解释清楚了。既然大家要么是程序员,要么正走在程序员养成的路上,要么正看着其他人走在程序员养成的路上,那么,按照程序员的思维来理解强化学习将会更加顺畅。
