前言

1.1机器学习关键组件

1.数据

2.模型

3.目标函数(损失函数)

4.优化算法

1.2监督学习

1.2.1 回归

当标签取任意数值时,我们称之为回归问题。 我们的目标是生成一个模型,它的预测非常接近实际标签值。解决“有多少?”的问题。

1.2.2 分类

“哪一个?”的问题。在分类问题中,我们希望模型能够预测样本属于哪个类别(category,正式称为(class))。

二分类

多分类

层次分类

我们宁愿错误地分入一个相关的类别,也不愿错误地分入一个遥远的类别,这通常被称为层次分类(hierarchical classification)。 早期的一个例子是卡尔·林奈,他对动物进行了层次分类。

1.2.3 标记问题

我们可能想让模型描绘输入图像的内容,一只猫、一只狗、一头驴,还有一只公鸡。
1.前言 - 图1

1.2.4 搜索

1.2.5 推荐系统

1.2.6 序列学习

1.3 无监督学习

聚类

主成成分分析

我们能否找到少量的参数来准确地捕捉数据的线性相关属性?比如,一个球的运动轨迹可以用球的速度、直径和质量来描述。

因果关系(causality)和概率图模型(probabilistic graphical models)问题

生成性对抗网络

为我们提供一种合成数据的方法,甚至像图像和音频这样复杂的结构化数据。潜在的统计机制是检查真实和虚假数据是否相同的测试,它是无监督学习的另一个重要而令人兴奋的领域。

1.4 与环境互动

1.5 强化学习

深度强化学习(deep reinforcement learning)将深度学习应用于强化学习的问题,是非常热门的研究领域。 突破性的深度Q网络(Q-network)在雅达利游戏中仅使用视觉输入就击败了人类, 以及 AlphaGo 程序在棋盘游戏围棋中击败了世界冠军,是两个突出强化学习的例子。
在强化学习问题中,agent在一系列的时间步骤上与环境交互。 在每个特定时间点,agent从环境接收一些观察(observation),并且必须选择一个动作(action),然后通过某种机制(有时称为执行器)将其传输回环境,最后agent从环境中获得奖励(reward)。 此后新一轮循环开始,agent接收后续观察,并选择后续操作,依此类推。 强化学习的过程在 图1.3.7 中进行了说明。 请注意,强化学习的目标是产生一个好的策略(policy)。 强化学习agent选择的“动作”受策略控制,即一个从环境观察映射到行动的功能。
1.前言 - 图2