1.1机器学习关键组件

1.数据

2.模型

3.目标函数（损失函数）

4.优化算法

1.2监督学习

1.2.1 回归

当标签取任意数值时，我们称之为回归问题。我们的目标是生成一个模型，它的预测非常接近实际标签值。解决“有多少？”的问题。

1.2.2 分类

“哪一个？”的问题。在分类问题中，我们希望模型能够预测样本属于哪个类别（category，正式称为类（class））。

二分类

多分类

层次分类

我们宁愿错误地分入一个相关的类别，也不愿错误地分入一个遥远的类别，这通常被称为层次分类(hierarchical classification)。早期的一个例子是卡尔·林奈，他对动物进行了层次分类。

1.2.3 标记问题

我们可能想让模型描绘输入图像的内容，一只猫、一只狗、一头驴，还有一只公鸡。
1.前言 - 图1

1.2.4 搜索

1.2.5 推荐系统

1.2.6 序列学习

1.3 无监督学习

聚类

主成成分分析

我们能否找到少量的参数来准确地捕捉数据的线性相关属性？比如，一个球的运动轨迹可以用球的速度、直径和质量来描述。

因果关系（causality）和概率图模型（probabilistic graphical models）问题

生成性对抗网络

为我们提供一种合成数据的方法，甚至像图像和音频这样复杂的结构化数据。潜在的统计机制是检查真实和虚假数据是否相同的测试，它是无监督学习的另一个重要而令人兴奋的领域。

1.4 与环境互动

1.5 强化学习

深度强化学习（deep reinforcement learning）将深度学习应用于强化学习的问题，是非常热门的研究领域。突破性的深度Q网络（Q-network）在雅达利游戏中仅使用视觉输入就击败了人类，以及 AlphaGo 程序在棋盘游戏围棋中击败了世界冠军，是两个突出强化学习的例子。
在强化学习问题中，agent在一系列的时间步骤上与环境交互。在每个特定时间点，agent从环境接收一些观察（observation），并且必须选择一个动作（action），然后通过某种机制（有时称为执行器）将其传输回环境，最后agent从环境中获得奖励（reward）。此后新一轮循环开始，agent接收后续观察，并选择后续操作，依此类推。强化学习的过程在图1.3.7 中进行了说明。请注意，强化学习的目标是产生一个好的策略（policy）。强化学习agent选择的“动作”受策略控制，即一个从环境观察映射到行动的功能。
1.前言 - 图2