一 基本概念
1.1 特征空间
- 输入空间 :所有输入的可能取值;
输出空间 :所有输出的可能取值。
特征向量表示每个具体的输入, 所有特征向量构成特征空间。
- 特征空间的每一个维度对应一种特征。
可以将输入空间等同于特征空间,但是也可以不同。绝大多数情况下,输入空间等于特征空间。模型是定义在特征空间上的。
1.2 样本表示
通常输入实例用表示,真实标记用表示,模型的预测值用表示。具体的输入取值记作;具体的标记取值记作 ;具体的模型预测取值记作 。
- 所有的向量均为列向量,其中输入实例 的特征向量记作 (假设特征空间为 n维):
这里 为 的第 个特征的取值。第 个输入记作 ,它的意义不同于 。
- 训练数据由输入、标记对组成。通常训练集表示为: 。
- 输入、标记对又称作样本点。
- 假设每对输入、标记对是独立同分布产生的。
- 输入 和标记 可以是连续的,也可以是离散的。
- 为连续的:这一类问题称为回归问题。
- 为离散的,且是有限的:这一类问题称之为分类问题。
- 和 均为序列:这一类问题称为序列标注问题。
二 学习任务
- 机器学习根据任务类型,可以划分为:
- 监督学习任务:从已标记的训练数据来训练模型。 主要分为:分类任务、回归任务、序列标注任务。
- 无监督学习任务:从未标记的训练数据来训练模型。主要分为:聚类任务、降维任务。
- 半监督学习任务:用大量的未标记训练数据和少量的已标记数据来训练模型。
- 强化学习任务:从系统与环境的大量交互知识中训练模型。
- 主动学习任务:机器不断主动给出堆学习最优帮助的实例让教师进行标注,然后利用标注数据学习预测模型。
三 习题解答
参考 https://datawhalechina.github.io/statistical-learning-method-solutions-manual/#/chapter01/chapter01