一 基本概念

1.1 特征空间

  1. 输入空间 :所有输入的可能取值;

输出空间 :所有输出的可能取值。
特征向量表示每个具体的输入, 所有特征向量构成特征空间。

  1. 特征空间的每一个维度对应一种特征。
  2. 可以将输入空间等同于特征空间,但是也可以不同。绝大多数情况下,输入空间等于特征空间。模型是定义在特征空间上的。

    1.2 样本表示

  3. 通常输入实例用机器学习方法概论 - 图1表示,真实标记用机器学习方法概论 - 图2表示,模型的预测值用机器学习方法概论 - 图3表示。具体的输入取值记作机器学习方法概论 - 图4;具体的标记取值记作机器学习方法概论 - 图5 ;具体的模型预测取值记作机器学习方法概论 - 图6

  4. 所有的向量均为列向量,其中输入实例 机器学习方法概论 - 图7的特征向量记作 (假设特征空间为 n维):

机器学习方法概论 - 图8
这里 机器学习方法概论 - 图9机器学习方法概论 - 图10的第机器学习方法概论 - 图11 个特征的取值。第 机器学习方法概论 - 图12个输入记作 机器学习方法概论 - 图13,它的意义不同于机器学习方法概论 - 图14

  1. 训练数据由输入、标记对组成。通常训练集表示为: 。
    • 输入、标记对又称作样本点。
    • 假设每对输入、标记对是独立同分布产生的。
  2. 输入 机器学习方法概论 - 图15和标记 机器学习方法概论 - 图16 可以是连续的,也可以是离散的。
    • 机器学习方法概论 - 图17 为连续的:这一类问题称为回归问题。
    • 机器学习方法概论 - 图18 为离散的,且是有限的:这一类问题称之为分类问题。
    • 机器学习方法概论 - 图19机器学习方法概论 - 图20 均为序列:这一类问题称为序列标注问题。

二 学习任务

  1. 机器学习根据任务类型,可以划分为:
    • 监督学习任务:从已标记的训练数据来训练模型。 主要分为:分类任务、回归任务、序列标注任务。
    • 无监督学习任务:从未标记的训练数据来训练模型。主要分为:聚类任务、降维任务。
    • 半监督学习任务:用大量的未标记训练数据和少量的已标记数据来训练模型。
    • 强化学习任务:从系统与环境的大量交互知识中训练模型。
    • 主动学习任务:机器不断主动给出堆学习最优帮助的实例让教师进行标注,然后利用标注数据学习预测模型。

      三 习题解答

      参考 https://datawhalechina.github.io/statistical-learning-method-solutions-manual/#/chapter01/chapter01