一、什么是模型?

  1. 通过数据来理解世界就像是玩拼图,但这副拼图是杂乱且不完整的,而且带有多余的部 分。这时**数学模型**——特别是统计模型——就派上用场了。统计语言中有很多概念,可以 描述常见的数据特性,比如**错误数据、冗余数据**和**缺失数据**。错误数据是由测量时的错误 造成的。冗余数据则是对同一信息的多次表述,比如,一周中的一天可以用分类变量来表 示,它的值为“星期一”“星期二”......“星期日”,还可以表示为 0 6 之间的整数值。 如果某些数据点中不存在这种星期几的信息,那就出现了缺失数据。 <br />**数据的数学模型描述了数据不同部分之间的关系**。例如,预测股票价格的模型可以是一个 公式,它将公司的收入历史、过去的股票价格和行业映射为预测的股票价格。音乐推荐模 型可以基于收听习惯测量用户之间的相似度,然后向收听大量同种歌曲的用户推荐同一个 音乐家。<br />数学公式将数值型的变量联系起来,但原始数据经常不是数值型的。(“爱丽丝在星期三购 买了《指环王》三部曲”这一行为就不是数值型的,她随后对这本书发表的评价也不是数 值型的。)必须有个什么东西将这二者联系起来,这就是特征的用武之地了。 <br />