没有充足的数据、合适的特征,再强大的模型结构也无法得到满意的输出。 数据和特征决定了结果的上限,模型、算法的选择和优化则是逼近这个上限。
本章主要讨论一下两种数据类型:
- 结构化数据:结构化数据类型可以看作关系型数据库的一张表,每列都有清晰的数据,包含了数值型、类别型两种基本类型;每一行数据表示一个样本的信息。
- 非结构化数据:非结构化数据主要包括文本、图像、音频、视频数据,其包含的信息无法用一个简单的数值来表示,也没有清晰的类别定义,并且每条数据的大小各不相同。
特征工程,是对原始数据进行一系列工程处理, 将其提炼为特征,作为供算法和模型使用。本质上讲, 特征工程是一个表示和展现数据的过程。 在实际的工作需求中,特征工程旨在去除原始数据中的杂质和冗余,设计更高效的特征 以刻画求解的问题于预测模型之间的关系。
