一、什么是特征?

特征是原始数据的数值表示。有多种方法可以将原始数据转换为数值型的表示,所以特征 可以有多种形式。当然,特征必须采用可用的数据类型。事实上,特征还和模型相关联, 这一点可能并不那么显而易见。有些模型更适合使用某种类型的特征,反之亦然。正确的 特征应该适合当前的任务,并易于被模型所使用。特征工程就是在给定数据、模型和任务 的情况下设计出最合适的特征的过程。
特征的数量也非常重要。如果没有足够的有信息量的特征,那么模型将不能完成最终的任 务。如果特征过多,或者多数特征不合适,那么模型将很难训练而且训练成本高昂。在训练过程中可能会出现一些影响模型性能的错误。