了解我们要处理的特征是特征工程的基础。如果不理解拿到的数据,就不可能修复、创建和利用特征,不可能创建性能良好的机器学习流水线。我们可以在数据集中识别并提取不同等级的数据,并用这些信息创造有用、有意义的可视化图表,帮助我们进一步理解数据。我们会利用有关数据等级的新知识来改进特征,并使用机器学习有效地衡量特征工程流水线的效果。
Feature《特征工程入门与实践》PDF+源代码+庄嘉盛
《特征工程入门与实践》中文PDF,222页,有书签目录,文字可以复制;英文epub;配套源代码。
作者: Sinan Ozdemir / Divya Susarla 译者:庄嘉盛
下载:https://pan.baidu.com/s/1GoDA-ZKAArB5lyRakCwpbg
提取码: ymhu
特征增强的意义是,识别有问题的区域,并确定哪种修复方法最有效。我们的主要想法应该是用数据科学家的眼光看数据。我们应该考虑如何用最好的方法解决问题,而不是删除了事。一般来说,机器学习算法最终会因此取得让我们欣慰的表现。
特征工程是数据科学和机器学习流水线上的重要一环,包括识别、清洗、构建和发掘数据的特征,为进一步解释数据并进行预测性分析做准备。
特征工程主要内容:
- 识别和利用不同类型的特征
- 清洗数据中的特征,提升预测能力
- 为何、如何进行特征选择和模型误差分析
- 利用领域知识构建新特征
- 基于数学知识交付特征
- 使用机器学习算法构建特征
- 掌握特征工程与特征优化
- 在现实应用中利用特征工程
《特征工程入门与实践》涉及特征工程的全流程,从数据检查到可视化,再到转换和进一步处理等,并给出了大量数学工具,帮助掌握如何将数据处理、转换成适当的形式,以便送入计算机和机器学习流水线中进行处理。
后半部分的特征工程实践用Python作为示例语言,循序渐进,通俗易懂。非常简洁而有条理,并且示例做的很详细。讲解习题,注释详细,对新手很友好。