数据处理《特征工程入门与实践》PDF 代码探析 - 《数据分析》

特征工程是数据科学流程的一部分，这个步骤很重要，而且经常被低估。特征工程的最终目的是让我们获取更好的数据，以便学习算法从中挖掘模式，取得更好的效果。执行特征工程不仅是要获得更干净的数据，而且最终要在机器学习流水线中使用这些数据。
数据处理《特征工程入门与实践》PDF+代码探析+庄嘉盛
《特征工程入门与实践》中文PDF，222页，有书签目录，文字可以复制；英文epub；配套源代码。
作者: Sinan Ozdemir / Divya Susarla 译者:庄嘉盛
下载:https://pan.baidu.com/s/1GoDA-ZKAArB5lyRakCwpbg
提取码: ymhu
了解我们要处理的特征是特征工程的基础。如果不理解拿到的数据，就不可能修复、创建和利用特征，不可能创建性能良好的机器学习流水线。

我们可以在数据集中识别并提取不同等级的数据，并用这些信息创造有用、有意义的可视化图表，帮助我们进一步理解数据。我们会利用有关数据等级的新知识来改进特征，并使用机器学习有效地衡量特征工程流水线的效果。
特征工程是数据科学和机器学习流水线上的重要一环，包括识别、清洗、构建和发掘数据的特征，为进一步解释数据并进行预测性分析做准备。

特征工程主要内容：
- 识别和利用不同类型的特征
- 清洗数据中的特征，提升预测能力
- 为何、如何进行特征选择和模型误差分析
- 利用领域知识构建新特征
- 基于数学知识交付特征
- 使用机器学习算法构建特征
- 掌握特征工程与特征优化
- 在现实应用中利用特征工程
《特征工程入门与实践》涉及特征工程的全流程，从数据检查到可视化，再到转换和进一步处理等，并给出了大量数学工具，帮助掌握如何将数据处理、转换成适当的形式，以便送入计算机和机器学习流水线中进行处理。后半部分的特征工程实践用Python作为示例语言，循序渐进，通俗易懂。

非常简洁而有条理，并且示例做的很详细。讲解习题，注释详细，对新手很友好。特征增强的意义是，识别有问题的区域，并确定哪种修复方法最有效。我们的主要想法应该是用数据科学家的眼光看数据。我们应该考虑如何用最好的方法解决问题，而不是删除了事。一般来说，机器学习算法最终会因此取得让我们欣慰的表现。