特征工程是数据科学流程的一部分,这个步骤很重要,而且经常被低估。特征工程的最终目的是让我们获取更好的数据,以便学习算法从中挖掘模式,取得更好的效果。执行特征工程不仅是要获得更干净的数据,而且最终要在机器学习流水线中使用这些数据。
    数据处理《特征工程入门与实践》PDF+代码探析+庄嘉盛
    《特征工程入门与实践》中文PDF,222页,有书签目录,文字可以复制;英文epub;配套源代码。
    作者: Sinan Ozdemir / Divya Susarla 译者:庄嘉盛
    下载:https://pan.baidu.com/s/1GoDA-ZKAArB5lyRakCwpbg
    提取码: ymhu
    了解我们要处理的特征是特征工程的基础。如果不理解拿到的数据,就不可能修复、创建和利用特征,不可能创建性能良好的机器学习流水线。
    111.png
    我们可以在数据集中识别并提取不同等级的数据,并用这些信息创造有用、有意义的可视化图表,帮助我们进一步理解数据。我们会利用有关数据等级的新知识来改进特征,并使用机器学习有效地衡量特征工程流水线的效果。
    特征工程是数据科学和机器学习流水线上的重要一环,包括识别、清洗、构建和发掘数据的特征,为进一步解释数据并进行预测性分析做准备。
    222.png
    特征工程主要内容:
    - 识别和利用不同类型的特征
    - 清洗数据中的特征,提升预测能力
    - 为何、如何进行特征选择和模型误差分析
    - 利用领域知识构建新特征
    - 基于数学知识交付特征
    - 使用机器学习算法构建特征
    - 掌握特征工程与特征优化
    - 在现实应用中利用特征工程
    《特征工程入门与实践》涉及特征工程的全流程,从数据检查到可视化,再到转换和进一步处理等,并给出了大量数学工具,帮助掌握如何将数据处理、转换成适当的形式,以便送入计算机和机器学习流水线中进行处理。后半部分的特征工程实践用Python作为示例语言,循序渐进,通俗易懂。
    333.png
    非常简洁而有条理,并且示例做的很详细。讲解习题,注释详细,对新手很友好。特征增强的意义是,识别有问题的区域,并确定哪种修复方法最有效。我们的主要想法应该是用数据科学家的眼光看数据。我们应该考虑如何用最好的方法解决问题,而不是删除了事。一般来说,机器学习算法最终会因此取得让我们欣慰的表现。