《特征工程入门与实践》涉及特征工程的全流程,从数据检查到可视化,再到转换和进一步处理等,并给出了大量数学工具,帮助掌握如何将数据处理、转换成适当的形式,以便送入计算机和机器学习流水线中进行处理。后半部分的特征工程实践用Python作为示例语言,循序渐进,通俗易懂。非常简洁而有条理,并且示例做的很详细。讲解习题,注释详细,对新手很友好。
特征增强的意义是,识别有问题的区域,并确定哪种修复方法最有效。我们的主要想法应该是用数据科学家的眼光看数据。我们应该考虑如何用最好的方法解决问题,而不是删除了事。一般来说,机器学习算法最终会因此取得让我们欣慰的表现。
《特征工程入门与实践》中文PDF+英文PDF+源代码+庄嘉盛
《特征工程入门与实践》中文PDF,222页,有书签目录,文字可以复制;英文epub;配套源代码。
作者: Sinan Ozdemir / Divya Susarla 译者:庄嘉盛
下载:https://pan.baidu.com/s/1GoDA-ZKAArB5lyRakCwpbg
提取码: ymhu
特征工程是数据科学和机器学习流水线上的重要一环,包括识别、清洗、构建和发掘数据的特征,为进一步解释数据并进行预测性分析做准备。
特征工程主要内容:
- 识别和利用不同类型的特征
- 清洗数据中的特征,提升预测能力
- 为何、如何进行特征选择和模型误差分析
- 利用领域知识构建新特征
- 基于数学知识交付特征
- 使用机器学习算法构建特征
- 掌握特征工程与特征优化
- 在现实应用中利用特征工程
特征工程是数据科学流程的一部分,这个步骤很重要,而且经常被低估。特征工程的最终目的是让我们获取更好的数据,以便学习算法从中挖掘模式,取得更好的效果。执行特征工程不仅是要获得更干净的数据,而且最终要在机器学习流水线中使用这些数据。
了解我们要处理的特征是特征工程的基础。如果不理解拿到的数据,就不可能修复、创建和利用特征,不可能创建性能良好的机器学习流水线。我们可以在数据集中识别并提取不同等级的数据,并用这些信息创造有用、有意义的可视化图表,帮助我们进一步理解数据。我们会利用有关数据等级的新知识来改进特征,并使用机器学习有效地衡量特征工程流水线的效果。
《Python机器学习手册从数据预处理到深度学习》中文PDF+英文PDF笔记
《Python机器学习手册从数据预处理到深度学习》中文PDF+英文PDF+mobi+epub
《Python机器学习手册从数据预处理到深度学习》中文PDF,557页,有书签目录,文字可以复制,[美]克里斯阿尔本Chris Albon著;英文PDF,366页,文字可以复制。
下载: https://pan.baidu.com/s/1pS4FiALR6xR4CNQbawxXow
提取码: pqs5
机器学习热度增长,对机器学习从业者的指导和机器学习日常开发中的细节,在日常开发中需要解决实际问题时就拿过来翻一翻。在构建真实的机器学习系统时的参考。例如,假设你有一个JSON文件,其中包含1000个具有缺失值的分类特征和数值型特征,并且目标向量的分类不均衡,你想得到一个可解释的模型。提供的解决方案可以帮助解决如下问题:加载JSON文件;特征的标准化;对特征字典编码;填充缺失的分类值;使用主成分进行特征降维;使用随机搜索选择最佳模型;训练随机森林分类器;选择随机森林中的重要特征。
一个模型只有当其预测结果准确时才有实用价值,所以训练模型的目的并不仅仅是创建一个模型(这很简单),更要创建一个准确的模型(这很难)。因此,在开始学习各种模型算法之前,需要先了解如何评估生成的模型。
评估有监督学习模型的方法非常直观:首先训练一个模型,然后计算一些性能指标(准确率、均方误差等)来评估它的预测效果。然而这种方法从根本上说是有缺陷的。如果使用同一份数据来训练和评估模型,那么得到的结果可能并不是我们想要的。评估模型的目的并不是要评估其在训练集数据上的表现,而是要评估它在从未见过的数据上(如新客户、新犯罪、新图像)的表现。因此,评估方法应该帮助我们评估模型在新数据上做预测时的准确性。
记录总结以备学习之用:
《精通特征工程》中文PDF+英文PDF+源代码
下载: https://pan.baidu.com/s/1t7UrvCdzVD4yQ2v6VZueNQ
提取码: i49z
《机器学习Python实践》PDF+源代码+魏贞原
下载: https://pan.baidu.com/s/1ei3L4zeG1UJYbZYjYFJ1BA
提取码: is7c
《Python机器学习(第2版)》中文PDF+英文PDF+源代码+Sebastian
下载: https://pan.baidu.com/s/1UFuTADa6KwAo8yh1Twib9A
提取码: evfc
《机器学习实战:基于Scikit-Learn和TensorFlow》原版中英文PDF+代码
下载: https://pan.baidu.com/s/14G_0aeMh8qiq4TtIvpefWw
提取码: b46k
《白话机器学习算法》PDF中文+英文PDF+数据来源参考
下载: https://pan.baidu.com/s/1VjbePHUMGRxJDiEAqRRJVw
提取码: 7wgx
《scikit-learn机器学习第2版》中文PDF+英文PDF+源代码
下载: https://pan.baidu.com/s/1no3ZW3xXf0hSkN85YhUdVw
提取码: x3bh
《机器学习精讲:基础、算法及应用》中文PDF+英文PDF+源代码
下载: https://pan.baidu.com/s/1JyWWmPnJNpdq2-_V3xg-AQ
提取码: zyij
唐宇迪《跟着迪哥学 Python数据分析与机器学习实战》PDF+源代码
下载: https://pan.baidu.com/s/142sJazhH8KC0vXdwfhlfmQ
提取码: 3me4
《特征工程入门与实践》中文PDF+英文PDF+源代码+庄嘉盛
下载:https://pan.baidu.com/s/1GoDA-ZKAArB5lyRakCwpbg
提取码: ymhu
《Python机器学习手册从数据预处理到深度学习》中文PDF+英文PDF+mobi+epub
下载: https://pan.baidu.com/s/1pS4FiALR6xR4CNQbawxXow
提取码: pqs5
《Python+TensorFlow机器学习实战》PDF+源代码课件+李鸥
下载:https://pan.baidu.com/s/1hpn-FzblU3wLa7_hu05sZQ
提取码: nsdb
《Python机器学习手册从数据预处理到深度学习》采用基于任务的方式来介绍如何在机器学习中使用Python。有近200个独立的解决 方案,针对的都是数据科学家或机器学习工程师在构建模型时可能遇到的常见任务,涵盖从简 单的矩阵和向量运算到特征工程以及神经网络的构建。作为参考,在机器学习的日常开发中遇到问题时,随时借鉴代码,快速解决问题。