原文: https://pythonbasics.org/how-to-prepare-your-data-for-machine-learning-with-scikit-learn/

如何通过 Scikit-Learn 准备要学习的数据。

如果要使用 scikit-learn 实现学习算法,则要做的第一件事就是准备数据。

这将向您决定使用的学习算法展示问题的结构。

唯一的障碍是需要一种不同的算法来启动有关要处理数据的不同假设,这有时可能需要进行不同的转换。

在准备数据以使用 scikit-learn 进行学习时,有四个经过验证的步骤。 它们包括:

  1. 重新缩放数据
  2. 数据标准化
  3. 规范化数据
  4. 将数据转换为二元

数据准备

重新缩放数据

重新缩放数据的属性,特别是当数据的属性由不同的比例组成时,这使多种学习算法可以从数据的重新缩放过程中受益,以确保数据以相同的比例出现。

此过程可称为标称化,其属性的重标范围为 0 和 1。它确保存在构成梯度下降核心的优化算法-学习算法的检查。

  1. import pandas
  2. import scipy
  3. import numpy
  4. from sklearn.preprocessing import MinMaxScaler
  5. # data values
  6. X = [ [110, 200], [120, 800], [310, 400], [140, 900], [510, 200], [653, 400] ,[310, 880] ]
  7. # transofrm data
  8. scaler = MinMaxScaler(feature_range=(0, 1))
  9. rescaledX = scaler.fit_transform(X)
  10. # summarize transformed data
  11. numpy.set_printoptions(precision=2)
  12. print(rescaledX[0:6,:])

重新缩放的值将在 0 到 1 之间:

  1. [[0\. 0\. ]
  2. [0.02 0.86]
  3. [0.37 0.29]
  4. [0.06 1\. ]
  5. [0.74 0\. ]
  6. [1\. 0.29]]

在考虑中性网络权重,回归以及所有涉及距离测量的算法(例如 K 最近邻)的算法中,它也很有价值。

标准化数据

此技术在使用高斯分布的属性转换中有效。

高斯分布使用平均值为 0 且标准偏差设置为 1 的情况。逻辑回归,线性回归和线性判别分析最适合以高斯分布为输入变量,从而更好地利用了重新定标的数据。

  1. # Standardize data (0 mean, 1 stdev)
  2. from sklearn.preprocessing import StandardScaler
  3. import pandas
  4. import numpy
  5. # data values
  6. X = [ [110, 200], [120, 800], [310, 400], [140, 900], [510, 200], [653, 400] ,[310, 880] ]
  7. # scaler
  8. scaler = StandardScaler().fit(X)
  9. rescaledX = scaler.transform(X)
  10. # summarize transformed data
  11. numpy.set_printoptions(precision=3)
  12. print(rescaledX[0:6,:])

标定值:

  1. [[-1.02 -1.178]
  2. [-0.968 0.901]
  3. [ 0.013 -0.485]
  4. [-0.865 1.247]
  5. [ 1.045 -1.178]
  6. [ 1.783 -0.485]]

规范化数据

为了规范 Scikit 学习中的数据,它涉及将每个观察值重新缩放为 1 的长度-线性代数的单位形式。

使用 Scikit-learn 在 Python 中标准化数据时,最好使用 Normalizer 类软件。

  1. # Normalize values
  2. from sklearn.preprocessing import Normalizer
  3. import pandas
  4. import numpy
  5. # data values
  6. X = [ [110, 200], [120, 800], [310, 400], [140, 900], [510, 200], [653, 400] ,[310, 880] ]
  7. # normalize values
  8. scaler = Normalizer().fit(X)
  9. normalizedX = scaler.transform(X)
  10. # summarize transformed data
  11. numpy.set_printoptions(precision=2)
  12. print(normalizedX[0:6,:])

规范化的值是:

  1. [[0.48 0.88]
  2. [0.15 0.99]
  3. [0.61 0.79]
  4. [0.15 0.99]
  5. [0.93 0.37]
  6. [0.85 0.52]]

规模可变的稀疏数据集特别受益于使用距离度量(例如 K 最近邻)的算法预处理。 一个典型的例子是中性网络。 用数据制作二元

二元数据转换

可以通过将二元阈值标记为小于或等于 0 的 1 来实现。在具有清晰值的概率中很有用。

  1. # Binary values
  2. from sklearn.preprocessing import Binarizer
  3. import pandas
  4. import numpy
  5. # data values
  6. X = [ [110, 200], [120, 800], [310, 400], [140, 900], [510, 200], [653, 400] ,[310, 880] ]
  7. # binarize data
  8. binarizer = Binarizer(threshold=500).fit(X)
  9. binaryX = binarizer.transform(X)
  10. # summarize transformed data
  11. numpy.set_printoptions(precision=1)
  12. print(binaryX[0:6,:])

阈值非常重要,因为它将决定哪些值变为零或一。

  1. [[0 0]
  2. [0 1]
  3. [0 0]
  4. [0 1]
  5. [1 0]
  6. [1 0]]

另外,在为特征工程添加特征方面,它具有巨大的意义。 到目前为止,您必须熟悉使用 Scikit-learn 进行机器学习的数据准备所涉及的步骤。

请记住,涉及的四个步骤是:

  1. 重新缩放数据
  2. 数据标准化
  3. 规范化数据
  4. 使数据二元化。

下载示例和练习