如何在 Python 中加载机器学习数据 - 《Python Basics 中文系列教程》

加载机器学习数据

原文： https://pythonbasics.org/how-to-load-machine-learning-data-in-python/

为了使用 Python 启动您的机器学习项目，您需要能够正确加载数据。如果您是 Python 的初学者，本文将帮助您学习如何使用三种不同的技术来加载机器学习数据。

加载机器学习数据

在深入探讨之前，您需要知道 CSV 或逗号分隔的值是呈现机器学习数据的最常用格式。在机器学习数据的 CSV 文件中，您需要了解一些零件和功能。这些包括：

CSV 文件标题：CSV 文件中的标题用于将名称或标签自动分配给数据集的每一列。如果您的文件没有标题，则必须手动命名属性。
注释：当一行以井号（#）开头时，您可以在 CSV 文件中标识注释。根据您选择的加载机器学习数据的方法，您将不得不确定是否要显示这些注释，以及如何识别它们。
定界符：定界符分隔字段中的多个值，并用逗号（,）表示。制表符（\t）是可以使用的另一个定界符，但是必须明确指定它。
引号：如果文件中的字段值包含空格，则通常会用引号引起来，并且表示该值的符号为双引号。如果选择使用字符，则需要在文件中指定。

在确定了数据文件的这些关键部分之后，让我们继续学习如何在 Python 中加载机器学习数据的不同方法。

使用 Python 标准库加载数据

使用 Python 标准库，您将使用模块 CSV 和函数reader()加载 CSV 文件。加载后，CSV 数据将自动转换为 NumPy 数组，可用于机器学习。

例如，下面是一个小代码，当您使用 Python API 运行时，它将加载没有标题且包含数字字段的该数据集。它还将自动将其转换为 NumPy 数组。

# Load CSV (using python)
import csv
import numpy
filename = 'pima-indians-diabetes.data.csv'
raw_data = open(filename, 'rt')
reader = csv.reader(raw_data, delimiter=',', quoting=csv.QUOTE_NONE)
x = list(reader)
data = numpy.array(x).astype('float')
print(data.shape)

简而言之，该代码命令程序加载一个对象，该对象可以对数据的每一行进行迭代，并且可以轻松地转换为 NumPy 数组。运行示例代码将产生以下形状的数组：

1 (768, 9)

用 NumPy 加载数据文件

在 Python 中加载机器学习数据的另一种方法是使用 NumPy 和numpy.loadtxt()函数。

在下面的示例代码中，该函数假定您的文件没有标题行，并且所有数据都使用相同的格式。它还假定文件pima-indians-diabetes.data.csv存储在当前目录中。

# Load CSV
import numpy
filename = 'pima-indians-diabetes.data.csv'
raw_data = open(filename, 'rt')
data = numpy.loadtxt(raw_data, delimiter=",")
print(data.shape)

运行上面的示例代码会将文件加载为numpy.ndarray并产生以下数据形状：

1 (768, 9)

如果可以使用 URL 检索文件，则可以将以上代码修改为以下代码，同时产生相同的数据集：

# Load CSV from URL using NumPy
from numpy import loadtxt
from urllib.request import urlopen
url = 'https://raw.githubusercontent.com/jbrownlee/Datasets/master/pima-indiansiabetes.data.csv'
raw_data = urlopen(url)
dataset = loadtxt(raw_data, delimiter=",")
print(dataset.shape)

运行代码将产生相同的结果数据形状：

1 (768, 9)

如何在 Python 中加载机器学习数据 - 图1

用 Pandas 加载数据文件

加载机器学习数据的第三种方法是使用 Pandas 和pandas.read_csv()函数。

pandas.read_csv()函数非常灵活，是加载机器学习数据的最理想方法。它返回一个pandas.DataFrame，使您可以立即开始汇总和绘图。

下面的示例代码假定pima-indians-diabetes.data.csv文件存储在当前目录中。

1 # Load CSV using Pandas
2 import pandas
3 filename = 'pima-indians-diabetes.data.csv'
4 names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
5 data = pandas.read_csv(filename, names=names)
6 print(data.shape)

您将在此处注意到，我们已将每个属性的名称明确标识为DataFrame。当我们运行上面的示例代码时，将打印以下形状的数据：

1 (768, 9)

如果可以使用 URL 检索文件，则可以对以上代码进行以下修改，同时生成相同的数据集：

1 # Load CSV using Pandas from URL
2 Import pandas
3 url = "https://raw.githubusercontent.com/jbrownlee/Datasets/master/pima-indians-diabetes.data.csv"
4 names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
5 data = pandas.read_csv(url, names=names)
6 print(data.shape)

运行上面的示例代码将下载一个 CSV 文件，对其进行解析，并生成以下形状的已加载DataFrame：

1 (768, 9)

下载示例和练习