1.Numpy 和 Pandas 有什么不同
如果用 python 的列表和字典来作比较, 那么可以说 Numpy 是列表形式的,没有数值标签,而 Pandas 就是字典形式。Pandas是基于Numpy构建的,让Numpy为中心的应用变得更加简单。 要使用pandas,首先需要了解他主要两个数据结构:Series和DataFrame。
2.Series
Series:一维数组,与Python基本的数据结构List也很相近,其区别是:List中的元素可以是不同的数据类型,而Series中则只允许存储相同的数据类型,这样是为了更有效的使用内存,提高运算效率。
3.DataFrame
DataFrame:二维的表格型数据结构。可以将DataFrame理解为Series的容器。
4.如何使用pandas导入数据集?
pandas可以兼容的文件超级多,例如csv、xml、HTML、xls、xlsx等
导入语法集数据法如下:
import pandas as pd
book1 = pd.read_excel(filename) # 导入Excel格式文件中的数据
book2 = pd.read_csv(filename) # 导入Csv格式文件中的数据
例子:这是一张学生成绩表,有学生的ID,学生的Name,学生的Age,以及学生的Score
让我们尝试使用pandas来读取这个Excel表
Students.xlsx
import pandas as pd
path = r'D:\pandas\tmp\Students.xlsx' # 定义一个path,令他等于数据集的地址
students = pd.read_excel(path) # 导入Excel格式文件中的数据
print(students) # 查看表