欢迎走进Python数据处理的教程。本教程主要关注的是如何利用Python这门编程语言进行常见数据的操作、处理、清洗等。通过本教程,你将了解Python编程语言在数据处理生态领域的方方面面。本教程专注于Python数据处理的类库和工具使用。

    通过学习Python数据处理,你将可以通过编写Python脚本重复数据处理和数据分析过程,降低人工处理数据的错误率,将时间放在更有意义的事情上。

    本课程介绍

    本课程没有介绍Python基础语法,默认你已经具备了基础的Python语法。如不具备,请认真学习《Python编程基础》这门基础课程。
    本课程的内容结构如下:
    走进Python数据处理 - 图1
    单元一 Numpy基础将直接带你走进Python数据处理的领域,学习掌握强大的ndarrary数组的使用、数组的索引与切片、数组的运算等,Numpy库是目前Python数值计算中最为重要的基础包,其它跟数据处理相关的库都是基于Numpy进行开发的,将Numpy的数组对象作为数据交换的通用语。
    走进Python数据处理 - 图2
    单元二 Pandas入门重点介绍Pandas的基础知识,特别是DataFrame相关知识。Pandas能将表格和关系型数据库处理数据的能力与Numpy高性能数组计算理念相结合,提供复杂的索引函数,让数据的重组、切块、切片、聚合、运算变得更加简单。更形象的说,Pandas是SQL和Excel的集合体。如果你对这些名词感觉比较陌生,也没有关系,有大致印象即可。
    走进Python数据处理 - 图3
    单元三 数据清洗准备,我们将学习Pandas如何读取文件内的数据,并对数据进行简单的转换处理。数据的准备与清洗是进行数据处理之前必须要进行的动作。Pandas可以从CSV、Excel、网页表格、HTML代码、Json、Sql等数据类型中,非常迅速方便地载入数据到DataFrame对象中。
    走进Python数据处理 - 图4
    单元四 数据分组聚合,我们将重点研究Pandas是如何对数据进行分组聚合的,这一单元也是本教程的重点与难点。
    单元五 Pandas时间序列,我们将学习时间序列这一个重要的结构化数据形式。时间序列在金融、经济、生态学、物理学等具有广泛的应用。
    单元六 数据可视化,我们将涉及到简单的数据图表制作,如何制作酷炫的数据可视化报表不是我们重点研究的内容,本章节主要带领大家涉猎Python在数据分析领域的常见应用。
    走进Python数据处理 - 图5

    默认显示代码:

    1. #请每行代码下方的空白处,完成代码抄写并运行
    2. #在程序中导入Numpy库,并将其别名为np。
    3. import numpy as np
    4. #打印Numpy的版本号
    5. print(np.__version__)
    6. #在程序中导入Pandas库,并将其别名为pd
    7. import pandas as pd
    8. #打印pandas的版本号
    9. print(pd.__version__)