1.定义
数据可视化,是关于数据视觉表现形式的科学技术研究。其中,这种数据的视觉表现形式被定义为,一种以某种概要形式抽提出来的信息,包括相应信息单位的各种属性和变量。
本次主要学习Python数据可视化库Matplotlib。在打比赛的过程中,数据可视化可以让我们更好的看到每一个关键步骤的结果如何,可以用来优化方案。
2.作图
(1)柱状图
- 可视化展示泰坦尼克号数据集中男女中生存人数分布情况
sex = text.groupby('Sex')['Survived'].sum()
sex.plot.bar()
plt.title('survived_count')
plt.show()
可视化展示泰坦尼克号数据集中男女中生存人与死亡人数的比例图
sex_survived = text.groupby(['Sex', 'Survived'])['Survived']
sex_survived.count().unstack().plot(kind='bar', stacked='True')
plt.title('survived_count')
plt.ylabel('count')
plt.legend()
可视化展示泰坦尼克号数据集中不同仓位等级的人生存和死亡人员的分布情况。
pclass_sur = text.groupby(['Pclass'])['Survived'].value_counts()
import seaborn as sns
sns.countplot(x="Pclass", hue="Survived", data=text)
(2)折线图
可视化展示泰坦尼克号数据集中不同票价的人生存和死亡人数分布情况。
数据不排序
fig = plt.figure(figsize=(20, 18))
text.groupby(['Fare'])['Survived'].value_counts().plot(grid=True)
plt.legend()
plt.show()
数据排序
fare_sur = text.groupby(['Fare'])['Survived'].value_counts().sort_values(ascending=False)
fig = plt.figure(figsize=(20, 18))
fare_sur.plot(grid=True)
plt.legend()
plt.show()
可视化展示泰坦尼克号数据集中不同仓位等级的人年龄分布情况
text.Age[text.Pclass == 1].plot(kind='kde')
text.Age[text.Pclass == 2].plot(kind='kde')
text.Age[text.Pclass == 3].plot(kind='kde')
plt.xlabel("age")
plt.legend((1,2,3), loc="best")
可视化展示泰坦尼克号数据集中不同年龄的人生存与死亡人数分布情况
facet = sns.FacetGrid(text, hue="Survived", aspect=3)
facet.map(sns.kdeplot, 'Age', shade=True)
facet.set(xlim=(0, text['Age'].max()))
facet.add_legend()