游戏销售数据分析
数据描述
数据来源
本次分析所采用的数据来源于kaggle上的Video Game Sales数据集 ,该数据集通过爬虫从vgchartzwangz网站上获取,主要描述了全球市场上电子游戏的一个销售情况。电子游戏(Video Games,少部分学者使用Electronic Games)又称电玩游戏(简称电玩),是指所有依托于电子设备平台而运行的交互游戏。根据媒介的不同多分为五种:主机游戏(或称家用机游戏、电视游戏)、掌机游戏、电脑游戏、街机游戏和移动游戏(主要是手机游戏)。一般市场上我们所接触的游戏都是电子游戏。
据集简介
各字段含义如下:
排名 - 整体销售额排名
名称 - 游戏名称
平台 - 游戏发布的平台(即PC,PS4等)
年份 - 游戏发布的年份
流派 - 游戏的流派
发行商 - 游戏发行商
NA_Sales - 在北美的销售额(百万)
EU_Sales - 在欧洲的销售额(百万)
JP_Sales - 日本的销售额(百万)
Other_Sales - 在世界其他地区的销售额(百万)
Global_Sales - 全球总销售额。
分析主题
游戏销售情况:
1、历年全球、各地区销售额
2、历年制造商发布游戏的数量
3、历年各类类型游戏销售额
4、历年各类平台游戏销售额
5、历年各游戏销售额
数据清洗
import pandas as pdimport numpy as np
#利用pandas导入数据game_df = pd.read_csv(r"C:\Users\谭小洵\Desktop\sales game\vgsales.csv", index_col=0)
#查看数据开头game_df.head()

#查看缺失值,打印表格每一列信息game_df.info()
<class 'pandas.core.frame.DataFrame'>Int64Index: 16598 entries, 1 to 16600Data columns (total 10 columns):
Column Non-Null Count Dtype
--- ------ -------------- -----0 Name 16598 non-null object1 Platform 16598 non-null object2 Year 16327 non-null float643 Genre 16598 non-null object4 Publisher 16540 non-null object5 NA_Sales 16598 non-null float646 EU_Sales 16598 non-null float647 JP_Sales 16598 non-null float648 Other_Sales 16598 non-null float649 Global_Sales 16598 non-null float64dtypes: float64(6), object(4)memory usage: 1.4+ MB
game_df.isnull().sum()
Name 0Platform 0Year 271Genre 0Publisher 58NA_Sales 0EU_Sales 0JP_Sales 0Other_Sales 0Global_Sales 0dtype: int64
# 丢弃缺失值Year、Publishergame_df.dropna(axis=0, subset=['Year', 'Publisher'],inplace=True)game_df.isnull().sum()
Name 0Platform 0Year 0Genre 0Publisher 0NA_Sales 0EU_Sales 0JP_Sales 0Other_Sales 0Global_Sales 0dtype: int64
#重复值处理game_df.drop_duplicates(inplace=True)game_df.info()
<class 'pandas.core.frame.DataFrame'>Int64Index: 16291 entries, 1 to 16600Data columns (total 10 columns):
Column Non-Null Count Dtype
--- ------ -------------- -----0 Name 16291 non-null object1 Platform 16291 non-null object2 Year 16291 non-null float643 Genre 16291 non-null object4 Publisher 16291 non-null object5 NA_Sales 16291 non-null float646 EU_Sales 16291 non-null float647 JP_Sales 16291 non-null float648 Other_Sales 16291 non-null float649 Global_Sales 16291 non-null float64dtypes: float64(6), object(4)memory usage: 1.4+ MB
#异常值处理game_df.groupby('Year').count()

#过滤掉2017和2020年的数据df1 = game_df.loc[game_df['Year']<2017]df1.info()
<class 'pandas.core.frame.DataFrame'>Int64Index: 16287 entries, 1 to 16600Data columns (total 10 columns):
Column Non-Null Count Dtype
--- ------ -------------- -----0 Name 16287 non-null object1 Platform 16287 non-null object2 Year 16287 non-null float643 Genre 16287 non-null object4 Publisher 16287 non-null object5 NA_Sales 16287 non-null float646 EU_Sales 16287 non-null float647 JP_Sales 16287 non-null float648 Other_Sales 16287 non-null float649 Global_Sales 16287 non-null float64dtypes: float64(6), object(4)memory usage: 1.4+ MB
df1.describe()

df1.describe(include='object').T

该数据集包括1980-2016年的电子游戏销售情况,其中涉及到11322款游戏,由576个发行商,31种游戏类型,12类游戏平台。
数据分析
导入Tableau进行分析
#导出数据为CSV格式df1.to_csv('vgnew.csv')
观察:1、历年全球、各地区销售额 2、历年制造商发布游戏的数量 3、历年各类类型游戏销售额 4、历年各类平台游戏销售额 5、历年各游戏销售额

1980-2016年期间整体上游戏销售额呈现出“山”型,由低走高之后走低,2008年达到最高6.798亿,在NA_Sales - 在北美的销售额整体最高。

2008和2009发布游戏数量最多
1980-2016年期间,从1994年起PS、PS1、PS2、PS3、PS4这类平台游戏销售额一直在各大平台中占有较大份额

各类型游戏均占有一定份额,其中200年以后动作类和运动类型游戏份额最高

Mario系类游戏从1984年至2010间一直在各游戏中占有一定份额,可谓是一经典之作,26年近一代人的记忆。
2008年一款名为“Wii Sports”游戏销售额达8000万的销售额,远超同年其他游戏。
总结
本项目主要是利用Video Game Sales数据集对于1980-2016年全球电子游戏行业销售情况进行分析,了解电子游戏行业的发展情况。分析思路是先通过Python进行数据清洗,然后采用Tableau进行可视化分析。
主要分析了1980-2016年间游戏销售额变化,历年游戏发布数量、消费者喜爱的游戏平台、喜爱的游戏类型、喜爱的游戏。
