游戏销售数据分析

数据描述

数据来源

本次分析所采用的数据来源于kaggle上的Video Game Sales数据集 ,该数据集通过爬虫从vgchartzwangz网站上获取,主要描述了全球市场上电子游戏的一个销售情况。电子游戏(Video Games,少部分学者使用Electronic Games)又称电玩游戏(简称电玩),是指所有依托于电子设备平台而运行的交互游戏。根据媒介的不同多分为五种:主机游戏(或称家用机游戏、电视游戏)、掌机游戏、电脑游戏、街机游戏和移动游戏(主要是手机游戏)。一般市场上我们所接触的游戏都是电子游戏。

据集简介

各字段含义如下:

排名 - 整体销售额排名

名称 - 游戏名称

平台 - 游戏发布的平台(即PC,PS4等)

年份 - 游戏发布的年份

流派 - 游戏的流派

发行商 - 游戏发行商

NA_Sales - 在北美的销售额(百万)

EU_Sales - 在欧洲的销售额(百万)

JP_Sales - 日本的销售额(百万)

Other_Sales - 在世界其他地区的销售额(百万)

Global_Sales - 全球总销售额。

分析主题

游戏销售情况:

1、历年全球、各地区销售额

2、历年制造商发布游戏的数量

3、历年各类类型游戏销售额

4、历年各类平台游戏销售额

5、历年各游戏销售额

数据清洗

  1. import pandas as pd
  2. import numpy as np
  1. #利用pandas导入数据
  2. game_df = pd.read_csv(r"C:\Users\谭小洵\Desktop\sales game\vgsales.csv", index_col=0)
  1. #查看数据开头
  2. game_df.head()

image.png

  1. #查看缺失值,打印表格每一列信息
  2. game_df.info()
  1. <class 'pandas.core.frame.DataFrame'>
  2. Int64Index: 16598 entries, 1 to 16600
  3. Data columns (total 10 columns):

Column Non-Null Count Dtype

  1. --- ------ -------------- -----
  2. 0 Name 16598 non-null object
  3. 1 Platform 16598 non-null object
  4. 2 Year 16327 non-null float64
  5. 3 Genre 16598 non-null object
  6. 4 Publisher 16540 non-null object
  7. 5 NA_Sales 16598 non-null float64
  8. 6 EU_Sales 16598 non-null float64
  9. 7 JP_Sales 16598 non-null float64
  10. 8 Other_Sales 16598 non-null float64
  11. 9 Global_Sales 16598 non-null float64
  12. dtypes: float64(6), object(4)
  13. memory usage: 1.4+ MB
  1. game_df.isnull().sum()
  1. Name 0
  2. Platform 0
  3. Year 271
  4. Genre 0
  5. Publisher 58
  6. NA_Sales 0
  7. EU_Sales 0
  8. JP_Sales 0
  9. Other_Sales 0
  10. Global_Sales 0
  11. dtype: int64
  1. # 丢弃缺失值Year、Publisher
  2. game_df.dropna(axis=0, subset=['Year', 'Publisher'],inplace=True)
  3. game_df.isnull().sum()
  1. Name 0
  2. Platform 0
  3. Year 0
  4. Genre 0
  5. Publisher 0
  6. NA_Sales 0
  7. EU_Sales 0
  8. JP_Sales 0
  9. Other_Sales 0
  10. Global_Sales 0
  11. dtype: int64
  1. #重复值处理
  2. game_df.drop_duplicates(inplace=True)
  3. game_df.info()
  1. <class 'pandas.core.frame.DataFrame'>
  2. Int64Index: 16291 entries, 1 to 16600
  3. Data columns (total 10 columns):

Column Non-Null Count Dtype

  1. --- ------ -------------- -----
  2. 0 Name 16291 non-null object
  3. 1 Platform 16291 non-null object
  4. 2 Year 16291 non-null float64
  5. 3 Genre 16291 non-null object
  6. 4 Publisher 16291 non-null object
  7. 5 NA_Sales 16291 non-null float64
  8. 6 EU_Sales 16291 non-null float64
  9. 7 JP_Sales 16291 non-null float64
  10. 8 Other_Sales 16291 non-null float64
  11. 9 Global_Sales 16291 non-null float64
  12. dtypes: float64(6), object(4)
  13. memory usage: 1.4+ MB
  1. #异常值处理
  2. game_df.groupby('Year').count()

image.png

  1. #过滤掉2017和2020年的数据
  2. df1 = game_df.loc[game_df['Year']<2017]
  3. df1.info()
  1. <class 'pandas.core.frame.DataFrame'>
  2. Int64Index: 16287 entries, 1 to 16600
  3. Data columns (total 10 columns):

Column Non-Null Count Dtype

  1. --- ------ -------------- -----
  2. 0 Name 16287 non-null object
  3. 1 Platform 16287 non-null object
  4. 2 Year 16287 non-null float64
  5. 3 Genre 16287 non-null object
  6. 4 Publisher 16287 non-null object
  7. 5 NA_Sales 16287 non-null float64
  8. 6 EU_Sales 16287 non-null float64
  9. 7 JP_Sales 16287 non-null float64
  10. 8 Other_Sales 16287 non-null float64
  11. 9 Global_Sales 16287 non-null float64
  12. dtypes: float64(6), object(4)
  13. memory usage: 1.4+ MB
  1. df1.describe()

image.png

  1. df1.describe(include='object').T

image.png

该数据集包括1980-2016年的电子游戏销售情况,其中涉及到11322款游戏,由576个发行商,31种游戏类型,12类游戏平台。

数据分析

导入Tableau进行分析

  1. #导出数据为CSV格式
  2. df1.to_csv('vgnew.csv')

观察:1、历年全球、各地区销售额 2、历年制造商发布游戏的数量 3、历年各类类型游戏销售额 4、历年各类平台游戏销售额 5、历年各游戏销售额

image.png

1980-2016年期间整体上游戏销售额呈现出“山”型,由低走高之后走低,2008年达到最高6.798亿,在NA_Sales - 在北美的销售额整体最高。

image.png

2008和2009发布游戏数量最多
image.png

1980-2016年期间,从1994年起PS、PS1、PS2、PS3、PS4这类平台游戏销售额一直在各大平台中占有较大份额

image.png

各类型游戏均占有一定份额,其中200年以后动作类和运动类型游戏份额最高

image.png

Mario系类游戏从1984年至2010间一直在各游戏中占有一定份额,可谓是一经典之作,26年近一代人的记忆。

2008年一款名为“Wii Sports”游戏销售额达8000万的销售额,远超同年其他游戏。

总结

本项目主要是利用Video Game Sales数据集对于1980-2016年全球电子游戏行业销售情况进行分析,了解电子游戏行业的发展情况。分析思路是先通过Python进行数据清洗,然后采用Tableau进行可视化分析。

主要分析了1980-2016年间游戏销售额变化,历年游戏发布数量、消费者喜爱的游戏平台、喜爱的游戏类型、喜爱的游戏。