认识数数据

什么是数据

数据就是数值,也是我们通过观察、实验或者就算得出的结果。数据有很多中,最简单的就是数字。数据可以是文字、图形、声音等。数据可以用户科技研究、设计、查证等等

数据 不是一个单独的部分,只有将字段和记录组合在一起,才能算一个完整的数据。

字段 是可以概括事物、特征的现象。

记录 是一种具体表现形式。
image.png

数据类型

数值型数据,是指直接使用自然数或度量单独进行计量的具体数值,如销售数量、金额等。对数值类型来说,可以直接用算术方法进行汇总和分析,而对其他类型的数据进行特殊方法来处理。

字符型数据,不具备计算能力的文字数据,他包括中文字符、英文字符、数字字符和其他字符。

通过设置单元格格式设置字符类型
image.png

数据处理

数据的清理

高级筛选

1、选中需要筛选的区域—“数据”选项卡—-高级

2、将筛选的数据复制到其他位置—勾选—选择不重复的记录—-选择复制到—选择单元格
image.png
image.png
函数筛选

1、借助辅助列—-在第一个单元格输入 =COUNTIF(B:B,B4)—筛选出重复的次数

2、D4输入公式==COUNTIF(B$2:B2,B2)筛选出每个学号再次重复的次数
image.png
image.png
删除重复值数据

排序删除重复项

借助之前的再次标记单机其中一个单元格,选择开启选项卡点击排序和筛选
image.png
选择降序

找到重复值

右键选择删除—整行,将所有重复次数大于1的删除
image.png
筛选删除重复项

1、开始—->排序和筛选——>选择筛选,标题出现倒三角选择符号

2、点击倒三角符号——>数字筛选——>自定义筛选

3、设置等于1——>确定,即可筛选出出现一次的
image.png
image.png
image.png

菜单删除重复项

选择数据—-删除重复项

选择对应列
image.png
image.png

条件格式

开始——>条件格式——>突出显示单元格规则——>重复值

选择将重复值填充颜色文本
image.png
image.png

数据透视法

1、选择透视的数据区域——>插入——>数据透视表——数据透视表
image.png
image.png
image.png
image.png

快速填充

1、在B2输入杭州,将鼠标变十字时候下拉到底部出现一个填充柄

2、然后选择最下面一个框,选择快速填充
image.png
image.png
输入第一个,然后选择之后,按键盘ctrl +E
image.png

查找替换

1、开始—->查找和选择——>定位(Ctrl + G)

2、勾选空值——>确定
image.png
image.png

数据分裂

先将PS替换为英文逗号符

选择数据选项卡—->分列
image.png
image.pngimage.png
image.png
image.png
image.png

数据计算

函数

image.png
image.png

函书引入

sum(求和区域)

max(查找最大值的区域)

min(查找最小值的区域)

if(判断条件,满足条件输出值,不满足条件输出值)

sumif(判断区域,判断条件,满足条件的区域求和)

sumifs(满足条件的区域求和,判断区域1,判断条件1,判断区域2,满足条件2。。。)

vlookup(匹配值,查找区域,查找的值在区域里边的第几例,精确查找)

vlookup(找啥,去哪块找,找到后你想要它的那部分,要找一模一样的还是找差不多的)

常用公式

数据清洗

Trim

功能:去除单元格两端的空格。语法:=TRIM(text)

Concatenate

功能:连接单元格内的内容Concatenate(t1,t2)

MID

功能:提取字符串中的字符。语法:=MID(text) 提取身份证:=MID(A2,7,8)

LEFT

功能:提取字符穿左边的字符穿 LEFT(text,num_chars)

RIGHT

功能:提取字符穿右边的字符传 RIGHT(text,num_chars)

relpace

relpace(A2,8,4.””)

substitute

替换字符

REPLACE(A2,8,4,””)

相关联匹配、逻辑运算、己算统计类、时间序列类

数据可视化

Excel

数据可视化的工具中最为经典的还是excel,它是快速分析数据的理想工具,也能创建公内部使用数图。不论是操作的简单还是以懂,还是美观,都是可圈可点的。虽然他不是最好的,在颜色、线条和样式上可选择的范围有限,但是作为一个高效的内部沟通工具,却是最具有性价比的可视化工具。

比萨饼图
Pizza Pie Charts,可以使数据变成披萨,视觉效果好,并且可以轻松的使用html标记和css替代javaScript对象

保利地图

Poly Maps是一个地图库,是以一个基于矢量动态、惊呼的动态图,其中风格化方面非常显著,是一款不错的数据可视化工具。

思维导图

Wiki Mind Map而如今思组导图是人们喜欢用的一种思维工具,因为它可以美观地、页面简洁地把重要的或不重要的知识放进思组号图的分支中。 在观看的时候分支既可以收起来,也可以展现出来,是一个非常好用的数据可视化工具。就像是一个知识宝库,任何数据和知识都可能会存在这个思维导图应用程序中,让人们更加全面地掌握所要讲的知识。

信息图制作

Visual.ly 是一个在线制作信息图的工具,里面有海量、精美的信息图,这些信息图完全可以体现出数据的可视化。

谷歌图

分析师可以通过 Google查找到合适的可视化图形,不需要特殊定制,对于一名新手来说,是一款很适合的数据分析可视化的工具。 不过它还是有缺点的, Google Chart Apl上的图形需要在客户端上生成。对于动态图来说,如果设备上不支持Javascript,不支持非联网状态使用,不能用不同格式保存,都会引发问题,当然对于静态图就没有这些问题了。

数据驱动文件

Data Driven Documents又可称为D3,它能够提供大量的复杂图表样式,如圆形集群、单词云、树形图等,不过此工具做出来的数据可视图会比较花哨,有时候会使数据分析大打折扣。使用的时候需要注意,最好不要大使用,至少要保证数据分析报告的简洁程度。

图表控件

Highcharts是一个制作图表的 Javascript 类库,可以制作的图表有曲线图、区域图、区域曲线图、饼装图、散状图等,其中它的时间轴可以精确到毫秒,是一款适合新手的数据可视化工具。

三维透视图

R就是所谓的R语言,它主要用于数据分析、绘图的语言和操作环境,可以用作矩阵计,作为用来分析数据集的统计组件包,相对其他的工具来说R是一个非常复杂的工具。 其学习使用的时间是很漫长的,不过R拥有强大的社区和组件库,如果学会使用了R工具,那么数据可视化就完全不会有问题,还可以在上面学习一些新的知识。

复杂网络分析软件

Gephi 是进行社交图谱数据可视化分析的工具,以及动态和分层图的交互可视化与探测开源的工具,可作为探索性数据分析、链接分析、社交网络分析等数据可视化的利器。它不但能处理大规模数据集并生成漂亮的可视化图形,还能对数据进行清洗和分类,不过想要学会其操作也需要一段时间的沉淀,才能无压力地诠释其所有的功能。

认识数据图表

在数据分析中,数据图表是非常重要的一员,如果数据图表不能清晰地展示出数据,则会难以展示出数据源,不能很好地把数据释出来,不易把数据依据传达给企业决策者或是普通读者。

图表的作用与分类 数据图表的作用有以下4点:

可以直观地体现出数据所要表达的现象,在图表上可以直接精确到数字、数据走势,非常有利于企业决策者的可行性思考和参考。

能非常形象地把杂乱无章的数据、难懂繁多的数据,以简洁、抽象的现实体现出来,是一种强大的“可视化”手段,使阅读者更加容易理解数据分析的一切主题。

图表中可以用其他的颜色突出重点,可以有效地把数据分析中的重点传递给阅读的人。

在数据报告中越专业的图表展示,越能体现出数据分析师的专业性、严谨性,能大大地提高数据分析师在人们心中的形象。

图表大多都是以柱形图、饼图、条形图、散点图、折线图、表格等构成,这些也是人们用得最多的基础图表类型了,它们能体现出数据简洁、明了的精神。

图表之间的关系

一般数据分析师在分析数据的时候,首先会制作一张表格,然后再把表格做成可视图,这样一来,不难理解图表之间存在着依存关系、血脉关系。如果没有了表,那么图有可能不能快捷地制作出来如果没有了图,那么表将会失去一定的风采,不能引起企业决策者的注意。 但是在一份数据分析报告中,不能只单调地通篇使用“图”或“表”,这样会在一定程度上影响数据报表的权威性。因为有些重要的数据还是需要表格诠释出来的。图具有抽象化的持点,井不能把数据一个不漏地体现出来,而表格却可以,只是那样会显得笨重,数据太多会使阅读的人眼花缭乱。 因此,图表应该合理搭配,在数据分析报告中共进退,一同诠释数据所体现的问题,起挖掘数据背后的秘密。

常用图表制作

002 Excel - 图33

图表区 —— 整个图表对象所在的区域,它就像一个“容器”,承载了所有其他图表元素,以及你添加到它里面的其他对象。

图例——指明图表中的图形代表哪个数据系列。当只有一个数据系列时,Exce也会显示图例,显然是多余的。

绘图区——包含数据系列图形的区域。

坐标轴——包括横坐标轴和纵坐标轴,一般也称为X轴和Y轴。坐标轴上包括刻度线、刻度线标签。某些复杂的图表会使用到次坐标轴,一个图表可以有4个坐标轴,即主X、Y轴和次X、Y轴。

图表标题——Excel默认使用系列名称作为图表标题,建议修改为一个更具描述性的标题。

网格线——包括水平和垂直的网格线,分别对应于Y轴和X轴的刻度线。一般使用水平的网格线作为比较数值大小的参考线。

数据系列——根据数据源绘制的图形,用来形象化地反映数据,是图表的核心。

插入到图表中的其他对象——如文本框、线条等自选图形,用来对图表作进一步的阐述。

柱形图

1、“插入”选项卡—-“图表”—-选择“柱形图”(默认图表自己选择所有数据)

2、点击选中插入后的图表—-“设计”选项卡—-点击“选择数据”—-弹出“选择数据源”对话框—-“图表数据区域”选择对应列

3、点击“水平(分类)轴标签”下的“编辑”—-弹出“轴标签” —-选择列数据区域—-确定

4、可以点击图表的不同区域,对图表进行设置边框、颜色和大小等
image.png
image.png
image.png
image.png
组合图 平均线图 瀑布图 漏斗图 饼图 复合饼图 直方图 散点图 气泡图 雷达图 地图 SmartArt图形
**

数据分析流程

1、明确目的和思路

2、收集数据

3、数据处理

4、数据分析

5、数据展现

6、数据分析报告

7、应用于行业解决行业问题