认识数数据
什么是数据
数据就是数值,也是我们通过观察、实验或者就算得出的结果。数据有很多中,最简单的就是数字。数据可以是文字、图形、声音等。数据可以用户科技研究、设计、查证等等
数据 不是一个单独的部分,只有将字段和记录组合在一起,才能算一个完整的数据。
字段 是可以概括事物、特征的现象。
数据类型
数值型数据,是指直接使用自然数或度量单独进行计量的具体数值,如销售数量、金额等。对数值类型来说,可以直接用算术方法进行汇总和分析,而对其他类型的数据进行特殊方法来处理。
字符型数据,不具备计算能力的文字数据,他包括中文字符、英文字符、数字字符和其他字符。
数据处理
数据的清理
高级筛选
1、选中需要筛选的区域—“数据”选项卡—-高级
2、将筛选的数据复制到其他位置—勾选—选择不重复的记录—-选择复制到—选择单元格
函数筛选
1、借助辅助列—-在第一个单元格输入 =COUNTIF(B:B,B4)—筛选出重复的次数
2、D4输入公式==COUNTIF(B$2:B2,B2)筛选出每个学号再次重复的次数
删除重复值数据
排序删除重复项
借助之前的再次标记单机其中一个单元格,选择开启选项卡点击排序和筛选
选择降序
找到重复值
右键选择删除—整行,将所有重复次数大于1的删除
筛选删除重复项
1、开始—->排序和筛选——>选择筛选,标题出现倒三角选择符号
2、点击倒三角符号——>数字筛选——>自定义筛选
3、设置等于1——>确定,即可筛选出出现一次的
菜单删除重复项
选择数据—-删除重复项
条件格式
开始——>条件格式——>突出显示单元格规则——>重复值
数据透视法
1、选择透视的数据区域——>插入——>数据透视表——数据透视表
快速填充
1、在B2输入杭州,将鼠标变十字时候下拉到底部出现一个填充柄
2、然后选择最下面一个框,选择快速填充
输入第一个,然后选择之后,按键盘ctrl +E
查找替换
1、开始—->查找和选择——>定位(Ctrl + G)
数据分裂
先将PS替换为英文逗号符
数据计算
函数
函书引入
sum(求和区域)
max(查找最大值的区域)
min(查找最小值的区域)
if(判断条件,满足条件输出值,不满足条件输出值)
sumif(判断区域,判断条件,满足条件的区域求和)
sumifs(满足条件的区域求和,判断区域1,判断条件1,判断区域2,满足条件2。。。)
vlookup(匹配值,查找区域,查找的值在区域里边的第几例,精确查找)
vlookup(找啥,去哪块找,找到后你想要它的那部分,要找一模一样的还是找差不多的)
常用公式
数据清洗
Trim
功能:去除单元格两端的空格。语法:=TRIM(text)
Concatenate
功能:连接单元格内的内容Concatenate(t1,t2)
MID
功能:提取字符串中的字符。语法:=MID(text) 提取身份证:=MID(A2,7,8)
LEFT
功能:提取字符穿左边的字符穿 LEFT(text,num_chars)
RIGHT
功能:提取字符穿右边的字符传 RIGHT(text,num_chars)
relpace
relpace(A2,8,4.””)
substitute
替换字符
REPLACE(A2,8,4,””)
相关联匹配、逻辑运算、己算统计类、时间序列类
数据可视化
Excel
数据可视化的工具中最为经典的还是excel,它是快速分析数据的理想工具,也能创建公内部使用数图。不论是操作的简单还是以懂,还是美观,都是可圈可点的。虽然他不是最好的,在颜色、线条和样式上可选择的范围有限,但是作为一个高效的内部沟通工具,却是最具有性价比的可视化工具。
比萨饼图
Pizza Pie Charts,可以使数据变成披萨,视觉效果好,并且可以轻松的使用html标记和css替代javaScript对象
保利地图
Poly Maps是一个地图库,是以一个基于矢量动态、惊呼的动态图,其中风格化方面非常显著,是一款不错的数据可视化工具。
思维导图
Wiki Mind Map而如今思组导图是人们喜欢用的一种思维工具,因为它可以美观地、页面简洁地把重要的或不重要的知识放进思组号图的分支中。 在观看的时候分支既可以收起来,也可以展现出来,是一个非常好用的数据可视化工具。就像是一个知识宝库,任何数据和知识都可能会存在这个思维导图应用程序中,让人们更加全面地掌握所要讲的知识。
信息图制作
Visual.ly 是一个在线制作信息图的工具,里面有海量、精美的信息图,这些信息图完全可以体现出数据的可视化。
谷歌图
分析师可以通过 Google查找到合适的可视化图形,不需要特殊定制,对于一名新手来说,是一款很适合的数据分析可视化的工具。 不过它还是有缺点的, Google Chart Apl上的图形需要在客户端上生成。对于动态图来说,如果设备上不支持Javascript,不支持非联网状态使用,不能用不同格式保存,都会引发问题,当然对于静态图就没有这些问题了。
数据驱动文件
Data Driven Documents又可称为D3,它能够提供大量的复杂图表样式,如圆形集群、单词云、树形图等,不过此工具做出来的数据可视图会比较花哨,有时候会使数据分析大打折扣。使用的时候需要注意,最好不要大使用,至少要保证数据分析报告的简洁程度。
图表控件
Highcharts是一个制作图表的 Javascript 类库,可以制作的图表有曲线图、区域图、区域曲线图、饼装图、散状图等,其中它的时间轴可以精确到毫秒,是一款适合新手的数据可视化工具。
三维透视图
R就是所谓的R语言,它主要用于数据分析、绘图的语言和操作环境,可以用作矩阵计,作为用来分析数据集的统计组件包,相对其他的工具来说R是一个非常复杂的工具。 其学习使用的时间是很漫长的,不过R拥有强大的社区和组件库,如果学会使用了R工具,那么数据可视化就完全不会有问题,还可以在上面学习一些新的知识。
复杂网络分析软件
Gephi 是进行社交图谱数据可视化分析的工具,以及动态和分层图的交互可视化与探测开源的工具,可作为探索性数据分析、链接分析、社交网络分析等数据可视化的利器。它不但能处理大规模数据集并生成漂亮的可视化图形,还能对数据进行清洗和分类,不过想要学会其操作也需要一段时间的沉淀,才能无压力地诠释其所有的功能。
认识数据图表
在数据分析中,数据图表是非常重要的一员,如果数据图表不能清晰地展示出数据,则会难以展示出数据源,不能很好地把数据释出来,不易把数据依据传达给企业决策者或是普通读者。
图表的作用与分类 数据图表的作用有以下4点:
可以直观地体现出数据所要表达的现象,在图表上可以直接精确到数字、数据走势,非常有利于企业决策者的可行性思考和参考。
能非常形象地把杂乱无章的数据、难懂繁多的数据,以简洁、抽象的现实体现出来,是一种强大的“可视化”手段,使阅读者更加容易理解数据分析的一切主题。
图表中可以用其他的颜色突出重点,可以有效地把数据分析中的重点传递给阅读的人。
在数据报告中越专业的图表展示,越能体现出数据分析师的专业性、严谨性,能大大地提高数据分析师在人们心中的形象。
图表大多都是以柱形图、饼图、条形图、散点图、折线图、表格等构成,这些也是人们用得最多的基础图表类型了,它们能体现出数据简洁、明了的精神。
图表之间的关系
一般数据分析师在分析数据的时候,首先会制作一张表格,然后再把表格做成可视图,这样一来,不难理解图表之间存在着依存关系、血脉关系。如果没有了表,那么图有可能不能快捷地制作出来如果没有了图,那么表将会失去一定的风采,不能引起企业决策者的注意。 但是在一份数据分析报告中,不能只单调地通篇使用“图”或“表”,这样会在一定程度上影响数据报表的权威性。因为有些重要的数据还是需要表格诠释出来的。图具有抽象化的持点,井不能把数据一个不漏地体现出来,而表格却可以,只是那样会显得笨重,数据太多会使阅读的人眼花缭乱。 因此,图表应该合理搭配,在数据分析报告中共进退,一同诠释数据所体现的问题,起挖掘数据背后的秘密。
常用图表制作
图表区 —— 整个图表对象所在的区域,它就像一个“容器”,承载了所有其他图表元素,以及你添加到它里面的其他对象。
图例——指明图表中的图形代表哪个数据系列。当只有一个数据系列时,Exce也会显示图例,显然是多余的。
绘图区——包含数据系列图形的区域。
坐标轴——包括横坐标轴和纵坐标轴,一般也称为X轴和Y轴。坐标轴上包括刻度线、刻度线标签。某些复杂的图表会使用到次坐标轴,一个图表可以有4个坐标轴,即主X、Y轴和次X、Y轴。
图表标题——Excel默认使用系列名称作为图表标题,建议修改为一个更具描述性的标题。
网格线——包括水平和垂直的网格线,分别对应于Y轴和X轴的刻度线。一般使用水平的网格线作为比较数值大小的参考线。
数据系列——根据数据源绘制的图形,用来形象化地反映数据,是图表的核心。
插入到图表中的其他对象——如文本框、线条等自选图形,用来对图表作进一步的阐述。
柱形图
1、“插入”选项卡—-“图表”—-选择“柱形图”(默认图表自己选择所有数据)
2、点击选中插入后的图表—-“设计”选项卡—-点击“选择数据”—-弹出“选择数据源”对话框—-“图表数据区域”选择对应列
3、点击“水平(分类)轴标签”下的“编辑”—-弹出“轴标签” —-选择列数据区域—-确定
4、可以点击图表的不同区域,对图表进行设置边框、颜色和大小等
组合图 平均线图 瀑布图 漏斗图 饼图 复合饼图 直方图 散点图 气泡图 雷达图 地图 SmartArt图形
**
数据分析流程
1、明确目的和思路
2、收集数据
3、数据处理
4、数据分析
5、数据展现
6、数据分析报告
7、应用于行业解决行业问题