1
1.什么是问题?
正确定义问题比解决问题重要一百倍,如果一开始解决问题的方向找错了,那只会南辕北辙或者不断暴露新问题。那么什么是问题呢?问题是指通过努力获得的结果(现状)与期望的结果(目标)之间的差距。判断一个问题是否存在,通常需要判断现状和目标两者之间是否存在差距。如果有差距,证明问题是存在的;如果没有差距,那么问题就不存在了。例如,在数据分析中我们经常碰到的一个指标是新增用户数,一天一个运营同学跑过来问你说这个月的新增用户数有点低,只有3万,而我的目标是5万,你能帮我分析一下吗?这其中目标是5万而现实是3万,3万到5万的差距便是问题。2.界定问题的框架
如上所述,问题是现状和目标之间存在的差距,这种差距不是凭空产生的,而是由特定背景和一系列特定条件决定的。这些条件可能很简单,也可能涉及复杂的因果关系。无论是哪种情况,了解其发展历史,是确定差距的性质和把握其重要性的基本过程。 下面通过一个例子来说明如何界定问题。假如你有一家公司,公司销售产品的方法是,销售人员列出潜在客户的名单,写好针对潜在客户的推销信,然后按照名单邮寄给他们,接着就会顺利收到订单。公司一直做得很出色,销售额以大约每年10%的速度持续增长,但到了今年第四季度,种种迹象表明销售额将减少10%,而不是增加10%。面对这突如其来的问题,公司希望尽快采取有效措施,使销售额恢复正常。 邮寄推销信后产生的结果与期望的结果之间存在差距,这种差距就是问题。为了解决问题,必须找出产生差距的原因,原因通常可以从问题的背景中找到。因此,界定问题的框架需要先回答以下3个问题:- 发生了什么事情?(背景:切入点/序幕+困扰/困惑)
- 我们不愿看到什么?(非期望结果,现状,R1)
- 我们想要什么?(期望结果,目标,R2)
- 潜在客户名单已经失效。
- 推销信没有说服力。
- 邮寄效率低。
3.问题的各要素
如上所述,需要确定4个要素后才能界定问题,并由此寻找解决方案。这4个要素分别是:- 切入点/序幕
- 困扰/困惑
- 现状(R1,非期望结果)
- 目标(R2,期望结果)
3.1 切入点/序幕
请你设想一下,自己正静静地坐在一个黑暗的剧场里。大幕缓缓拉开,舞台布景呈现的是某一特定时刻、特定地点,这就是问题的切入点或序幕。某一事件的发生使剧情得以展开,这就是困扰/困惑。 同样的流程也适用于界定问题。只不过在大幕开启之后,在时空的某个特定点,你看到的是自己或客户所在的企业或行业遇到了问题。序幕是由你可以很容易想到的结构或流程组成的,如下图所示:3.2 困扰/困惑
某些事件的发生影响了结构或流程的正常运行。困扰/困惑是指现在发生、即将发生或未来会发生的事件,它对序幕中介绍的相对稳定的背景构成了威胁,并因此引发了非期望结果(现状,R1)。 困扰/困惑产生的原因有: 外部原因:结构或流程所在环境以外的地方发生变化,如出现新的竞争对 手、改用新技术、政府或消费政策发生变化等。 内部原因:公司内部的变化,如增加业务流程、采用新的计算机系统、进军新市场、调整产品线等。 近期认识到的其他原因:自己认识到或有证据表明肯定或可能发生的变化,如产品/流程的效能落后、运营水平低于平均水平、市场研究显示消费者态度可能发生改变等。 有时候,由于信息不充分,你无法确定是什么使你认识到问题的存在,但你能够找到对现有结构或流程不满意的地方。这时候,你大可不必费力描述困扰/困惑,直接跳到现状(R1)即可。3.3 现状,非期望结果(R1)
R1是指读者需要设法解决或有可能面临的问题,或者是有可能抓住的机会。这通常是由困扰/困惑(有外部原因、内部原因,以及近期认识到的其他原因)引起的。在咨询行业,非期望结果是客户前来咨询的主要动因,虽然在某些情况下,客户可能并不清楚导致R1的真正原因。困扰/困惑也许会带来目前尚未发现或出现的机会,但它更有可能:- 对公司结构或流程产生负面影响。
- 扰乱某一特定方面的工作。
- 引发(或应该会引发)对业务、产品、流程的重新思考。
- 挑战(或应该会挑战)有关客户、市场、竞争、核心竞争力、流程或技术的基本假设。
3.4 目标,期望结果(R2)
读者希望现有的结构或流程能产生期望结果,而不是非期望结果。(如果R1是机会,则希望利用它。)只有尽可能具体地描述R2,才能判断你是否能取得期望结果。如果对期望结果没有全面准确的描述,就很难在思考过程中选择解决方案。准确描述R2可以用具体的数字,也可以用具体的结果,比如:- 实现全年增长目标。
- 将产品上市时间缩短1/3。
- 让超市收取合理的试销费用。
- 调整系统以保证正常运行。
- 有足够的生产能力满足预估需求。
4.总结
本节课我们介绍了什么是问题,界定问题的框架以及问题的各个要素。2
明确定义问题之后,我们就需要收集相关的数据来分析问题。本节课我们来讲述如何收集数据。1.如何收集数据
有许多不同的技术可以用来收集不同类型的定量数据。不论采取何种方法来收集数据,都可以遵循一个基本的流程,该流程包含以下5个步骤。1.1 确定收集哪些数据
在收集数据之前,我们需要确定收集数据的细节。更进一步,确定收集的数据需要覆盖的主题,从哪里收集这些数据以及需要收集多少数据。使用收集的数据来达成什么目标将决定了对上述问题的回答。例如,你决定收集关于年龄位于18到34之间的访问者对网站上什么类型的文章最感兴趣的数据。同样的,你也可以收集上个月从你的公司购买了商品的所有顾客的平均年龄。1.2 为数据收集设置时间范围
现在可以开始为数据收集制定一个计划。在计划的早期阶段,需要为数据收集设定一个时间范围。例如,当你需要收集的是交易数据或者网站的访问数据,这时候,你需要采用一种方法以便能够长期地对数据进行跟踪。再例如,你需要对一个具体活动的数据进行追踪,在这种情况下,你只需要对一段时期内的数据进行追踪。在上述这些例子中,你需要对何时开始数据的采集以及何时结束数据的采集有一个明确的计划。1.3 确定数据收集方法
在这一步中,我们需要选择构成数据收集策略核心的数据收集方法。为了选择正确的数据收集方法,需要考虑将要收集的数据类型,收集的数据的时间范围。在后面的部分,我们会介绍多种数据收集的方法。1.4 数据收集
一旦你完成了数据收集计划的制定,就可以开始实施数据收集策略并开始数据的收集。在数据收集的过程中,一定要严格按照计划并不断查看计划执行的进度。随着数据收集的进行,由于外界环境的变化或者获得了最新的信息,我们要随时调整我们的数据收集计划。2.数据收集方法
为了达成数据收集的目标,我们该如何收集数据呢?现实中,有多种方法可以用来收集数据。例如,可以通过直接询问客户的方式,可以通过监控用户行为的方式等等。至于该选择哪一种方式,取决于你的目标以及要收集的数据的类型。下面是几种常见的收集数据的方式。2.1 调查问卷
调查通过直接询问客户的方式来收集数据,通过调查可以收集定性的数据或定量的数据。一份调查问卷会包含一个问题列表,受访者可以使用一个或两个词来回答每个问题。另外,对于每个问题,调查问卷往往提供多个选项供受访者选择。调查问卷可以在线上进行,通过邮件或者电话的方式。最简单的方法是创建一个线上问卷,把问卷放在自己的网站上或者第三方平台上。然后将线上问卷的链接通过社交媒体传播出去。2.2 跟踪线上行为
如果你有自己的网站或者app,那么它们是绝佳的收集用户数据的工具。当有人访问你的网站时,会产生多达40个数据点。通过这些数据可以知道多少人访问了你的站点,他们在站点上停留了多长时间,他们点击了什么以及其他的更多的行为。2.3 跟踪交易数据
不管是通过线下还是线上进行商品的销售,通过对交易数据的分析,可以使得你获得对客户和商业最有价值的洞察。这些交易数据可能存储在客户关系管理系统中、线上商店数据中、第三方购物网站中以及线下销售点的系统中。通过这些交易数据我们可以知道卖了多少产品,那种类型的产品最受欢迎以及典型用户的购买频率是怎样的。2.4 跟踪线上营销数据
我们还可以通过线上营销活动来收集数据,不管营销活动是通过网页端进行的还是通过邮件进行的或者通过其他方式进行的。除了线上营销活动以外,我们还可以将线下活动的信息导入到系统中。在进行线上营销活动时,展示我们投放的广告的软件会给到我们一些相关的数据,这些数据包括谁点击了广告,在什么时间点点击的,他们使用的设备等等。2.5 监控社交媒体数据
社交媒体是用户数据另一个重要的来源。你可以通过查看哪些人关注了你,他们有什么共同特征,以加深对你的目标用户的了解。许多社交媒体网站还会提供一些分析数据给你,通过这些分析数据我们可以了解品牌的影响力如何。2.6 监控实体店的人流量
如果你有一个实体的商店,同样可以通过人流量的监控来获得商店经营状况的洞察。最简单的一种方式就是在商店门口安装一个客流量计数器,通过这个计数器我们可以知道每天有多少人到过商店,进一步我们还可以知道那天的客流量最多,一天中那个小时的客流量最多等等。我们还可以安装带有运动传感器的监控系统,这样的话我们就可以追踪客户在店内的运动路径。通过这些数据,我们可以知道店内的那部分商品最受欢迎。3.总结
本节课我们介绍了如何收集数据以及收集数据的几种方法。3
在进行数据分析时,得出的结论准确与否在很大程度上依赖于数据质量的好坏。一般来说,如果使用的数据质量很差,得出的结论也很不准确。如果要使用数据来做决策,在使用数据之前必须对数据进行清洗以保证数据的质量。1.什么是数据清洗?
数据清洗就是对数据集中不正确的、相互冲突的、格式错误的、重复的以及不完整的数据进行修复或删除。如果数据是错误的,通过数据得出的结论便是不准确的,即使它们看起来正确。2.数据清洗和数据转换的区别?
数据清洗是将不属于数据集的数据删除掉,数据转换是将数据从一种格式或结构转换为另一种格式或结构。3.如何清洗数据?
尽管由于数据类型的不同而采用的数据清洗技术多少会有些差异,但是基本上可以遵照如下步骤。3.1 删除重复或不相关数据
从数据集中删除不需要的数据,包括重复的和不相关的数据。重复数据多产生在数据收集阶段。当我们将多处的数据集进行合并,通过爬虫爬取数据以及接收来自多客户端、多部门的数据时,往往会导致重复数据的产生。去重是在数据清洗的过程中需要重点考虑的一块。不相关数据指的是和我们将要进行分析的问题不相关的数据。例如,我们将要对千禧年的客户进行分析,但是数据集中包含了老一辈的数据,这时候我们便可以将这些不相关的数据删除,删除不相关数据之后将使我们的分析更有效率并且更能聚焦于主要目标。3.2 修复结构上的错误
结构错误指的是数据集中奇怪的命名方式、拼写错误以及不正确的大小写。这种不一致会导致错误的分类。例如,在数据集中“N/A”和“Not Applicable” 有可能会同时出现,但是在分析时,他们表示的是同一个意思,应该归为同一类。3.3 过滤不需要的异常值
通常情况下,有一些值乍一看不应该出现在我们要分析的数据集中。如果你有足够的理由来删除这些异常值,例如这些异常值由于不正确的数据输入造成的,那么删除这些异常值将会提升我们的数据分析效率。但是,有些时候异常值的存在就是为了证明某个理论的。在这种情况下,我们要记住的是,异常值的存在并不意味着它是不正确的。这时候,我们需要确认这个异常值的有效性,如果一个异常值被确认是和分析不相关的或者是错误的,那么可以考虑对其进行删除。3.4 处理缺失数据
因为许多算法不接受缺失值,所以需要对缺失值进行处理。有多种方法可以用来处理缺失值,没有哪一种方法是最优的,我们可以综合考虑这些方法以选择最适合的方法。- 丢弃包含缺失值的记录,这样做会丢失一些信息,所以在丢弃数据记录之前一定要做认真的考虑。
- 根据其他数据来对缺失值进行填充,使用这种方法有可能会损失数据的完整性,因为对数据的填充是基于一些假设的,并不是真实的值。
4.高质量数据的特征
- 有效的。数据符合业务规则或约束。
- 准确的。数据接近真实值。
- 完整的。包含了需要的全部数据。
- 一致的。某个数据集或者多个数据集中的数据是一致的。
- 统一的。数据采用的度量单位是统一的。
5.清洗数据的好处
拥有干净的数据会从整体上提升效率并且能够使用高质量的数据来做商业决策。6.总结
本节课我们讲述了数据清洗的重要性以及如何做数据清洗。4
本节课我们对数据分析中常用的方法做下介绍。1.数据分析方法
1.1 5W2H分析法
5W2H分析法又叫七问分析法,是二战中美国陆军兵器修理部首创。简单、方便,易于理解、使用,富有启发意义,广泛用于企业管理和技术活动,对于决策和执行性的活动措施也非常有帮助,也有助于弥补考虑问题的疏漏。 发明者用五个以W开头的英语单词和两个以H开头的英语单词进行设问,发现解决问题的线索,寻找发明思路,进行设计构思,从而搞出新的发明项目,这就叫做5W2H法。 WHAT————是什么?目的是什么?做什么工作? WHY————为什么要做?可不可以不做?有没有替代方案? WHO————谁?由谁来做? WHEN————何时?什么时间做?什么时机最适宜? WHERE————何处?在哪里做? HOW————怎么做?如何提高效率?如何实施?方法是什么? HOW MUCH————多少?做到什么程度?数量如何?质量水平如何?费用产出如何? 在这里举一个数据分析中最常见的指标波动问题的例子,如果知乎的人均阅读时长下降了,作为数据分析师该怎么分析这个问题?下面使用5W2H分析法对这个问题进行分析。 WHAT————人均阅读时长的含义是什么?是怎么计算出来的?分子和分母分别是什么? WHY————人均阅读时长为什么下降了?可能的原因有哪些? WHO————哪部分人群的阅读时长下降了?是所有用户的阅读时长都下降了,还是部分人群? WHEN————时长是在什么时候开始下降的?下降这个趋势发生多久了? WHERE————具体是知乎的哪个模块的阅读时长下降了?哪个话题下的阅读时长下降了? HOW————时长下降了,我们应该怎么应对? HOW MUCH————时长下降的程度是什么样的?是轻微的下降,还是大幅的下降?是突然的下降,还是逐渐的下降? 为了逻辑更加顺畅,将5W2H的顺序调整一下: WHAT(明确口径)————人均阅读时长的含义是什么?是怎么计算出来的?分子和分母分别是什么? WHEN(分析趋势)————时长是在什么时候开始下降的?下降这个趋势发生多久了? HOW MUCH(分析影响程度)————时长下降的程度是什么样的?是轻微的下降,还是大幅的下降?是突然的下降,还是逐渐的下降? WHO(人群拆解)————哪部分人群的阅读时长下降了?是所有用户的阅读时长都下降了,还是部分人群? WHERE(模块拆解)————知乎里具体是哪个模块的阅读时长下降了?哪个兴趣话题下的阅读时长下降了? WHY(原因推断)————通过趋势判断、人群拆解、模块拆解的发现进行推断,这部分人群或这部分模块下降的原因可能是什么? HOW(解决方案)————根据分析的发现和原因的推断,对业务提出建议,我们应该怎么解决时长下降的问题? 到这里我们便通过5W2H分析法建立了一个比较完整的数据分析思路。1.2 逻辑树分析法
逻辑树分析方法是把复杂问题拆解成若干个简单的子问题,然后像树枝那样逐步展开。在常用的分析方法中,逻辑树分析法是最基础最常用的分析方法。逻辑树分析法的目的,就是把复杂问题变得简单。我们可以把问题看做树木的树干,通过不同的分枝,把问题拆解为一个个的子问题。通过解决单独的子问题,从而汇总得出问题的答案。下面用经典的费米问题来解释逻辑树分析法。费米问题命名来自美国科学家恩利克·费米,费米问题常常会用来检验一个人是否具备理科思维,或具有问题拆解的能力。芝加哥有多少调音师这样一个问题便是经典的费米问题。 有人曾经问科学家费米:“芝加哥有多少位钢琴调音师?为了保持钢琴音的准确性,需要定期由专业人员检查,调整不准确的音。从事这类工作的人被称为钢琴调音师。通过逻辑树方法进行问题的拆解,将问题拆解为2个子问题。 第一个子问题:全部钢琴调音师一年的总工作时长则取决于3个子问题:- 芝加哥有多少架钢琴?
- 钢琴每年要调几次音?
- 调一次音需要多少时间?
- 芝加哥有多少人口。
- 有钢琴的人占多少比例。
1.3 多维度拆解分析方法
多维度拆解法就是把复杂问题按照维度拆解成简单问题,观察数据异动,发现问题的原因。我们举个例子,有以下数据: 原来:男生20人,点击1人,点击率5%;女生100人,点击99人,点击率99%;总体点击率83.3%。 现在:男生100人,点击6人,点击率6%;女生20人,点击20人,点击率100%;总体点击率21.7%。 首先问个问题:在男生及女生的点击率都增加的情况下,为啥总体的点击率是减少的?因为我们只看到了整体的数据而忽略了数据内部各个部分的差异,这些差异的忽略就有可能造成判断的偏差。在上面的数据中,之所以会出现在男生及女生点击率都增加的情况下,总体的点击率是下降的现象,是因为男女之间的点击率有较大的差异性,而低点击率群体占比的增大造成了这个结果。这就是多维度拆解分析方法。在进行拆解的时候,一般会从指标的构成和业务流程两个角度去拆解。下面我们来举个例子,有个APP 的日用户留存率下降了5%,该怎么分析呢?我们可以从指标构成和业务流程两个角度去拆解分析。首先,我们对用户进行细分,包括新老,渠道,活动,画像等多个维度,然后再分析每个维度下不同用户的次日留存率,通过这种方式来定位到导致留存率下降的用户群体是谁。通过指标分析到目标客户群体后,我们可以具体情况具体分析,通过参考内部-外部因素来进行分析。 内部元素:我们知道,无论是电商购买还是APP留存,都是一个漏斗模型,APP从业务分解来看,就是新用户->首页->留下来->离开这个漏斗模型。在这个期间,会有很多因素影响着: 获客渠道:获客渠道质量低,活动获取了非目标客户。 满足要求:首页推荐的内容不满足用户的需求,用户在下载该APP后没有找到自己满意的内容。 提活手段:签到等提活手段没有达到预期效果,产品使用周期率低导致大量用户在短时间内不再使用该APP。 外部因素:即为PEST分析模型。1.4 对比分析方法
1.4.1 什么是对比分析法? 对比分析法也称比较分析法,是把客观事物加以比较,以达到认识事物的本质和规律并做出正确的评价。 对比分析法通常是把两个相互联系的指标数据进行比较,从数量上展示和说明研究对象规模的大小,水平的高低,速度的快慢,以及各种关系是否协调。在对比分析中,选择合适的对比标准是十分关键的步骤,选择的合适,才能做出客观的评价,选择不合适,评价可能得出错误的结论。 1.4.2 对比分析法的形式 对比分析法根据分析的特殊需要又有以下两种形式:- 绝对数比较
- 相对数比较
- 结构相对数:将同一总体内的部分数值与全部数值对比求得比重,用以说明事物的性质、结构和质量。如居民食品支出额占消费支出总额比重、产品合格率等。
- 比例相对数:将同一总体内不同部分的数值对比,表明总体内各部分的比例关系,如人口性别比例、投资与消费比例等。
- 比较相对数:将同一时期两个性质相同的指标数值对比,说明同类现象在不同空间条件下的数量对比关系。如不同地区商品价格对比,不同行业、不同企业间某项指标对比等。
- 强度相对数:将两个性质不同但有一定联系的总量指标对比,用以说明现象的强度、密度和普遍程度。如人均国内生产总值用元/人表示,人口密度用人/平方公里表示。
- 计划完成程度相对数:是某一时期实际完成数与计划数对比,用以说明计划完成程度。
- 动态相对数:将同一现象在不同时期的指标数值对比,用以说明发展方向和变化的速度。如发展速度、增长速度等。
- 时间标准:选择不同时间的指标数值作为对比标准,最常用的是与上年同期比较即“同比”,还可以与前一时期比较,此外还可以与达到历史最好水平的时期或历史上一些关键时期进行比较。
- 空间标准:选择不同空间指标数据进行比较。
- 经验或理论标准:通过对大量历史资料的归纳总结而得到的标准。如衡量生活质量的恩格尔系数。理论标准则是通过已知理论经过推理得到的依据。
- 计划标准:计划标准即与计划数、定额数、目标数对比。
1.5 分组分析法
分组分析法是一种重要的数据分析方法,这种方法是根据数据分析对象的特征,按照一定的标志(指标),把数据分析对象划分为不同的部分和类型来进行研究,以揭示其内在的联系和规律性。 分组的目的是为了便于对比,把总体中具有不同性质的对象区分开,把性质相同的对象合并在一起,保持各组内对象属性的一致性、组与组之间属性的差异性,以便进一步运用各种数据分析方法来解构内在的数量关系,因此分组法必须与对比法结合运用。 分组分析法的关键在于确定组数与组距。在数据分组中,各组之间的取值界限称为组限,一个组的最小值称为下限,最大值称为上限;上限与下限的差值称为组距;上限值与下限值的平均数称为组中值,它是一组变量值的代表值。 采用组距分组需要经过以下几个步骤。- 确定组数。这个可以由数据分析师决定,根据数据本身的特点来判断确定。由于分组的目的之一是为了观察数据分布的特征,因此确定的组数应适中。如果组数太少,数据的分布就会过于集中,组数太多,数据的分布就会过于分散,这都不便于观察数据分布的特征和规律。
- 确定各组的组距。组距是一个组的最大值与最小值之差,可根据全部数据的最大值和最小值及所分的组数来确定,即组距=(最大值-最小值)/组数。
- 根据组距大小,对数据进行分组整理,划归至相应组内。
1.6 漏斗图分析法
漏斗图是一个适合业务流程比较规范、周期比较长、各流程环节涉及复杂业务过程比较多的管理分析工具。为什么要在分析业务流程的时候使用漏斗图?因为漏斗图是对业务流程最直观的一种表现形式,并且也最能说明问题的所在。通过漏斗图可以很快发现业务流程中存在问题的环节。 例如漏斗图用于网站中某些关键路径的转化率的分析,不仅能显示用户从进入网站到实现购买的最终转化率,同时还可以展示整个关键路径中每一步的转化率,如下图所示: 单一的漏斗图无法评价网站某个关键流程中各步骤转化率的好坏。我们可以利用之前介绍的对比分析方法,对同一环节优化前后的效果进行对比分析,或对同一环节不同细分用户群的转化率作比较,或对同行业类似产品的转化率进行对比,等等。 漏斗图不仅能告诉我们用户在业务中的转化率和流失率,还可以告诉我们各种业务在网站中的受欢迎程度和重要程度。通过对不同业务的漏斗图进行对比,可以找出何种业务在网站中更受用户的欢迎或更吸引用户。只要掌握了之前介绍的对比分析方法,就可以从不同业务角度发现隐藏在其中的业务问题。2.总结
本节课就一些常见的数据分析方法做了介绍。在实际的分析中还要依据具体的情况选择合适的分析方法以达到分析的目的。5
1.什么是数据可视化?
数据可视化就是对信息和数据进行图形化的展示。通过使用图表、地图等可视化元素,数据可视化给我们提供了一种更方便的了解数据的方式,通过数据可视化我们可以观察和理解数据中的趋势、异常值以及数据中包含的模式。大数据的世界中,在对大量数据进行分析以及通过数据做决策的过程中,数据可视化的工具和技术都是必不可少的。2.数据可视化的优势
我们的眼睛更容易受到颜色和图形的吸引。例如,我们可以很快速地区分红色和蓝色,正方形和圆形。在现实生活中,不管是艺术、广告还是电视剧、电影都是视觉化的。数据可视化是另一种形式的视觉艺术。当我们看到一个图表,可以很快速地了解数据的趋势和异常值。如果你曾经有过盯着一个巨大的电子表格中的数据而看不出其中的趋势时,你就能理解数据可视化在展示数据趋势这方面是多么高效。 当大数据时代扑面而来的时候,可视化是使得大量数据变得有意义的最重要的工具。一个好的数据可视化在讲述一个故事,它去除了噪音数据并突出了有用的信息。但是,一个好的数据可视化并不是简简单单的把一个图表做的好看这么简单。一个高效的数据可视化需要在形式和功能之间达成一个平衡。朴素的图表由于太过于无聊而不能引起观察者的注意,华丽的图表往往由于太注重形式而不能传递正确的信息,所以需要在形式和功能之间达成一个平衡。3.如何进行数据可视化?
如何做才能使数据可视化更有趣并且能为不同的受众所接受?不管你是新手或者经验丰富的数据分析师,在进行数据可视化之前,问自己如下问题:- 我的受众是谁?
- 他们有什么问题?
- 我为他们寻找的答案是什么?
- 我想说的是什么?
- 我的数据可视化可以激发其他什么问题?
3.1 选择正确的图表
没有哪一种图表是具有普适性的,所以我们需要认真考虑并选择正确的图表,选择的图表要最适合用来讲故事并且能够回答关键的问题。下面我们来讲下比较受欢迎的图表。 3.1.1 条形图 条形图是最常见的图表,适合用来比较不同类别的值。当我们的数据可以划分为多个不同的类别时,使用条形图可以非常有效地对其进行可视化。 3.1.2 折线图 折线图是一个由点和线组成的统计图表,常用来表示数值随连续时间间隔或有序类别的变化。折线图用于分析事物随时间或有序类别而变化的趋势。如果有多组数据,则用于分析多组数据随时间变化或有序类别的相互作用和影响。折线的方向表示正/负变化。折线的斜率表示变化的程度。 3.1.3 直方图 直方图,又称质量分布图,用于表示数据的分布情况,是一种常见的统计图表。一般用横轴表示数据区间,纵轴表示分布情况,柱子越高,则落在该区间的数量越大。 3.1.4 饼图 饼图,或称饼状图,是一个将圆形划分为几个扇形的统计图表。在饼图中,每个扇形的弧长大小,表示该种类占总体的比例,这些扇形合在一起刚好是一个完整的圆形。3.2 注意页面的布局
人类天生就是视觉动物,我们的眼睛会被一目了然地告诉我们主要信息的指标所吸引。当数据可视化结果呈现在我们眼前时,我们会很自然地寻找模式,如果模式是随机的或者没有意义,就很难理解可视化所传达的内容。为了迎合人类的习惯,请确保呈现数据的顺序或格式对观众有意义,不论是按照数字顺序还是按照字母顺序。举一个简单的例子,如果我们用于交流的语言的阅读习惯是从左到右,那么我们就要调整可视化的方案以遵守这个约定。如果使用多个图表,那么我们要确保顺序一致并且数据之间的联系要清晰。我们之所以要这样做,就是要我们的观众在观看数据可视化时不至于迷路。3.3 注意颜色的使用
在进行数据可视化时,颜色的使用很重要,它可以在不使用文字的情况下传达足够多的信息。然而,在使用颜色时要找到一个平衡点,保持简单最重要。颜色的使用是为了突出和强调信息,如果使用过多的颜色则会引入噪音,反而影响了重要信息的表达。如果使用的颜色过于单一,则不能突出重要的信息。另外,颜色联想也很重要,建议使用对观看者来说有意义的颜色,以便他们能够更快地处理信息。例如,如果我们正在对温度进行可视化,可以使用红色表示热,使用蓝色表示冷。颜色的使用将会对可视化产生重要的影响,务必保持一致性以及突出数据中的对比。3.4 通过形状和设计来传递上下文
上下文可以帮助我们在第一眼看过去就知道所要传达的信息,而不是坐下来仔细研究它。形状的使用可以讲述引人入胜的故事。例如,上面关于非洲濒危物种的图表可以让我们快速了解哪些动物处于濒危状态以及它们的脆弱程度。在使用带值的条形图来表示上述数据时,每个动物都被最小化为数字和文本,这时候图表的查看者容易迷失方向,相反,使用动物剪影使其更加有趣和直观。3.5 策略性地使用大小对值可视化
在之前的可视化例子中,使用颜色来表示动物濒临灭绝的程度。除了使用颜色之外也可以使用大小,形状大小可以根据数据值进行调整。使用形状的大小来指示值的大小也适用于地图。当可视化图表中有多个大小相同的数据点时,它们会混合在一起并且很难区分。这时候我们可以根据值的大小对图形进行缩放,并且添加颜色作为另一个标记。这时候可视化将更容易传递信息。如下图所示:3.6 注意文本的使用
最后,文本的使用可以改善可视化的效果,但是,当文本过多或没有以视觉上令人愉悦的方式组织时,文本会让人分心。在使用文本时,确保文本指出最重要的细节。相对于文本来说,虽然我们更习惯于图像,但是在真正重要的地方使用文本将使可视化产生意想不到的效果。接下来是使得可视化更加优秀的一些建议。- 将最重要的图表放在顶部或左上角。因为我们的眼睛通常首先被这个区域吸引。
- 将可视化中的图表数量限制为三个或四个。如果添加太多,就会迷失在细节中。
- 如果有多个过滤器,尝试将它们组合在一起。并用浅色边框将他们围起来,这样会给我们一个视觉提示,表明它们具有共同的特征。
- 增加可视化的互动性,互动性往往具有点石成金的作用。在增加了互动性之后,要鼓励观众进行探索,以使得他们能够参与进来。
4.总结
本节课我们讲述了如何进行可视化,在可视化的过程中要注意的事项以及颜色、文本的使用等等。6
每当进行数据分析时,我们的最终目的是将分析过程和结果写成易于理解的分析报告,而分析报告的撰写往往会对分析人员造成很大的困难。而对于大多数读者来说,数据分析报告中技术相关的内容是难于理解的。于是,不管是从写作者的角度还是从读者的角度,一个易于理解的数据分析报告的撰写都不是一件容易的事情。下面我们从三个方面来讲下如何撰写数据分析报告。1.明确内容
从你最了解的开始,在撰写数据分析报告时,你最了解的是你所做的统计,所绘的图以及对数据所建的模。从这些你最了解的内容中,你需要确定什么是最重要的,然后确定对读者来说什么是最重要的。除非你是给你的大学教授或者专业数据分析师写报告,否则可以肯定的是,没有人想知道你必须处理的所有问题,你所使用的技术,或者你在分析上有多努力。没有人会关心你的结论是来自Excel还是来自编写的R程序。他们只想听的是你的结论。 在数据分析报告撰写的过程中,我们需要时时牢记想要传达的信息,为报告撰写一个概要可以帮助我们在报告的写作过程中时时围绕着想要传达的信息。我们可以采取以下三种形式之一的概要。- 执行摘要:
- 概述:
- 摘要:
2.明确受众
每一篇关于技术写作的指导文章都告诉读者要考虑他们的受众,然而实际的情况是,能够做到这一点的作者不在多数。 在做统计分析时,首先要考虑的是对其进行分析的群体的特征。同样地,在开始撰写数据分析报告时,首先要考虑的是受众的特征。我们可以从以下几个方面来考虑受众的特征:2.1 受众是谁
受众通常是由读者相对于报告所扮演的角色来定义的。报告的受众可以定义为决策者、利益相关者、评论者或者对报告感兴趣的人。按照重要程度分,可以有主要的、次要的甚至其他更多级别的受众。如果你的报告要照顾到上述的所有受众,那么你的报告是有问题的,因为你不可能取悦所有的人。因此,在定义你的受众时,首先关注的是最重要的人,其次关注受众中最大的一群人。2.2 受众的特征
一旦明确了报告的受众,我们应该尝试了解他们的特征。也许最重要的受众特征是他们对报告所描述的主题和分析的理解能力。我们无法改变受众的知识水平,但是我们可以调整展示工作的方式。2.3 受众的目标
在数据报告的撰写过程中,我们需要知道所定义的受众的目标是什么?他们将如何处理报告中的结论?报告中的结论对他们来说是一件大事还是只是他们需要调整的事情?2.4 报告的截止日期
在撰写报告之前,我们需要知道受众想什么时候看到报告?谁必须审查报告,他们需要多长时间才能发布报告?截止日期有多严格?我们还有多长时间用来写报告?还有一个要永远记住的建议是,永远不要提交一份报告草稿供审查。2.5 报告的呈现形式
最后,应该考虑如何呈现报告以便受众能够从报告中获取足够多的有用的信息。这里有几个要注意的事项: 2.5.1 报告的打包 报告完成后,需要考虑如何将报告进行打包。需要考虑将报告打包成一封简短的信件报告、综合报告、博客或互联网文章、专业期刊文章、白皮书,还是报告会作为另一份文件的一部分被收录。 2.5.2 报告的格式 我们需要考虑报告以电子文件还是以纸质文件的形式发放?如果是电子文件,是否可以在互联网上使用?可以对它进行编辑吗?它的使用会受到限制吗?例如需要使用密码。 2.5.3 报告的外观 我们需要考虑报告将仅限于黑白还是将包括彩色?图形与文本的比例是多少?报告是传统的还是浮华的,就像营销手册一样?是否会有折叠页或像地图这样的超大插页。 2.5.4 报告的附加项 我们需要考虑除了报告之外,是否还需要提供一些项目,例如电子数据文件、分析脚本或程序代码以及计算机输出?是否必须根据报告的内容创建演示文稿? 2.5.5 报告的易访问性 在撰写报告时,需要仔细斟酌表格、图形和特殊符号的使用,因为会影响到报告的易读性。另外还应该考虑报告中颜色的使用是否会影响色盲人士的阅读。 在对受众进行全面了解的过程中,我们不必处理上述的所有细节,而且许多细节只需要片刻的思考。但是,如果能够仔细考虑上述这些因素,那么我们便会更好地了解为谁撰写报告以及应该如何撰写报告。3.吸引受众的注意力
在撰写数据分析报告时,我们必须预料到许多读者会在一段时间(有可能是15秒)后失去兴趣,即使他们在一开始有着浓厚的兴趣。因此,在撰写分析报告时,需要考虑如何吸引受众的注意力。这里有几个建议:3.1 找到共同点
每段关系都始于拥有共同点。与共同的敌人作战或解决共同的问题可以形成最牢固、最持久的纽带。因此,在报告中首先要做的事情就是建立这种共同点。如果你是在客户的要求下进行数据分析,那么建立共同点并不困难。因为客户已经沉浸在数据中,并且希望你来帮助解决问题。如果你提供不请自来的信息,那么建立共同点就不是那么容易了。有些人可能在潜意识里并不真正想要你提供的信息,尤其是当你分析他们专业领域的数据时。这时候我们可以尝试在其他领域建立共同点。也许你的分析可以用于解决读者遇到的不同问题。3.2 摒弃无关内容
所有不会推进报告进展的内容都不要在报告内出现。但是这并不意味着我们必须省略这些内容。我们可以把它归为一个附录。像数据、数据收集调查、表格以及清洗和分析程序这样的内容,除非要求出现在报告正文中,否则都应放在附录中。3.3 为报告定调
报告的写作风格会提高或降低报告的可读性。正式的语气,严格遵守语法规则,复杂的句子结构,使用第三人称和被动语态,以及大量的行话,是大多数数据分析报告的典型特征。正式的语气有利于描述细节。然而,正式的语气可能更难理解,尤其是对于不习惯阅读技术报告的人。非正式的语气,带有简单的语法和词汇、口语、缩略语、类比和幽默,非常适合于博客的写作。非正式的语气有利于讨论想法和概念,以及激励读者或传达愿景。它们更具吸引力,并且对于大多数人来说往往更容易理解。如果你是拿钱来写数据分析报告,正式的语气通常更合适,但是正式的写作通常更难阅读。3.4 优化报告
就在你认为自己已经完成数据报告写作的时候,其实你还没有。这时候你必须做更多的事情来使报告变得更好。首先,如果可以的话,花点时间将报告再通读一遍,并在通读的过程中不断改进报告。如果你认为有需要的话,将报告大声朗读出来,甚至可以在朗读时记录下来,然后进行回放,这样你可以同时调动你的视力和听力。在进行数据报告优化时,也不要忽略一个好的编辑器的作用,一个好的编辑器可以在拼写、语法、标点符号、单词选择、风格、语气、格式、参考和可访问性方面提供帮助。上述的付出通常是值得的,因为现在是追求完美的时候了。4.总结
本节课我们讲述了如何撰写数据分析报告,包括如何确定内容、明确受众以及如何让报告吸引受众的注意力。