C01 什么是数据科学

+ 基于数据科学的分析能力 - 管理者的第三支柱

为什么你要关注数据科学,因为这和你的就业以及市场竞争力密切相关。据书中引用的一份麦肯锡2011年的报告中,仅在美国市场数据科学的从业人数将达到19万人。但你其实更应该关系另一个数字: :::info 拥有理解数据科学和分析流程能力的管理润园缺口则达到150万 :::

作为一个面向未来的管理者,数据科学领域的技能将会变得不可或缺。从个人经验来看,软技能、专业技能以及数据分析技能将会是领导岗位的核心技能。

+ 对数据科学的误解

另一方面,本章还提出了数据科学的4大误解:

  1. 数据科学是一个自主的过程,可以让数据自动去寻找问题的答案。事实上,数据科学的各个处理阶段都需要娴熟专家的介入。
  2. 每个数据科学项目都需要大数据以及深度学习。小规模数据科学项目的例子包括:一家每月处理大约100个索赔的保险公司的索赔预测;一所少于10000人的大学的学生退学预测;一个有数千人的工会的会员退学预测。
  3. 数据科学软件易于使用,因此数据科学很容易实施。的确,数据科学软件变得更加用户友好。然而,这种易用性掩盖了这样一个事实:正确地进行数据科学实践既需要适当的领域知识,也需要关于数据属性的专门知识,以及各种机器学习算法底层假设的支持。数据科学的危险之处在于人们可能迷信这项技术,相信软件给他们带来的任何结果。然而,他们可能无意中以错误的方式定义了问题,输入了错误的数据,或者使用了带有不恰当假设的分析技术。因此,软件给出的结果可能是错误问题的答案,或者是基于错误数据或错误计算的结果。
  4. 数据科学很快就能收回成本。采用数据科学可能需要在开发数据基础设施和雇用具有数据科学专业背景的人员方面进行大量投资。此外,数据科学不会给每个项目带来积极的结果。有时数据中没有金矿只有砂砾,有时组织没有能力根据分析所揭示的洞察采取行动。然而,在存在众所周知的业务问题、适当的数据和专业团队的情况下,数据科学可以(经常)提供可操作的洞察力,并为组织提供成功所需的竞争优势。

综上,数据科学易用、有效的感受,是依靠数据生态专业的人以及获得所需数据大量的资源投资换来的。数据科学项目,不应该只从收益来考虑,也应该从能力建设来考虑。

C02 什么是数据,什么是数据集

+ 数据集

数据科学中的输入数据,一般为n行,每行m列数据组成,这个集合称为【数据集data set】,也被称为【分析记录 analytics record】。
image.png
比如上表中,一共5行,每行记录的为1次收集来的记录。这些行在不同的专业领域有许多名字,比如【实例 instance】、【样本 example】、【实体 entity】、【对象 object】、【案例 case】、【个例individual】和【记录record】。每一行又有7列,记录了一样本的多个属性来描述。例如,一本书可能包含以下属性:作者、标题、主题、体裁、封面、出版商、价格、出版日期、字数、章节数、页数、版本、ISBN等。

+ 数据类型

数据分为3类:【数值型 numeric】、【标称型 nominal】、【序列型 ordinal】。属性的数据类型(数值、标称、有序)极大影响我们对分析、理解数据的方法的选择。

标称型也称为【类别 Categorical】是从一个有限集合中取值,这些值是类别、类型或事物的状态的名称(因此被称为nominal)。标称属性的例子包括婚姻状况(单身、已婚、离异)和啤酒类型(ale、pale ale、pils、porter、stout等)。二元属性(binaryattribute)是标称属性一个特例,此类属性只有两个值。例如,我们可能使用二元属性来描述垃圾邮件是垃圾邮件(true)还是非垃圾邮件(false),或者使用二元属性来描述吸烟者。标称属性不能对其执行排序或算术运算。

序列型属性与标称属性类似,不同之处在于可以对有序属性的值进行排序。例如,描述对调查问卷中问题的响应,有序属性的值可以取“极不喜欢”“不喜欢”“一般”“喜欢”和“非常喜欢”等值。

书中还提出了一对概念,【捕获数据 captured data】与【排出数据 exhaust data】,后者书中翻译为废气数据,容易引起误解,弃用。前一种是说得到了设计需要的数据,后一种则是说在过程中收集到的无关数据。现在有一种趋势认为排除数据中也可能会有有用的信息,可以根据情况进行利用。

+ 从数据到智慧

【DIKW金字塔】展示了从真实世界抽象出智慧的过程,从下到上的结构如下所示: :::info 智慧 - 应用知识
知识 - 组织好的信息
信息 - 连接在一起的数据
数据 - 抽线的信息
真实世界 ::: 简化一点,可以如此理解:从真实世界中收集到数据,对某一领域的数据进行逻辑处理得到信息,对多方面的数据进行挖掘得到智慧。

C03 数据科学的生态系统

在CRISP-DM的基础上,可以简化为:收集 - 存储 - 分析 - 应用。所有数据科学生态都是在这个结构上完成专业的完成一小部分,之后再结合的。数据科学的迅速发展,与数据科学生态的开放密不可分。
image.png

C04 机器学习

本章详细介绍了机器学习和一些深度学习的内容,并以一个例子详细介绍了其中的原理、公式和运算。

C05 标准的数据科学任务

即数据科学可以运用到哪些任务中,这些任务的运用在现阶段已经非常成熟,建议详细阅读。

  • 聚类(或细分(segmentation)- 谁是我们的目标客户
  • 异常值检测(或离群点检测)- 这是欺诈吗
  • 关联规则挖掘(Association-rule mining)- 你要配份炸薯条吗
  • 预测(对数值的预测)- 它价值几何

    C06 隐私与道德

    + 商业利益与个人隐私

    在围绕使用个人隐私数据进行定向营销的讨论中,关于商业利益和使用数据科学的道德考虑之间的争论断层是显而易见的。从商业广告的角度来看,使用个人隐私数据的动机是个性化的营销、服务和产品与营销的有效性之间存在关系。研究表明,使用个人的社交网络数据,相比传统营销策略,如能识别与老客户有联系的消费者,可使电信服务的直邮营销(direct-mail marketing)活动的有效性提高3至5倍(Hill、Provost和Volinsky 2006)。关于数据驱动的个性化网络营销的有效性也存在类似的说法。

Target在未被知会的情况下识别出一名怀孕高中生的故事,突显出数据科学在社会画像方面不仅适用于个人,也适用于社会中的小群体。在《你的每一天:新广告业如何定义你的身份和价值》(The Daily You:How the New Advertising Industry IsDefining Your Identity and Your Worth,2013)一书中,约瑟夫·图罗(Joseph Turow)讨论了营销人员如何使用数字画像将人们分类为target或waste,然后使用这些类别来为每个客户提供个性化优惠和促销:“那些被认为是waste类型的用户被忽略或分流到营销人员认为与他们的品味或收入更相关的其他产品中去”。这种个性化差异会导致对某些人的优待和其他人的边缘化。这种歧视的一个明显例子是网站的差异化定价,根据客户画像,同一产品对某些用户的收费高于其他客户(Clifford2012)。

这种个性化差异会导致对某些人的优待和其他人的边缘化。除非非常谨慎地使用,否则数据科学实际上可以延续并增加偏见。

控制蔓延从某个角度来看是推动合并来自不同来源的数据,以便提供一个更完整的社会图景,进而为获取解决系统中的难题所需的洞察力扫除障碍。通常有很好的理由复用现有数据,事实上,经常有人呼吁将政府不同部门持有的数据合并起来,用于合法用途,例如,用于支持医疗健康研究和为国家及其公民提供便利。然而,从捍卫公民权利的角度来看,这种趋势非常令人担忧。加强监督,整合来自多个来源的数据,控制蔓延和预防控制(例如预测性警务程序)可能会导致社会中的某个人可能仅仅因为一系列无关的无辜行为而遭到怀疑或与数据驱动的监管体系认为的可疑模式匹配。

+ 隐私保护

当个人与现代的技术主导型社会打交道并在其中穿梭时,他们别无选择,只能留下各种数据线索。在现实世界中,视频监控的普及意味着无论个人何时出现在街道、商店或停车场,都可以收集到他的位置数据,而手机的普及意味着许多人可以通过手机被跟踪。真实世界数据收集的其他例子还有信用卡购买记录、超市会员卡的使用、自动取款机取款行为的跟踪以及手机通话的跟踪等。在网络世界中,个人隐私数据可能会在多个环节中被收集,如访问或登录网站,发送电子邮件,网上购物,给约会、餐馆或商店打分,使用电子书阅读器,观看在线公开课上的讲座,或者在社交媒体网站上点赞或发布内容。为了更好地了解现代技术社会中普通人被收集的数据量,2009年荷兰数据保护局(Dutch Data Protection Authority)的一份报告估计,每个荷兰公民的数据平均被纳入250到500个数据库中,而社交活动更频繁的人,这个数字会攀升至1000左右(Koops 2011)。总的来说,与个人相关的数据点定义了这个人的【数字足迹 digital footprint】。

- 保护隐私算法

近年来,人们对数据分析过程中个人隐私保护相关的计算方法越来越感兴趣。最著名的两种方法是差分隐私(differential privacy)和联合学习(federated learning)。差分隐私是一种数学方法,用来学习针对总体的有用信息,但无须学习群体中个体的信息。差分隐私使用了特殊的隐私定义:如果数据分析过程总能得到相同的结论,无论是否包含特定用户的数据,该客户的隐私无论如何都不会受到侵犯。有很多种处理方法可以帮助实现差分隐私。其核心思想是将噪声注入数据收集操作或数据库查询响应中。

- 法律框架

有关隐私保护和数据使用许可的法律在不同司法管辖区存在着差异。然而,大多数民主国家都有两个核心支柱:反歧视(antidiscrimination)法和个人数据保护(personal-data-protection)法。

经济合作及发展组织(Organisation for Economic Co-operation)(OECD 1980)发表的《保障个人隐私及个人信息跨境流动指南》(Guidelines on the Protection of Privacy and Transborder Flows of Personal Data),是有关个人隐私及数据的最普遍接受的原则。在该指南中,个人数据被定义为与可识别的个人(即数据主体(data subject))有关的记录。该指南定义了八项(存在重叠)原则,旨在保护数据主体的隐私:

  1. 收集限制原则:个人资料只应在资料当事人知情及同意的情况下合法取得。
  2. 数据质量原则:所收集的个人资料必须与用途有关;它们应该是准确的、完整的和最新的。
  3. 用途明确原则:在收集个人资料时,应告知数据主体有关资料的用途。此外,虽然更改用途是允许的,但不应任意引入(新用途必须与原用途相容),并应向数据主体指明。
  4. 使用限制原则:个人资料的使用仅限于数据主体已知悉的目的,未经资料当事人同意或法律授权,不得向第三者披露有关资料。
  5. 安全保障原则:个人数据应受到安全保障,以防被删除、盗窃、披露、修改或未经授权使用。
  6. 开放原则:数据主体应能在收集、储存及使用其个人数据方面,以合理方便的方式取得数据。
  7. 个体参与原则:数据主体有权查阅及质疑个人数据。
  8. 问责原则:数据控制者负责遵守这些原则。

    C07 未来趋势与成功准则

    + 什么样的数据项目会成功

    关注焦点:
    每个成功的数据科学项目都首先明确定义了项目将要解决的问题。读者不难理解,这一步骤只是常识:除非项目有明确的目标,否则项目很难取得成功。有明确定义的目标可以决定使用哪些数据,使用什么机器学习算法,如何评估结果,如何对分析模型及分析结果进行使用和部署,以及确定进行分析和更新模型的最佳时机。每个成功的数据科学项目都首先明确定义了项目将要解决的问题。

    - 数据

    可以使用定义明确的问题来定义项目所需的数据。清楚地了解所需的数据有助于引导项目去了解数据位于何处。它还能帮助定义当前哪些数据是可用的,从而确定是否需要启动一些额外的项目来寻找和捕获所需的数据。但是,最重要的是要确保所使用的数据是高质量的数据。组织机构中可能存在设计不良的应用程序,糟糕的数据模型以及未正确培训员工以确保输入数据的质量。无数因素可能导致系统中的数据质量不佳。实际上,对高质量数据的需求非常旺盛,以致一些组织雇用人员不断检查数据,评估数据质量,然后反馈有关如何提高应用程序捕获的人类输入数据质量的想法。没有高质量的数据,数据科学项目很难取得成功。

当获得所需数据时,检查在整个组织中捕获和使用哪些数据总是非常重要的。不幸的是,一些数据科学项目采集数据的方法是查看事务数据库(及其他数据源)中可用的数据,然后在进行数据探索和分析之前集成和清理这些数据。此方法完全忽略了BI(Business Intelligence,商业智能队)和任意可能存在的数据仓库。在许多组织中,BI和数据仓库团队已经在收集、清洗、转换组织机构的数据并将其集成到一个中央存储库中。如果数据仓库已存在,那么它可能包含项目所需的全部或大部分数据。因此,数据仓库可以节省大量的数据清洗、集成方面的时间。它还将拥有比当前事务数据库更多的数据。如果使用数据仓库,可以往前回溯若干年,使用历史数据构建预测模型,在不同时间周期颗粒度上尝试这些模型,然后度量每个模型的预测精度水平。此过程允许监控数据的变化以及它们是如何影响模型的。此外,还可以监控由机器学习算法生成的模型之间的差异以及模型是如何随时间演变的。采用这种方法有助于演示模型的工作机理及其在常年运行中的表现,并有助于建立客户对正在进行的工作能达成预期的信心。例如,在一个数据仓库中有5年历史数据的项目中,有可能证明该公司在这段时间内可以节省4000万美元或者更多的成本。如果数据仓库不存在或未投入使用,那么就无法证明这一结论。最后,当项目使用个人数据时,必须确保此数据的使用符合相关的反歧视和隐私保护法规。

- 团队

一个成功的数据科学项目通常涉及一个优秀的团队,团队成员拥有过硬的数据科学能力和技能。在大多数组织中,现有的各种角色是可以为数据科学项目做出贡献的:数据库工程师、ETL工程师、数据集成工程师、项目经理、业务分析师、领域专家等。但是,组织机构通常需要单独聘请数据科学家,即具有处理大数据技能的人员,应用机器学习,并构建能解决现实世界问题的数据驱动类型的解决方案。成功的数据科学家愿意并能够与管理团队、最终用户以及所有其他相关人员一起工作和沟通,向他们解释什么是数据科学以及如何利用它来解决工作中的问题。一般来说,很难找到既精通技术又能与整个组织内的人员进行有效沟通和合作的人员。不过,这种复合型人才团队的构建对于大多数组织中数据科学项目的成败是至关重要的。一个成功的数据科学项目通常涉及一个优秀的团队,团队成员拥有过硬的数据科学能力和技能。

- 模型

尝试使用多种机器学习算法以找到最适合手头数据集的算法是很重要的。在各种文献中,作者往往仅给出一种机器学习算法的示例。也许作者正在讨论的不过是最适合他们的算法或者他们最喜欢的算法。目前,人们对神经网络和深度学习的使用非常感兴趣。但是,可以使用许多其他类型的算法,并且应该考虑和测试这些替代方案。此外,对于基于欧盟2018年4月生效的《通用数据保护条例》的数据科学项目,该法规可能成为决定算法和模型选择的一个因素。这些法规的潜在副作用是,个人对影响他们自动决策过程的“解释权”可能会限制那些难以解释的模型在某些领域中的应用(例如深度神经网络模型)。

- 与业务系统集成

在定义数据科学项目的目标时,定义如何在组织的IT架构和业务流程中部署项目的输出和结果也至关重要。这涉及确定模型在现有系统中的集成位置和方式,以及系统最终用户如何使用生成的结果,或者将结果作为输入传递给另一个处理过程。这个过程越自动化,企业就能越快地对客户的变化做出响应,从而降低成本并增加潜在利润。例如,如果为银行的贷款流程构建了客户风险模型,则应将其集成到终端系统中,该系统能接受客户的贷款申请。这样,当银行员工在处理贷款申请时,他就能获得模型的实时反馈。然后,员工可以使用此实时反馈来解决与客户相关的任何问题。另一个例子是欺诈检测。一个传统解决方案中可能需要4到6周的时间来确定是否需要调查的潜在欺诈案件,通过将数据科学技术集成到交易监管系统中,组织机构现在可以近实时检测潜在的欺诈案例。通过自动化集成数据驱动类型的模型,可以实现更快的响应速度,并且可以在适当的时间内采取措施。如果项目创建的输出和模型不能集成到业务流程中,则无法使用这些输出,最终导致项目失败。

- 管理层认同

对于大多数组织机构及其项目,高级管理层的支持对于许多数据科学项目的成功至关重要。但是,大多数高级IT经理更关注眼下:系统能正常运行,确保日常应用程序正常运行,确保备份和恢复过程就绪(并经过测试),等等。成功的数据科学项目由高级业务经理(而非IT经理)拍板,因为前者不关注技术,而是关注数据科学项目涉及的流程以及数据科学项目的输出如何用于提升组织机构的竞争优势。项目发起人对这些因素的关注度越高,项目就越容易成功。然后,他将成为向组织机构中其他成员通报项目进展并将项目推销出去的关键。但是,即使数据科学有一位高级经理作为内部支持者,如果最初的数据科学项目被视为一个走过场的练习,那么在长期内数据科学策略仍然会失败。组织不应将数据科学视为一次性项目。为了组织机构的长期利益,它需要建立经常执行数据科学项目的能力,并使用这些项目的产出。高级管理层需要将数据科学纳入长期战略。为了组织机构的长期利益,它需要建立经常执行数据科学项目的能力,并使用这些项目的产出。

- 迭代

大多数数据科学项目都需要时不时地在现有的基础上进行更新。对于每个新的更新或迭代,可以添加新数据、新功能,可以使用新算法,等等。这些迭代的频率因项目而异,可以是每天或每季度,也可以是半年或每年。相关检查应该嵌入到生产环境中的数据科学输出中,以检测模型何时需要更新(请参阅Kelleher、Mac Namee和D’Arcy(2015),了解如何使用稳定的指数来确定何时应更新模型)。