《牛津通识读本:大数据》

大数据的三个视角

  • 一是计算视角:从计算视角来看,大数据是一个难以获取、难以组织与管理、难以处理和分析的技术难题(以及因此而引发的各类思维层难题),也正是因为这样的难题驱动,加之人们对大数据在优政、兴业、科研、惠民等不同领域的价值期望,促使相关科研人员进行技术攻关和发明创造,进而推进了相关理论和技术的发展。
  • 二是科研视角:从科学研究的角度来看,大数据成为继实验、理论、模拟之后用于科学研究的“第四范式”(此处的“范式”指的是从事某一科学的科学家群体所共同遵从的世界观和行为方式)。
  • 三是商业视角:从商业应用的角度来看,大数据能够带来利润。一般而言,只要找到一个合适的应用场景,并为这个应用场景找到一个合适的解决方案,知道数据的来源并且能够获取,而且有技术支撑(研发能力),更重要的是能够找到融资支持(经过可行性分析、盈亏平衡分析等之后),就有可能最终成功应用并获得收益。这在彰显大数据商业价值的同时,也会促使同行去挖掘更多的大数据价值。

    实现大数据价值的四个维度(ABCD)

  1. 算法(Algorithm):大数据价值的实现路径涵盖了数据采集与汇聚、数据存储与管理、数据处理与分析、应用系统开发与运维,每一个环节都需要依赖不同的算法进行,如数据采集算法、数据汇聚算法、数据治理算法、数据处理和分析算法等。
  2. 商业应用(Business):大数据应用一般体现在描述性分析、预测性分析或者决策性分析等,任何一种应用都是围绕某个具体场景展开的,因此大数据价值得以实现的一个重要前提,是找到一个合适的应用场景,该应用场景既直击需求痛点并有投资回报预期,又有数据积淀和IT建设基础。大数据在这个场景的应用,能够进一步内生和富集更多数据并因而形成数据闭环,就能进一步体现和实现大数据价值。
  3. 算力(Computing Power):所谓算力,指的是设备的计算能力,显然,对于大数据应用而言,更精准(复杂)的算法以及更高效的计算需求都需要强大的算力支撑,因此算力是大数据价值实现的基本保障。
  4. 数据(Data):数据是大数据价值实现的基础,因此必须首先解决诸如数据在哪以及如何从不同的数据源获取数据,并进行有效的富集、汇聚和深入加工等问题,从而为应用提供数据支撑或高级语义支撑。

    本书结构

  5. 大数据运作方式的基础知识

  6. 大数据如何改变我们周围的世界
  7. 它对我们的日常生活及商业世界的影响。

    什么是数据

    数据原本指文件和论文,也可能带有几张照片,但现代意义上数据的含义却远不止于此。社交网站每分钟都会以图像、视频和电影的形态生成大量数据。当我们输入地址和详细信用卡信息进行在线购物时也会创建数据。现在,我们正以几十年前无法想象的速度在收集和存储数据,但是,正如我们将在本书中看到的那样,新的数据分析技术正在将这些数据转换为有用的信息。在撰写本书时,我发现,如果不围绕大公司对大数据的收集、存储、分析和使用来进行写作,就无法在真正意义上讨论大数据。由于谷歌和亚马逊等公司在大数据领域的引领地位,因此我会不时提及它们。

    IBM和人口普查

    到1870年美国开展人口普查时,所依靠的是一种简单的计数器,但这种机器效率有限,已无法满足人口普查局的要求。1890年的人口普查有了突破,这完全得益于赫尔曼·何乐礼发明的用于存储和处理数据的打孔卡制表机。通常情况下,处理美国人口普查数据需要八年左右的时间,但使用这项新发明后,时间缩短到了一年。何乐礼的机器彻底改变了世界各国人口普查数据的分析处理,其中包括德国、俄罗斯、挪威和古巴。何乐礼随后将他的机器卖给了一家后来称为国际商用机器(IBM)的公司,该公司开发并生产了一系列广泛使用的打孔卡机。

    结构化、非结构化与半结构化数据

  8. 手工编写并保存在笔记本或文件柜中的结构化数据,现在以电子的形式存储在电子表格或数据库中。电子表格样式的数据表由行和列组成,行记录的是数据,列对应的是字段(比如名称、地址和年龄)。当我们在线订购商品时,我们实际上也正在贡献结构化数据。精心构建和制表的数据相对容易管理,并且易于进行统计分析,实际上直到最近,统计分析方法也只能应用于结构化数据。

  9. 相比之下,像照片、视频、推文和文档这些非结构化数据就不太容易归类。一旦万维网的使用变得普遍,我们就会发现,很多这样的潜在信息仍然无法访问,因为它们缺乏现有分析技术所需的结构。
  10. 如果通过识别关键性特征,那么初看起来为非结构化的数据也可能不是完全没有结构。例如,电子邮件虽然正文的数据是非结构化的,但标题中包含了结构化元数据,因此它可以归类为半结构化数据。元数据标签本质上是描述性引用,可用于向非结构化数据添加可识别的结构化信息。

    数据科学与案例

    2012年的《麦肯锡报告》强调了数据科学家的缺乏,估计到2018年,数据科学家的短缺仅在美国就达到19万之多。这种趋势在全世界都很明显,尽管政府在积极推动数据科学技能的训练,但专业知识供需的鸿沟似乎仍在扩大。数据科学正成为大学里热门的学习对象,但是到目前为止,毕业生一直无法满足工商业界88 的需求,只有工作经验丰富的申请人才可以获得高薪。大数据对商业企业来说事关利润。如果经验不足的数据分析师不堪重负,未能提供预期的积极成果,那么希望很快就会破灭。很多时候,公司都在寻找“万能的”数据科学家,期望他能够胜任从统计分析到数据存储和数据安全的所有工作。

    机器人和工作机会

    1930年英国经济萧条期间,著名经济学家约翰·梅纳德·凯恩斯著文,推测一个世纪以后的职业生活会是怎样的情形。工业革命创造了以城市为基础的工厂里新的工作机会,并让农耕社会发生了很大的改变。人们认为,劳动密集型工作将最终由机器来完成,一些人会失业,另一些人的工作时间会大大缩短。由于技术进步,人们可以减少有偿劳动而获得更多的闲暇,凯恩斯尤其关注人们将如何利用所获得的闲暇时间。也许更为迫切的是财务支持问题,有人提议实施全民基本工资以应对工作机会减少的窘境。 在20世纪,我们逐渐看到工厂里的工作机会被越来越精密的机器所侵蚀。尽管很多生产线几十年前就已经自动化了,但凯恩斯主义者每周工作十五小时的理想尚未实现,并且在近期也似乎不太可能实现。正如工业革命一样,数字革命将不可避免地改变就业状况,但改变的方式我们还不能准确预测。随着“物联网”技术的进步,我们的世界继续变得越来越受数据驱动。使用实时大数据分析的结果来指导决策和行动,将在我们的社会中发挥越来越重要的作用。

有人认为,建造机器和给机器编码还是离不开人。但这也仅仅是猜测。无论如何,这只是专业工作的一个领域。即使在这个领域里,我们也可以很现实地预期,机器人会越来越多地取代人类。比如,复杂的机器人医学诊断会减少医务人员。出现像“沃森”那样具有人工智能的机器人外科医生,是完全可能的。自然语言处理(另一个大数据领域)将发展到我们无法分辨是在与机器人还是在与医生对话——至少在我们不面对面的时候。

不过,很难预测一旦机器人接管了很多现有的岗位之后,人类还有哪些工作岗位。创造力被认为属于人类。但计算机科学家通过与剑桥大学和阿伯里斯特维斯大学合作,研发出了“亚当”,一款机器人科学家。“亚当”已在基因组学领域成功提出和检验了新的假说,做出了新的科学发现。曼彻斯特大学团队成功研发出“夏娃”,一款用于热带疾病药品设计的机器人,使类似研究又前进了一步。这两项工程都使用了人工智能技术。

小说家的技巧似乎为人类所独有,它依靠经验、情感和想象力。但就是这一创造性领域,也正受到机器人的挑战。日经新闻文学奖接受由非人类作者写作或合写的小说。2016年,四部由人和计算机联合写就的小说通过了评奖初选,评委对作者身份并不知情。 尽管科学家和小说家最终可能都要与机器人合作,但对我们大多数人来说,大数据驱动型环境更显著的影响,是通过智能设备出现在我们的日常生活中。

Visualcapitalist

https://www.visualcapitalist.com/a-world-of-languages/
是一个汇集了很多数据可视化的网站,有些图非常帅气,比如这张世界语言图。
月报202104 - 图1

The 2020 Data & AI Landscape

data_AI_landscape.jpg
全尺寸PDF:
2020-Data-and-AI-Landscape-Matt-Turck-at-FirstMark-v1.pdf
这篇文章发表于 Matt Turck 的博客和 Venturebeat 公司,其中对2020年的情况做了比较多的描述:

另外 Matt 的 Firstmark 公司还给出了这些公司的详细列表,其中有些还提供了相关采访或者讨论的视频。http://dfkoz.com/ai-data-landscape/
image.png