一、论美

1、何为美

称得上美的可视效果:美感、新颖、充实、高效;

1.1 新颖

不仅是作为信息渠道,还必备某些新颖性:一种崭新的视角观察数据,或者一种风格可以激发读者的激情从而达到新的理解高度。新颖性只是为了有效地展示对世界的一些新洞察所衍生的副产品。

1.2 充实

可视化成功的关键是提供了获取信息的能力,人们可以借以增长知识。(信息传递能力)

1.3 高效

直截了当:传达一个清晰的目标,或提供一个特别的角度表达信息;不相关的信息如同噪音,如果无益,则可能有害。

1.4 美感

图形化构建包括:坐标轴、布局、形状、色彩、线条、排版,主要服务于表现信息这个目标。

2、学习经典

美丽的可视化不拘泥于标准格式,通常与期望的数据格式有一定的偏差。她们往往可以反映出所描述数据的品质,揭示数据中内在和隐式的属性关系。

2.1 元素周期表

天才之处:通过元素的编排组织揭示元素之间的相互关系以及周期性变化的物理属性,表的结构取决于所表示的数据。通过表就可以快速认识和理解给定元素的属性特征。

2.2 伦敦地铁图

天才之处:突出显示最相关的信息,剔除了很多不相关的信息,使得相关的数据可以更容易被访问到。

3、如何实现美丽

3.1 走出默认风格

标准格式和惯例的优点:易于创建,为大多数读者所熟知,且具有自明性。但绝大多数下是为了传递信息而非多样化。

3.2 使可视化信息更充实

为了确保可视化的实用性,需要考虑:预期的信息和使用场景。

预期的信息:抽象规划可视化功能,清晰的了解自己的信息及受众的需求和目标,再开始考虑如何可视化
使用场景:揭示已知事物的可视化;促进探索的可视化;

  • 前者主要是演示工具,无处不在,定义良好的目标有助于实现这类可视化。
  • 后者是探索工具,存在于更专业的、面向研究的科学、商业等领域中,目标通常是为了验证假设,发现任何趋势或行为等值得注意的关系。设计一些不同的可视化可能是有用的。

例如:周期表的可视化是已知和未知信息的混合体。结构是由已知的元素定义的,但该结构又产生了一些空白,这些空白用于预测未发现元素的存在和行为。

3.3 使可视化变得高效

衡量:可视化的每一部分内容,都将使用户花费更长时间找到可视化中的元素。<-去除噪音数据

3.3.1 视觉突出重要的因素

  • 设计师通过改变突出的重点,有意地改变传递的信息;
  • 强调相关性的策略通常适用于数据展现,而不是数据研究;
  • 突出未知数据的不同方面或者子集是发现可能淹没在噪音数据中的关系的有效方式。

    3.3.2 使用轴线表达含义并展示自由信息

    轴线:通过轴线指导可视化中其他模块的位置,为每个节点赋值,不需要额外的标注操作;
    定义轴线对于定性数据和定量数据都有效:

    • 定性环境:轴线可以定义无序的、杂乱的 领域/分组。
    • 定量轴线:可提供信息,支持相关值的查找。

      3.3.3 相关部分的切分

      把大数据集划分为多个相似或相关的子集并可视化,可减少可视化混乱,可能会发现不相关的数据集间存在尚未察觉的关系。

      3.3.4 慎重使用惯例

      惯例场景:充分考虑预期的信息、应用场景和数据对特定场景的影响时,只要和前例的几项因素没有冲突时,采用惯例会非常强大且实用。

      3.4 充分利用美感

      审美元素可以是纯粹装饰性的,或者是增加可视化成果被接纳的机会。
      冗余编码:给定的值或分类使用特定的描述(位置、颜色、文本标签等),帮助读者更快、更容易区分和感知更多信息。

小结:《纽约时报》的2008年总统竞选地图

二、讲诉故事在信息可视化中的重要性

信息可视化包括:获取、解析、过滤、挖掘、展现、提炼、交互。

不是每一个可视化都需要讲诉一个故事,有的可视化看上去就很美,其本身就是优雅的艺术作品。但大多数可视化都有一个目标,需要将数据置于某种故事情节在以有意义的方式展示。

1、问题+可视化数据+场景=故事

1.1 创建有效可视化的步骤

1.1.1 制定问题

当创建信息可视化时,我们应该尽可能关注以数据为中心的问题,例如:“在哪里”,“什么时间”,“有多少”,“有多频繁”等开头的问题,都是不错的开始。它们使我们专注于在塔顶参数集合内查找数据,因此更有可能找到适用于可视化的数据。
对于以“为什么”开头的问题,意味着开始从数据的描述转为数据分析。

1.1.2 收集数据

通常尽量从已经可用的数据着手,并尽量找到一种方式描绘它,而不是尝试自己收集数据。
数据资源网站:Data.gov;美国人口普查局;美国劳动局;纽约时报的API接口

1.1.3 应用可视化展现方式

常用方式:

  • 尺寸;
  • 色彩(标识大数据集中存在的模式和异常),We Are Colorblind
  • 位置
  • 网络:数据点之间的二元连接;
  • 时间:

注:应用多种可视化展现方式

2、数据任务
收集数据:http://www.cars.gov/carsreport,"美国汽车津贴折扣系统","旧车换现金"计划
对数据排序:

三 Wordle

文本分析(自然语言分析)

查找单词

如何判定单词?构建正则表达式,识别不同字体类型的单词,然后通过递归方式,将正则表达式应用于给定的文本,生成一组结果单词列表。

确定字体类型

Unicode内核:提供了一套通用的编码字符集和一些在计算机中表示这些字符的规范(字节序)

猜测语言并删除停用词

给单词分配权重

布局

把加权单词转换成图形

展现区域

放置

随机贪婪算法:一次将一个单词放置到展现区域中,位置不可改变

Wordle是优秀的信息可视化吗?

单词大小调整太初级

颜色毫无意义

字体是使人充满遐想的
wordle很多字体都更倾向于美学和表现力,而不是可读性

字数计数不够具体

如何真正使用Wordle