StreetVizor 谷歌街景图的城市形态探索
VizML 可视化推荐的机器学习方法
Modeling Color Difference for Visualization Design ">IEEE VIS 2017 Best InfoVis Paper: Modeling Color Difference for Visualization Design
Largevis">Largevis
ShapeWordle: Tailoring Wordles using Shape-aware Archimedean Spirals">ShapeWordle: Tailoring Wordles using Shape-aware Archimedean Spirals
geometry visualization">geometry visualization
诠释生命的柔软">诠释生命的柔软

StreetVizor 谷歌街景图的城市形态探索

城市的形态和我们在城市中的生活息息相关。通过对城市形态进行分析，可以帮助规划者有据可循地设计和开发高品质的城市空间。然而，由于城市形式的空间、多尺度（即城市、区域和街道）和多变量（如绿化和天空比率）等多维特征的参与，给我们的分析带来了大量的困难。除此以外，目前的分析方法大都缺乏定量测量，很多有测量的分析都仅局限于小范围内。
StreetVizor是一个发表在SciVis 2017上的交互式视觉分析系统。它能够帮助规划者利用他们的领域知识来探索基于谷歌街景图的城市形态。简而言之，我们可以通过这个可视分析系统从街景图中查看绿化、天空和建筑等信息在不同城市不同区域的分布。作者将可视化技术与机器学习模型相结合来检测街景模式，并通过香港，新加坡，伦敦和纽约四个城市的数据集证明了方法的有效性。在这篇论文中，要量化的城市形态属性是绿化、天空和车辆等，要探索的城市层次是城市、区域和街道等，而最终的目标是比较不同区域的城市形式。
论文一共收集了上述四个城市的170万张谷歌街景图片。首先，从OpenStreetMap中获取路网信息，然后每隔50米进行一次谷歌街景图的采集。接着，基于深度学习方法SegNet将所有图片的像素点分为12个类，例如绿化、天空、道路等。最后，作者对这12个类进行聚合，将它们分成绿化、天空、建筑、道路、车辆和其他一共6个类。下图呈现的是上述数据处理过程，在这个图中，纽约市的采样位置由OpenStreetmap（左）生成，街景图从Google Street View（中）采集，图像像素使用Segnet（右）划分为六个特征维度。从中，我们可以清晰地发现这些特征维度的分布情况。
墨者修齐 2019-08-05·城市形态探索、大规模图分析、基于阿基米德螺旋线的词云生成、可视化诠释生命的柔软 - 图1
通过StreetVizor进行可视分析的过程主要包括两个步骤：首先，在Ranking Explorer视图中选取需要比较的两个层次；然后在对应的AOI Explorer（城市或区域层次的比较）或Street Explorer（街道层次的比较）视图中比较不同层次的城市形态。
墨者修齐 2019-08-05·城市形态探索、大规模图分析、基于阿基米德螺旋线的词云生成、可视化诠释生命的柔软 - 图2
系统概览如下图所示。左边是Ranking Explorer视图（a），用于发现不同区域或者街道的特征维度分布，帮助用户选择自己感兴趣的对象。这个视图中的一行就代表了一个城市、区域或者街道，每一列代表了前述6个特征维度，每个单元格呈现的是特征维度的平均值。中间是AOI Explorer视图，这个视图由地图模块（b）和统计模块（c）组成。地图模块使用点密度图展示了要比较的两个区域的地理位置，其中，点的颜色是街景图中值最大的特征维度的颜色。统计模块展示的是不同特征维度之间的相关关系。右边是Street Explorer视图，这个视图也包括地图和统计两个模块（d）（e），不同的是，它的统计模块呈现的是结合了路网的平行坐标。
墨者修齐 2019-08-05·城市形态探索、大规模图分析、基于阿基米德螺旋线的词云生成、可视化诠释生命的柔软 - 图3
在案例分析章节中，作者主要从城市尺度、区域尺度和街道尺度三个方面来展开叙述。

上图展现的是新加坡（左）和伦敦（右）的城市形态。从中我们可以看到，新加坡的很多区域由黄色建筑和绿色植物混杂在一起。而伦敦的市中心黄色建筑较多，越往城市边缘走，绿色越多。这是因为新加坡是岛国，无法扩张，而伦敦的城市发展过程就是不断扩张的过程。
墨者修齐 2019-08-05·城市形态探索、大规模图分析、基于阿基米德螺旋线的词云生成、可视化诠释生命的柔软 - 图5
新加坡的东陵（红）和伦敦的中央公园（蓝）都是公园性质的区域，在功能上具有类似之处。从A1中我们可以发现，两个区域具有很高的绿化率，其中中央公园会更高一些。而A2说明新加坡的东陵拥有更高的建筑比例，这是由于新加坡希望能够最大化他们的土地利用率。
墨者修齐 2019-08-05·城市形态探索、大规模图分析、基于阿基米德螺旋线的词云生成、可视化诠释生命的柔软 - 图6
从上图中的地图和对应的街景图中可以直观地发现纽约布鲁克林（左）和香港九龙（右）的街道的不同。布鲁克林的街道主要由绿化、天空、建筑、道路构成，拥有更高的绿化程度，其对应的平行坐标也可以验证这一发现。而九龙的街道主要由建筑和道路构成。
论文：StreetVizor: Visual Exploration of Human-Scale Urban Forms Based on Street Views.pdf
视频：Link
by @珂甫(pddpd)

VizML 可视化推荐的机器学习方法

在进行可视化过程中，对数据进行探索以及选择适合的基本可视化这一初步过程往往会耗去大量时间。通过推荐来加快这个可视化选择过程，是十分行之有效的办法。
现有的可视化推荐系统分为两类: 基于规则的与基于机器学习的。前者一般是根据专家经验或实验得到的可视化准则; 后者则是直接学习从数据到可视化结果的模型。CHI 2019的文章VizML: A Machine Learning Approach to Visualization Recommendation 中展示了一种新颖的基于机器学习的可视化推荐方法，该方法从大量数据集和相关可视化中学习可视化设计选择。

本文从Plotly community feed上爬取了大量数据集与对应的可视化作品，被可视化的数据集经过处理后一共有841个标量值组成特征。将这些数据集的特征作为模型的输入，模型的输出是量化后的可视化设计的选择，分为可视编码层面的选择和可视化层面的选择，训练模型的预测任务就是基于可视化设计选择的预测任务。文章对多种机器学习模型方法进行了实验，神经网络模型的预测表现几乎全方位碾压其余模型。
与其他可视化的推荐机器学习方法相比，本文方法让模型学习的是可视化设计的选择，数据集更加多元化，抽取了大量的数据特征，并且支持深度网络。

项目代码和数据集地址：link
by @顾己(esora)

IEEE VIS 2017 Best InfoVis Paper: Modeling Color Difference for Visualization Design

可视化中，常常用不同颜色经常被映射到不同值上（颜色编码，Color Encoding）。要使颜色编码有效果，不同颜色的差异和与被映射的值的差异必须保留原始数据中的差异程度。然而，大多数可视化中颜色选择是根据观察寻找直觉感知上差异较大的颜色方案，这种方式可能为观察者带来误解。可视化通常使用小的细长标记，如长条（bar）、线（line）等。该论文开发了量化指标，帮助人们在设计可视化中时更有效地使用颜色。

该论文进行了一系列的众包实验：在 Lab 颜色空间中的每个轴上提取如上图的六个颜色，每次给用户一个图表（散点图/柱状图/线图），图上使用了六种颜色中的两种颜色，随机的元素大小，让用户选择图上的两种颜色是否一致。

通过实验和对结果数据的分析，作者发现了一些有趣的结论：

由于不同图标上的元素各异（散点图：点；柱状图：条；线图：线），发现人们在不同的元素类型上，对色差感知的差异很大
- 点：可感知颜色差异与点直径成反比
- 条：在相同粗细程度上，可感知颜色差异与长度成正比
- 线：可感知颜色差异与厚度成反比
颜色在细长标记（条和线）上比在点上更容易辨别。

随后，论文根据众包研究的结果数据，针对散点图、柱状图、线图分别构建了概率模型，为设计者提供客观指导，使他们能够预测观众的感知，从而为有效的编码设计提供信息。每个概率模型比较复杂，在这里就不赘述。
by @十吾(shiwu-5wap2)

Largevis

大图可视化一直是大数据可视化领域的一个关键技术。有很多基础理论，如基本的降维理论，SNE，t-SNE可视化算法等都是用来解决大图可视化问题的。虽然t-SNE算法和它的改进算法都得到广泛应用，但存在两个不足：一是处理大规模高维数据时，t-SNE的效率显著降低(包括改进后的算法)；二是t-SNE中的参数对不同数据集较为敏感。
LargeVis基本思路与t-SNE改进算法大致相同，如下图所示：

与t-SNE不同的是，LargeVis用到了几个非常漂亮的优化技巧：
高效KNN图构建算法
在t-SNE的改进算法中，高维空间距离相似性只考虑最接近的若干个邻居点，这实质上就是一个构建kNN图的过程。t-SNE使用了VP树来构建一个精确的KNN图，但是效率依然堪忧。而LargeVis采用了一种更巧妙的方式，不追求一步到位，先近似再提高准确率。

低维空间可视化算法
在低维空间可视化过程中，t-SNE的思路是保证高维空间的距离分布P与低维空间的距离分布Q尽可能接近，用KL距离写出代价函数并求梯度。但是效率问题也很突出，众多优化技术，其中一个叫负采样，利用负采样和边采样优化之后，LargeVis还用到了异步随机梯度下降来进行训练，这项技术在稀疏图上是非常有效的，因为不同线程采样的边所连接的两个节点很少有重复的，不同线程之间几乎不会产生冲突。从时间复杂度上来看，每一轮随机梯度下降的时间复杂度为O(sM)，其中M是负样本个数，s是低维空间的维数(2或3)，随机梯度的步数通常又与点节数量N成正比，因此总的时间复杂度为O(sMN)。从这里可以知道，LargeVis的时间复杂度是与网络中的节点数量呈线性关系的。
从可视化效果上看，LargeVis与t-SNE是差不多的，在某些数据集上略胜一筹，但是从训练时间上看，LargeVis比t-SNE高效太多。
by @聚则(moyee-bzn)

ShapeWordle: Tailoring Wordles using Shape-aware Archimedean Spirals

作者提出了一种基于阿基米德螺旋线并且感知形状的新方法，用于生成词云图。该方法扩展了传统的阿基米德螺旋线，使得能够感知形状。
下面是用这种方法生成的一些词云图的例子：

作者对比了用其他方法生成的词云图，证明其提出的方法效果更好：

by @长哲(changzhe)

geometry visualization

最近在做几何计算时发现了一个 geometry visualization 很好的网站：

这是来自于 The Ohio State University 的数学家 Jim Fowler 创作的，使用非常简单的公式就可以绘制出非常好看的几何图形，暂不论其实用价值，单单这种美感就值得欣赏。

by @萧庆(xiaoqing)

诠释生命的柔软

未来，数据的意义不仅仅是用来提高效率，还可以传达人文主义关怀。我们需要探索更多的设计和表现方法，帮助我们在收集、处理、解释和传递数据的过程中，更多的关注同理心、缺陷美、人性的软弱。

很感人的一篇文章，推荐看看。

by @步茗Neo(neowang)