Visualizing the World’s Top Plastic Emitting Rivers

这是一个全球塑料主要排放河流的可视化作品。每年大约有 800 万吨塑料进入海洋——相当于每分钟一垃圾车的废塑料。有的掩埋在地下的塑料会流入河流,有一些通过水循环从城市进入大洋。塑料排放在大型河流的大型人口中心尤其明显,特别是在中国,印度尼西亚和尼日利亚等快速城市化的地区。
屏幕快照 2019-06-28 下午3.43.59.png屏幕快照 2019-06-28 下午3.43.29.png
中国最大的河流长江养育着超过4亿人口,是地球上最多产的塑料废物排放河。中国政府已经认识到这个问题,要求在近 50 个城市进行垃圾分类回收,并制定到 2020 年回收率提升到 35% 的目标。
by @青湳(qingnan)

WHEN THE TOO-EARLY BIRD SINGS

国家地理发布了一个作品,将的是光污染对鸟类的影响。通过非常巧妙、美观而又直观的可视化设计,传达了在有人工光照干预的情况下,部分鸟类会在一年中叫早的时间开始频繁鸣叫。大家可以感受一下这种既科学又美观的信息图表设计。国家地理到底是国家地理啊!
LoVD-Part61a.jpg
by @步茗Neo(neowang)

Rappid-Powerful Visual Tools

Rappid是一款强大的可视化工具,可以定制界面上的每一部分,并且可嵌入任何页面中,支持通过Ajax和JSON与后端通信。我们先来直观的感受一下:
editor-1.gif
editor-1.gif
editor-1.gif

使用Rappid可以做什么呢,下图就完整的展示了它的能力。
image.png

你是不是觉得以上这些工作都只能在PC上面完成,No,No,No,Rappid支持PC、平板及手机端,所以,我们可以随时随地完成上面的工作。
image.png
除此之外,它还兼容主流的前端框架及类库,支持jQuery、AngularJS、React及Backbone.js。最后,Rappid还支持Plugin机制,通过Plugin,可以极大地丰富Rappid的能力。
by @聚则(moyee-bzn)

解决文本避让的聚类算法比较

Deck.gl 中解决点要素文本避让问题时,使用到了一种聚合算法 HDBSCAN(Hierarchical Density-Based Spatial Clustering of Applications with Noise)。「Comparing Python Clustering Algorithms」一文详细介绍了为什么要使用「HDBSCAN」这种聚合算法。
image.png

sklearn.cluster 中包含了十几种不同的聚合算法,如何选择合适的算法呢?如果我们了解数据集的详细信息,那就很方便选择了,如果我们想聚合文本数据,那就应该选择文本聚合算法。但如果我们无法获悉数据的详情呢?例如在做探索性数据分析 exploratory data analysis (EDA) 时,该如何选择呢?

首先要了解 EDA 场景下一个好的聚合算法应该满足哪些条件:

  1. 不能错误聚合。既然是探索性数据分析,聚合应当是谨慎的,没有结果好过错误的聚合结果,因为这会误导后续的研究方向。而大多数聚合算法并不是这样考虑的。
  2. 聚合的参数应当是直观的。既然我们对数据知之甚少,在选取聚合的参数上就不能和数据详情强相关。
  3. 聚合结果是稳定的。如果在调整参数过程中发现聚合结果差别巨大,显然就是不稳定的。
  4. 高性能。用大数据集中的小样本运算是无意义的。

接下来比较了几种不同的聚合算法的结果,按照上述 4 条标准评估,很明显 HDBSCAN 效果最好。

算法名 是否满足探索性分析场景 聚合效果
原始数据集 未聚合 墨者修齐 2019-07-01·塑料河流、早起的鸟儿、强大的 Rappid、文本避让算法 - 图10
K-Means
常见的分类算法

1. 无法指定聚合范围,全局范围内聚合效果不佳
1. 严格意义上是分类而非聚合算法。需要传入聚合结果集数量(例子中为 6)
1. 稳定
1. 算法本身简单,因此性能高
image.png
Affinity Propagation
基于图方法,让每个点投票决定加入哪个集合

1. 无法指定聚合范围,全局范围内聚合效果不佳
1. 相比 K-Means 中需要预先知道结果集数目,参数更加直观一些
1. 稳定
1. 性能低下
image.png
Mean shift

|
1. 结果不准确,需要订正(图中的黑色区域)。
1. 参数相对直观
1. 不稳定,多次运行结果可能不同
1. 性能低下
| image.png | | Spectral clustering
k-NN 图 |
1. 存在噪音数据
1. 和 K-Means 一样,需要预先知道集合数目
1. 较稳定
1. 性能较低
| image.png | | Agglomerative clustering |
1. 较好的正确性
1. 和 K-Means 一样,需要预先知道集合数目
1. 很稳定
1. 性能较高
| image.png | | DBSCAN
density based。低密度区域的点会被忽略 |
1. 第一个满足正确性的算法。不假设每个点都一定属于某个集合。
1. 不直观。参数 eps 需要调试
1. 很稳定
1. 性能很高
| image.png | | HDBSCAN
基于 DBSCAN 改进 |
1. 继承 DBSCAN 的优点
1. 很直观。聚合阈值
1. 很稳定
1. 性能很高
| image.png |

by @沧东(cangdong)

Notabilia - 对争论的可视化

image.png
Notabilia选取了wiki上最长的100条讨论,而这些讨论导致了对应wiki词条内容的删除和保持,将争论的阶段性发展及结果进行可视化之后,得到的是一个典型的L-System。每条讨论都从一个根节点开始,每一个争论的阶段,其长势和颜色表示了争论的暂时结果— 绿色+向左表示保留内容,而红色+向右代表内容的删除。随着时间的发展,每个阶段表示图形的长度和生长倾角逐渐衰减。
by @sakuya(liuye-szvim)

那些久远美妙的可视化作品

一个非常有历史年代感的可视化作品集,这里收录了很多50年、60年甚至100多年前的可视化作品,比如这些:

  • Diagram of the US Federal Government and American Union,1862

墨者修齐 2019-07-01·塑料河流、早起的鸟儿、强大的 Rappid、文本避让算法 - 图19

  • The Penguin Atlas of World History,1974

墨者修齐 2019-07-01·塑料河流、早起的鸟儿、强大的 Rappid、文本避让算法 - 图20

  • Traffic Census (of London),1911

墨者修齐 2019-07-01·塑料河流、早起的鸟儿、强大的 Rappid、文本避让算法 - 图21
by @广知(guangzhi-le8e5)

超市购物小票上的可视化

我们正常看到的小票是这样的:
image.png
Netflix 数据可视化工程师重新设计并优化了超市小票,变成下面的:
image.png image.png
只是将简单的气泡图和条形图移植到小票上,就带来了不一样的用户体验效果。
by @逍为(hustcc)