在高维度下如何聚类

原文地址,大部分聚类算法都能很好的处理低维数据,但在生物科学的高维度场景下,由于维数灾难的缘故,效果都不尽如人意(数据变得非常稀疏)。文章科普了一些聚类算法的概念,例如,聚类算法主要分为如下几类:

  1. 层次聚类
  2. 基于中心点的
  3. 基于图的
  4. 基于密度的

文中略微展开介绍了基于密度的DBSCAN算法(左下角是它需要的算法参数):
墨者修齐 2019-10-07·高维度聚类、无监督聚类的可视监督改进、月海往事 - 图1

该算法的优势是相较于其他算法,它不需要指定类群数,这个优点很重要,因为很多时候,聚类算法本身的出发点就是期望帮助用户发现类群。然后,还介绍了基于它扩展而来的HDBSCAN算法,该算法甚至只有一个超参数(minPoints:类群内的最小点数)需要输入。

DBSCAN和HDBSCAN算法的介绍在《墨者修齐 2019-07-01》中也曾被提及。

在高维数据(N = 716,甚是变态)下,各类算法基本都效果不佳:
墨者修齐 2019-10-07·高维度聚类、无监督聚类的可视监督改进、月海往事 - 图2
通过(可视化)降维手段,HDBSCAN以及基于图的聚类算法(SNN-CLIQ和SEURAT)效果都不错。但考虑到HDBSCAN对算法参数(只有一个)优化的依赖性更低,综合而言更胜一筹。
墨者修齐 2019-10-07·高维度聚类、无监督聚类的可视监督改进、月海往事 - 图3
by @沧东(cangdong)

Clustervision: Visual Supervision of Unsupervised Clustering

这篇论文(《Clustervision: Visual Supervision of Unsupervised Clustering》)来自VAST 2017,作者由多个机构合作组成,包括IBM沃森研究中心、麻省理工大学、INOVA心血管研究所以及Sutter健康研究所。
聚类作为一种常见的无监督机器学习方法,是将类似的项目组合成不同的分区的过程,可以用于汇总和聚合复杂的多维数据。由于数据可以以多种方式聚类,并且存在大量的算法来揭示不同的模式。所以在实践中,数据科学家往往很难选择和参数化算法,来获得与数据集和分析任务相关的聚类结果。Clustervision正是为了帮助数据科学家在大量的技术和参数中找到合适的聚类而诞生的可视分析系统。
墨者修齐 2019-10-07·高维度聚类、无监督聚类的可视监督改进、月海往事 - 图4
电视节目《The Joy of Painting》中的画家Bob Ross以“快乐的树”和“蓬松的云彩”而闻名,每一集他都完成了新的艺术作品。在403集里,各种各样的风景都被描绘成树木、海洋、山脉或人造建筑。Walt Hickey对这403幅画进行了统计分析,并使用67个特征(如树木、水、山和天气元素)来手动编码每一集。想为自己的特色文章寻找类似的画,但他选择使用的是单一的聚类技术(k-means)和单一的参数(k=10)。最终,他对聚类的结果并不满意。论文基于此背景,用这403幅画的聚类数据来讲述系统的视图设计和工作流。下图是导入了403幅画的聚类数据后的系统概览图。
墨者修齐 2019-10-07·高维度聚类、无监督聚类的可视监督改进、月海往事 - 图5
A是聚类结果排序视图。系统支持多种聚类技术和参数配置。默认配置下,将使用k-means, Spectral Clustering和Agglomerative Clustering三种方法,和19个参数(k=2-20)进行聚类。图中展示了按特定指标排序后的前15种聚类结果。我们可以很清晰地从图中观察到不同聚类方法和参数产生的不同聚类结果。
B是投影视图,默认使用t-SNE降维,用户也可以选择PCA或MDS。这个视图将数据点以小圆点的形式放置在二维空间。类似散点图,利用降维技术将所有维度的数据转化为两个维度,但又不像散点图那样使用坐标轴,这样可适用于任何领域的任何高维数据,并且可以确保数据展示时的一致性。可以看到,这是在聚类结果排序视图(A)中选择了排名第5的聚类结果后展现的聚类具体分布情况。
C是平行趋势视图。和平行坐标不同,它简化了复杂性,更多的是像主题河流图一样展示一个趋势的变化。与在平行坐标中为每个数据点绘制一条直线不同,平行趋势绘制了每个集群的区域路径。平行趋势视图(C)与聚类结果排序视图(A),投影视图(B)是联动的,所以展示的也是排名第5的聚类结果。我们可以看到,绿色聚类在海洋、海浪和海滩上具有很高的值,这清楚地表明这个聚类代表了Bob Ross的以海洋为主的画。
D是聚类细节视图,当用户在投影视图(B)或平行趋势视图(C)中选择特定聚类后,这个视图会显示使用统计信息和原型的集群摘要,可以看到与这个集群有关的指标信息。
E是数据点视图,当鼠标点击或悬停在投影视图(B)或平行趋势视图(C)中的数据点上时,将显示这个视图并提供有关数据点对应的实际值的详细信息。
最后的Case Study与医疗有关。在许多疾病中,患者可能被诊断出患有相同的疾病,但对治疗的反应却不同。论文中研究了一种被称为心脏衰竭的心血管综合征。作者展示了如何通过Clustervision从加州北部的一家医疗服务提供商Sutter Health的约1500名患者的数据库中提取有意义的心力衰竭患者的信息。
论文:Clustervision: Visual Supervision of Unsupervised Clustering.pdf
视频:Link

月海往事

对月海最早的印象来自于阿瑟·克拉克笔下静寂与死亡共存的“渴海”,当文明的脚印踏在这片陆地之时,故事才有了发生的契机。
image.png
纽约时报将阿波罗11号宇航员与休斯敦控制中心的通话记录作为新闻故事的主线,讲述了50年前阿姆斯特朗、柯林斯、奥尔德林三人乘坐飞行器降落于月面宁静海及之后发生的故事。这种叙事手段可能是《The Martian》(火星救援)小说提供的灵感,整个故事分为《着陆》、《小小一步》、《回程》三篇。

在通话文本之外,纽约时报塑造了一个虚景和实景结合的空间。所谓虚景,即是一个用3D技术复原的虚拟动态空间,包括平摊的月海地面、宇航器、飞行员等。实景则是阿波罗11号拍摄的真实照片,穿插排布在虚拟空间里。
image.png
时间是整个故事讲述的引线,随着页面滑动,时间流逝,文本依次出现,而空间中的相机会根据文本内容进行相应的移动,通话记录文本、虚拟空间、历史照片这三者以时间为维度组织在一起。

os: 看完这件作品之后心情很激动,数据新闻领域已经很久没有出现这种天才的灵感和完美的实现天衣无缝结合在一起的大师之作了。在stroytelling这个域,可视化的想象空间相对更加广阔,visualization的对象不仅仅只有狭义的“数据”,文本资料、图像、视频资料、传感器….. 等等都是可视化故事诞生的土壤。 前几天难以抑制创作冲动开了个关于诗的韵律的data sculpture坑,希望能早日完成,不要真的变坑 = =。

by @sakuya(liuye-szvim)

AmbiguityVis: Visualization of Ambiguity in Graph Layouts

image.png

(a)歧义选择面板。(b)热度图选择面板(针对(c)或(e)的选择)。(c)原始图。(d)歧义热度图。(e)边绑定图。(f)聚合图。(g)聚合图的统计信息。(h)用户选定边的 MDS 降维结果。

该系统分析图布局中的歧义。
图布局中常见的歧义:

  • 节点-节点重叠,边-边交错(crossing)
  • 节点-边重叠
  • 视觉中的边长度符合原始数据长度的程度
  • 边绑定时的连贯性(被绑定的边是否符合:相似的边长、相互靠近、基本平行)
  • 当边绑定在一起时,形如下图(a),很难分辨在其真是的拓扑关系究竟是下图的(b)还是(c)

image.png

  • 聚类的重叠。如下图,当两个聚类重叠在一起时,即便(a)(b)中红蓝两个聚类的的凸包重叠情况完全相同,但歧义情况却不同,(a)中红、蓝聚类交错得更加混乱,(b)中重叠内部较清晰。

image.png

文章中将上述大部分歧义使用热度图的方式展示:
image.png

(a)原图,(b)节点-节点重叠情况分布,(c)边-边交错情况及分布

image.png

(d)原图,(e)节点-边重叠情况,(f)边符合原始数据中边长程度及分布

image.png

(a)原图,(b)凸包标识的聚类,(c)聚类重叠歧义情况及分布

image.png

(a)边绑定图,(b)边绑定歧义情况及其分布

文章使用 MDS 降维后的散点图展示绑定边的连续性:
image.png

文章将聚合后的图的统计信息展示在柱状图中:
image.png

(a)聚合后的图,(b)聚合图的统计信息,包括节点数量、聚类内部边数、聚类间边数、聚类密度

by @十吾(shiwu-5wap2)

Charticulator:可视化图表布局工具

Charticulator是微软开源的一款可视化工具,用于交互式地构建各种高端的图表布局。当我们有一些复杂的数据,例如高维数据和网络结构数据,需要用可视化来展示时,往往需要使用弦图、桑基图等比较高端的图表布局。对于不想低效绘图,却又不会编程的用户,例如设计师们,Charticulator可以帮助我们在线通过拖拽等交互以及一些面板设置来灵活的创建图表,打造自己想要的可视化图表布局。
image.png
使用Charticulator创作的可视化作品
by @步茗Neo(neowang)

特朗普承诺的就业职位都兑现了吗?

美国总统特朗普在大选期间曾做出 31 项为美国公民增添岗位的承诺,并保证包括阿里巴巴、亚马逊在内的多家企业均会提供总计 240 万的职位数。这个可视化作品旨在利用调查数据来揭示特朗普是否有一一兑现承诺。数据更新时间为 2019 年 5月,在当前中美贸易战的背景下,折射出来的意义就更显意味深长。它绘制了一个充满人型图案的圆,图上的一人代表现实中的 4000 份工作。

Untitled.2019-06-15 13_31_19.gif
by @诸岳(dengfuping)

R 语言中各种图表的动画实现

看一下 R 语言中各种图表的动画实现,对我们进行动画改造有不少帮助,遇到的问题和要解决的问题完全一致:
b.pnga.gifc.gifd.gife.gif
所有的实现并不复杂,但是整体的感觉很不错。原文地址
by @萧庆(xiaoqing)