可视化数据分析为恋爱复盘

双十一虐狗特别分享

(看完我立马去导出了聊天记录)

双十一本周刚过,据粗略统计,淘宝搜索中,有超过四百万人次搜索过女朋友喜欢这个关键字。大家都期望大数据的推荐,能够给自己一点提示,让自己的感情更加稳固。可是大家有没有想过,通过分析你和恋人之间的文字数据,可以让你更加了解你们的关系。

本期的案例来自Louisa Lu,金融分析专业的她在一个多月前经历了一次分手,成功的加入了双十一过节行列。可是痛定思痛,冷静下来想想,为什么会分手呢。她选择用一种理性到极致的方法来解决这个问题——数据分析。她将平时和前男友的聊天消息记录进行了数据清晰,并且利用多种可视化方法来进行复盘。

谁发的消息多

image.png
首先可以看出,在这段关系中女方的消息是更多的,并且我们可以看出,在相识一个月之后,两人发消息的频率极速增加,进入到了所谓的热恋期,并且持续增长。而在达到高峰后的几次跳崖式下降,暗示着吵架和冲突,也是在最后一次下跌后,两人的关系走到了尽头。

谁说的话长

image.png
两人每条消息的平均字数非常相近,但是在这里可以看出,情绪激动的一方在冲突发生的时候更倾向于,发出整段整段文字来抛给对方,而另一方却只会通过一些只言片语来回复。这也暗示着冲突与无奈终于走到了尽头。

聊天的质量怎样

image.png
怎样判断两个人交流的有效性呢,这里我们提出一个概念,吸引力指数,这个指数是指两个人交流时候,这段谈话的平均回复时间,回复间隔越短,吸引力指数就越高。再涂上可以看出,平时日子中都是偏爱的有恃无恐,除了部分情况下,大部分吸引力指数都不太高,两个人都以自己的节奏回复着消息,但是在分手前夕,吵架陡增,消息几乎秒回,讨论都十分激烈。

对话是怎样进行的

image.png

Lu列出了一个对话流程,从每一次对话的模式进行归纳,得出了上面的决策树。如果两人在一小时内没有回复消息,另一方会尝试开启一些新的话题来吸引对方回复。

表情包&emoji统计

image.png

有研究表明,如果一个人在给另一个人的聊天中发送的emoji和表情越多,那么证明这个人对对方越有兴趣。从这张图上可以看出,如果对方是个喜欢发表情的人,但是在与你的谈话中表情占比变低,这也是一个他在对你失去兴趣的预示,如果你还不采取手段的话,可能就会走向尽头了。

by @明多牧(mingduomu)


拜登选票不符合本福特定律?如何识别数据造假?

今年美国总统选举简直比电视剧还要精彩。先是特朗普团队说自己已经赢了,紧跟着拜登翻盘,接着又爆出某选区将 6000 张投给特朗普的选票错投给拜登。没过多久,拜登终于拿下超过270张选票,赢得选举。
image.png
可是,貌似特朗普并不承认自己失败。他发推特指责选举公正性,并宣布自己赢得了选举。推特官方在特朗普的发言下标注:本条关于选举欺诈的声明是有争议的。
image.png
更有趣的是,有网友对一些选取的投票情况进行分析后发现:拜登的选票数量居然不符合本福特定律。难道选举真的存在欺诈吗?本福特定律到底是什么?
image.png

1938年,物理学家本福特也发现了这个规律,现在被我们称为本福特定律:从自然、生活中产生的数据,在十进制中以数字 n 开头的概率为:
image.png
按照这个公式,不同的首位数概率如下:
image.png
本福特定律也可以运用到我们业务中,如反洗钱、反套现、灰黑产等,通过统计转账的金额,来判断以不同数子开头的概率是否符合本福特定律,对于一些不符合的用户,就可以重点去关注,再进行进一步地、更深入的分析,也许就可以发现一些有价值的发现。

by @聚则(moyee-bzn)


Highlights from IEEE VIS 2020

开幕 session 上提名了一些历久弥新的论文,例如二十年前发表的 Polaris 论文,正是 Tableau 的前身:
image.png
而10年前的叙事可视化设计空间更是启发了后续很多 storytelling 案例:
image.png
今年有一篇特别有创意的文章(视频约 10 分钟):
https://www.youtube.com/watch?v=FBaioHLtHAE&feature=youtu.be&t=8781
即使现在有了 3D 打印,供教学使用的模型(例如人体器官)仍然很昂贵。作者使用折纸配合红绿蓝颜色的铝箔片/灯光提供了一种非常低廉的替代品。
image.png
例如透过红色铝箔片能看到头骨,而通过绿色铝箔片就能看到脑组织。至于原理可以自行查阅打印中使用的减色系统 CMY(青、品红、黄)颜色模型:
image.png
从原始数据到最终在纸上打印的过程如下:
image.png

by @沧东(cangdong)


美国各地区福利情况

一个可视化美国各地区福利情况的站点,通过交互式选择地图上的点,可以在右侧浮层上看到各个方面的评分情况,包括健康、安全、获取服务、公民参与度、教育、工作、环境、收入八大因素。当选中一个区域时,下方还会出现和该地区福利情况比较相似的国家。
image.png

by @十吾(shiwu-5wap2)


Confucius Institutes: cultural asset or campus threat?

Jane Pong供职于Financial Times,她结合自己所做的报道,介绍一则数据新闻如何从想法变成现实,如何用动图同时呈现多组数据。她以孔子学院为例,介绍如何用GIF图来显示过去13年间孔子学院在全球布局,GIF图的快速变化给读者的震撼远远大于文字的描述。

墨者修齐 2020-11-13 可视化数据分析为恋爱复盘、拜登选票不符合本福特定律?如何识别数据造假、Highlights from IEEE VIS 2020、美国各地区福利情况、 - 图17

by @新茗(kasmine)


全球雷击可视化

题材很新颖并且十分有意思的一幅空间可视化作品。@Robin Hawkes@Craig Taylor 合作使用全球雷击位置数据进行了一系列空间可视化,完整的动画可以在文章中查看。文章详细地介绍了两位可视化爱好者合作完成这幅作品中应对的挑战以及可视化背后的技术,包括如何获取非公开的数据资源、对雷击和空中交通情况的可视化探索等,很有启发意义。

image.png

by @顾己(esora)


What Does The Coffee Supply Chain Look Like?

可视化展示了咖啡供应链上的各个环节:
从农场到工厂:

  • 生长
  • 挑选
  • 处理:干燥或者水洗

从工厂到运输

  • 烘焙
  • 打包
  • 运输

到咖啡杯中

  • 磨粉:手磨、机器磨
  • 萃取:手冲、滴漏、冲煮、法压、摩卡壶、意式浓缩机器等等,这一步的玩法也最多
  • 饮用

image.png

by @翎刀(zqlu)