参考

[1]刘瑜,郭浩,李海峰,董卫华,裴韬.从地理规律到地理空间人工智能[J/OL].测绘学报:1-14[2022-04-21].http://kns.cnki.net/kcms/detail/11.2089.P.20220420.1410.002.html
[2]吴志峰,柴彦威,党安荣,龚建华,高松,乐阳,李栋,柳林,刘行健,刘瑜,龙瀛,陆锋,秦承志,王慧,王鹏,王伟,甄峰.地理学碰上“大数据”:热反应与冷思考[J].地理研究,2015,34(12):2207-2221.

什么是空间统计?Spatial Analysis

在我们身边经常遇到的是什么样的统计呢?

统计选票数量,订购书本,比赛结果······这些稀松平常的统计一般没有空间属性。
然而随着新冠疫情发展,基于轨迹数据的统计爆火,而这就是一种空间统计。

地理学有什么定律?

定理和定律不同。定理是逻辑上的推断,在数学中比较常见,比如勾股定理;而定律不同,定律一般是经过大量实验总结而来的,物理上比较常见,比如万有引力定律。
我的空间分析 - 图1
图 勾三股四弦五
在地理学中,也有一条著名的定律:

地理学第一定律(Tobler’s First Law)
翻译过来就是,一切事物都是相关的,但是邻近的事物联系更紧密。
这里我并没有用“距离”,因为这个词总让人联想到实际的距离。我来举个例子打破一下刻板印象,记好咯!
在唐代,中日邻近,文化交流频繁,这时日本和欧美就不如和中国联系紧密;而 1853 年美国以炮舰威逼日本打开国门之后,日本逐渐和欧美联系更紧密。
当然这条定律也有不足之处,正如万有引力定律没有考虑相对论效应,不过这是后话了。

什么是空间自相关?Spatial Autocorrelation

什么是相关性?Correlation

就是相似程度的一种度量方法。
在概率论与数理统计中,我们学到的相关性分析,往往没有空间属性,比如两个人的心情好坏,两个射手的环数。我们可以根据两个变量的许多观测值,来计算相关系数,进而得出一个-1到1之间的数,-1时为完全负相关,+1时为完全正相关,这个系数代表着两个变量之间联系的紧密程度。
我的空间分析 - 图2

什么是自相关?Autocorrelation

最早这个概念来自时间序列分析,比如一个月(31天)内某地的气温数据,除去时间,只剩下气温属性,那么怎么分析这一组数据内部的相关性呢?
用一个窗口window把数据切分成若干块,比如30天,我就可以划分为1-30,2-31两个序列,然后就可以计算相关系数了!

什么是空间自相关?Spatial Autocorrelation

The concept of spatial autocorrelation relates to the combination of two types of similarity: spatial similarity and attribute similarity. Although there are many different measures of spatial autocorrelation, they all combine these two types of simmilarity into a summary measure.——PySal Notebooks

翻译过来就是,无论怎么衡量空间自相关,都需要结合两种相似度——空间相似度和属性相似度。
文档里使用queen contiguity描述前者,spatial lag 描述后者。我没有太明白。
假如你有十个县市的一月内气温变化数据,怎么分析呢?属性相似度可以用相似系数,而空间相似度首先要看这十个县市的分布情况,也就是空间分布模式。

什么是空间分布模式?Spatial Distribution Pattern

引例:我们在做课间操的时候,非常接近于均匀分布,而做完操回教室的过程中,三三两两地聚在一起,形成一种聚集分布;上课下课也类似。
为什么要研究呢?

研究空间分布模式的研究人员试图理解为什么(这种)物体会被放置在(这个)特定的位置。——虾神

也就是一种地理现象为什么会在一处存在(发生),而不是另一处。
当多个现象存在(发生),就形成了一种分布,一种格局。我们总结各种各样的分布,会发现一般只有三种:
离散,随机,聚集。

王老师的图
为什么随机和均匀等同?
他们之间的联系和区别?
只考虑截面数据而不考虑时序,也就是某一时刻的数据,位置没有改变,原来在角落的还在角落,只是属性改变了。
那么如何定量研究呢?如何确定我手上的数据到底是哪种分布模式呢?

什么是莫兰指数?Moran’s I

为什么需要指数?

人们无法记住和处理所有的细节,所以归纳就成了人类的天赋技能。——虾神

是的,我们需要一个整体印象“好帅!牛啊!”。我们的大脑具有非常强大的模式识别能力,然而科学不仅需要定性,还需要定量,也就是量化评价。
所以在经典统计学中,我们往往定义一些统计量来描述手上的数据,或者概括数据的数字特征,比如平均数和众数。那么空间数据,有没有类似的“数”呢?
有的,比如莫兰指数!

如何计算全局莫兰指数?

Moran’s I 以统计学家莫兰命名。
空间关系(空间权重矩阵)与属性相乘
我的空间分析 - 图3
总之,莫兰指数能够保证空间上不相关的,属性再相关也没用。
Python PySal esda
image.png

如何根据莫兰指数判断分布模式?

PySal 文档给出了简单的方法,就是和随机生成的数据比较:大于随机数据的莫兰指数则为明显正相关(聚集)。
而莫兰指数本身的结果范围是[-1,+1],所以越接近+1越聚集,越接近-1越离散。

莫兰指数有什么用?

莫兰指数号称空间统计学第一指路标,它几乎在所有空间统计算法里面都有应用:

首先,探索空间数据是否具备一定的分布特征,是莫兰指数的天赋技能,也是他得以存在的意义,这个我们前面已经说过的度量经济空间分布特征随着时间的变化发生的变化,就是主要的应用之一,那么同样,你也可以用来研究人口、民族、社会生活等等其他的方面。

其次,在任何需要探索合适距离的场合,都可以用:

在做聚类的时候,最关键的是选择聚类的合适距离,那么你就可以用莫兰指数来进行探索。

又或是做插值分析的时候,寻找多大距离内的点来进行插值,也很重要,那么你也可以用莫兰指数来进行探索。

然后,还可以度量某些数据随着空间的变化发生的一些规律,比如总结某种社会舆情、疾病疫情等的趋势是否随空间和时间变化的传播情况 ——这些观点、疾病或趋势是继续保持隔离和集中呢,还是已经传播开并变得更加分散了。 ——虾神

置信度是什么?P 值和 Z 值?

置信度 Confidence interval
直译为:信心区间。
举个例子,假设10000个男生里有72%的概率喜欢打篮球,但是每次取的样本都是由72%的人喜欢吗?未必!事实上这是一个 分布?
再来一个例子,扔飞镖的时候,圆盘越大越容易射中;猜年龄,我猜某个人的年龄在0-120区间内,和在30-40岁之间的概率自然不同。
空间统计就是要揭示隐含的相关性!