笔者碎碎念：本文是因为在看SWAV的时候不懂什么是Sinkhorn而写，提醒自己不懂的地方太多。限于笔者水平有限，或出现错误，还请看官怒斥。 2022/4/6

参考链接：
https://zhuanlan.zhihu.com/p/458312488
https://zhuanlan.zhihu.com/p/441197063

最优传输

下面给出一些定义：传输方案 Sinkhorn算法简介与推导 - 图1 ，代价函数 Sinkhorn算法简介与推导 - 图2

假设这里分布是一堆沙子，我们要将位于 Sinkhorn算法简介与推导 - 图4 处的沙子搬到 Sinkhorn算法简介与推导 - 图5 处，因此搬运过程 Sinkhorn算法简介与推导 - 图6 付出的代价为 Sinkhorn算法简介与推导 - 图7 。这里考虑的是一粒沙子，那么对于整堆沙子来说，记某一微元的沙粒总量为 Sinkhorn算法简介与推导 - 图8 ， Sinkhorn算法简介与推导 - 图9 是红色沙堆的概率密度函数（PDF）

因此对于搬运方法 Sinkhorn算法简介与推导 - 图11 所需要的总代价为 Sinkhorn算法简介与推导 - 图12
对于很小的 Sinkhorn算法简介与推导 - 图13 ，总的代价可以写成积分形式 Sinkhorn算法简介与推导 - 图14
所以，我们的任务是找到一个最优传输映射，使得总的代价最小，可以表示为：
Sinkhorn算法简介与推导 - 图15
Sinkhorn算法简介与推导 - 图16 表示 Sinkhorn算法简介与推导 - 图17 的所有取值集合。

但是对于式1解的存在性、唯一性和正则性都很难直接计算，Kantorovich将其拓展为OT问题，Kantorovich的思路点 Sinkhorn算法简介与推导 - 图18 处的沙粒可以被分配到任意一个地方。

为此我们给出下面的定义：
Sinkhorn算法简介与推导 - 图19 的联合概率密度函数 Sinkhorn算法简介与推导 - 图20 ，将 Sinkhorn算法简介与推导 - 图21 视为 Sinkhorn算法简介与推导 - 图22 处沙堆搬运到 Sinkhorn算法简介与推导 - 图23 处沙的量。
因此可知， Sinkhorn算法简介与推导 - 图24 分别是x处搬运前的沙的量，y处搬运后的量。
我们记 Sinkhorn算法简介与推导 - 图25 分别为 Sinkhorn算法简介与推导 - 图26 处和 Sinkhorn算法简介与推导 - 图27 处的沙堆分布，所以有 Sinkhorn算法简介与推导 - 图28

记这样的联合概率分布的集合为 Sinkhorn算法简介与推导 - 图29 ，称之为 Sinkhorn算法简介与推导 - 图30 的传输方案，Kantorovich考虑下面的OT问题：
Sinkhorn算法简介与推导 - 图31
可以看出式2是关于传输方案 Sinkhorn算法简介与推导 - 图32 的凸函数。

Sinkhorn算法概述

什么是Sinkhorn，它用来干嘛

Sinkhorn是一种OT(Optimal Transport)算法，你可以将其建模为两个分布 Sinkhorn算法简介与推导 - 图33 ，将分布x变换为y的任务。Sinkhorn就是为了找到最优的传输方案（将 Sinkhorn算法简介与推导 - 图34 分布转换为 Sinkhorn算法简介与推导 - 图35 分布），使得消耗最少。

有兴趣的读者可以自行搜索Wasserstein距离

算法推导

问题定义

因为计算机只能处理离散的数据，我们分布离散为n点点集得到位置向量 Sinkhorn算法简介与推导 - 图36 ，我们在第一节的提到的密度 Sinkhorn算法简介与推导 - 图37 归一化并用 Sinkhorn算法简介与推导 - 图38 重新表示为
Sinkhorn算法简介与推导 - 图39
Sinkhorn算法简介与推导 - 图40 可以看做 Sinkhorn算法简介与推导 - 图41 处分布初始状态的量， Sinkhorn算法简介与推导 - 图42 表示 Sinkhorn算法简介与推导 - 图43 处分布终止状态的量。

我们使用矩阵 Sinkhorn算法简介与推导 - 图44 表示搬运沙的消耗，比如 Sinkhorn算法简介与推导 - 图45 表示将 Sinkhorn算法简介与推导 - 图46 的单位量的沙搬到 Sinkhorn算法简介与推导 - 图47 处的消耗（cost）。

我们使用矩阵 Sinkhorn算法简介与推导 - 图48 表示将向量 Sinkhorn算法简介与推导 - 图49 表示的沙的分布搬到 Sinkhorn算法简介与推导 - 图50 表示的沙的分布的最优传输方案，比如 Sinkhorn算法简介与推导 - 图51 表示为将 Sinkhorn算法简介与推导 - 图52 处的沙子的 Sinkhorn算法简介与推导 - 图53 的量搬运到 Sinkhorn算法简介与推导 - 图54 处。
所以这里就有 Sinkhorn算法简介与推导 - 图55 ，其中 Sinkhorn算法简介与推导 - 图56

我们下面将满足条件的所有矩阵 Sinkhorn算法简介与推导 - 图57 矩阵的几个记为 Sinkhorn算法简介与推导 - 图58 ，类似于式2，我们将满足分布的 Sinkhorn算法简介与推导 - 图59 的沙堆搬运至分布 Sinkhorn算法简介与推导 - 图60 的沙堆的最优传输方案写为下面最优化形式：
Sinkhorn算法简介与推导 - 图61
可以注意到式3是一个线性的最优化问题，但是可能解不唯一（搬运沙堆的方法不唯一）。

熵正则化

为了解决解不唯一的问题，我们使用熵正则化来选择一个唯一解。对于熵正则化后的问题，我们能使用比单纯形法描述更简单的Sinkhorn算法来求解。同时，Sinkhorn算法也能更适合GPU的并行计算。
下面，我们定义熵函数 Sinkhorn算法简介与推导 - 图62 ，规定如果 Sinkhorn算法简介与推导 - 图63 有小于等于0的数，那么 Sinkhorn算法简介与推导 - 图64 。
下面我们将式3近似为
Sinkhorn算法简介与推导 - 图65
可以证明，问题4的解是唯一的。并且，当 Sinkhorn算法简介与推导 - 图66 的时候，问题4的最优解 Sinkhorn算法简介与推导 - 图67 会收敛到问题3的解的集合中具有最大熵的解。

笔者小猜想：这里的熵最大可否理解为最优化的值最小？

喜闻乐见拉格朗日

那么就到了大家最喜欢的拉格朗日乘子法了。我们这里构造拉格朗日量，给定向量 Sinkhorn算法简介与推导 - 图68 和 Sinkhorn算法简介与推导 - 图69 ：
Sinkhorn算法简介与推导 - 图70
求导：
Sinkhorn算法简介与推导 - 图71
化简得到最优解为
Sinkhorn算法简介与推导 - 图72
我们记 Sinkhorn算法简介与推导 - 图73 ,于是式6就可以写为
Sinkhorn算法简介与推导 - 图74
其中 Sinkhorn算法简介与推导 - 图75 为对角元素为向量 Sinkhorn算法简介与推导 - 图76 对应值的矩阵，即 Sinkhorn算法简介与推导 - 图77

迭代形式

由于 Sinkhorn算法简介与推导 - 图78 ， Sinkhorn算法简介与推导 - 图79 满足 Sinkhorn算法简介与推导 - 图80
改写为逐元素相乘的形式
Sinkhorn算法简介与推导 - 图81
这里的 Sinkhorn算法简介与推导 - 图82 表示为逐元素乘法。
为了求解式8，Sinkhorn使用迭代算法，首先初始化 Sinkhorn算法简介与推导 - 图83 ，使用迭代式：
Sinkhorn算法简介与推导 - 图84

代码

当然聪明如你，推导完这些数学公式之后，一定对代码怎么写已经有了想法，下面给出一个例程。

import numpy as np
import matplotlib.pyplot as plt
import scipy as scp
N = 200
t = np.arange(0, N)/N
Gaussian = lambda t0, sigma: np.exp(-(t-t0)**2/(2*sigma**2))
normalize = lambda p: p/np.sum(p)
sigma = .06
a = Gaussian(.25, sigma)
b = Gaussian(.8, sigma) + 3 * Gaussian(.6, sigma) + Gaussian(0.4, sigma)
vmin = .02
a = normalize(a+np.max(a)*vmin)
b = normalize(b+np.max(b)*vmin)
plt.figure(figsize = (10,7))
plt.subplot(2, 1, 1)
plt.bar(t, a, width = 1/len(t), color = "darkblue")
plt.subplot(2, 1, 2)
plt.bar(t, b, width = 1/len(t), color = "darkblue")
epsilon = (.03)**2
[Y, X] = np.meshgrid(t,t)
K = np.exp(-(X-Y)**2/epsilon)
v = np.ones(N)
niter = 4000
Err_p = np.zeros(niter)
Err_q = np.zeros(niter)
for i in range(niter):
    u = a / (np.dot(K, v))
    r = v * (np.dot(K, u))
    Err_q[i] = np.linalg.norm(r - b, ord=1)
    v = b / (np.dot(K, u))
    s = u * (np.dot(K, v))
    Err_p[i] = np.linalg.norm(s - a, ord=1)
plt.figure(figsize = (10, 7))
plt.subplot(2, 1, 1)
plt.title("$||P1 -a||_1$")
plt.plot(np.log(np.asarray(Err_p)), linewidth=2)
plt.subplot(2, 1, 2)
plt.title("$||P^T 1 -b||_1$")
plt.plot(np.log(np.asarray(Err_q)), linewidth=2)
P = np.dot(np.dot(np.diag(u),K),np.diag(v))
plt.figure(figsize=(5,5))
plt.imshow(np.log(P+1e-5))
plt.axis('off')
plt.show()

输出如下：

当然也完全等价于这么写：

def sinkhorn(K,a,b,nither=4000):
    for _ in range(nither):  
        K *= (a/K.sum(1))[:, np.newaxis]
        K *= (b/K.sum(0))[np.newaxis, :]  
    return K