论文笔记 - Do We Really Need to Access the Source Data? Source Hypothesis Transfer for Unsupervised Domain Adaptation - 《Machine Learning》

本文依旧是一个不适用源域数据的 Domain Adaptation 方法，本文的动机在于模型的大小远小于数据的大小，在执行域自适应时附带源域数据将会增加计算、存储开销并造成数据隐私的问题。
Shot工作的思路为源域所学的的分类器是没问题的，但是由于域变化导致特征表示存在偏移，因此需要调整特征表示使其适应到新的特征表示上。

首先，Shot工作回答了一个问题，在仅知道目标域数据的时候，如何判断一个特征表示是好的。 Shot 的评判指标为：模型输出的熵要低且模型的类别比例要尽可能平均。
Do We Really Need to Access the Source Data? Source Hypothesis Transfer for Unsupervised Domain Adaptation - 图1
这将带来两个问题：（1）数据需要尽可能干净不包含异常数据与其他类别数据（2）目标域数据需要潜在的平衡。

继而，Shot尝试进一步优化，通过对目标域数据进行聚类 DeepCluster，得到目标域上的伪标记与上述目标式一起进行优化。利用聚类与伪标记可以认为是一种，对齐条件分布的方式，这一步缓解了模型对于

最终的目标是为：
Do We Really Need to Access the Source Data? Source Hypothesis Transfer for Unsupervised Domain Adaptation - 图2