本文依旧是一个不适用源域数据的 Domain Adaptation 方法,本文的动机在于模型的大小远小于数据的大小,在执行域自适应时附带源域数据将会增加计算、存储开销并造成数据隐私的问题。
    Shot工作的思路为源域所学的的分类器是没问题的,但是由于域变化导致特征表示存在偏移,因此需要调整特征表示使其适应到新的特征表示上。

    首先,Shot工作回答了一个问题,在仅知道目标域数据的时候,如何判断一个特征表示是好的。 Shot 的评判指标为:模型输出的熵要低且模型的类别比例要尽可能平均。
    Do We Really Need to Access the Source Data? Source Hypothesis Transfer for Unsupervised Domain Adaptation - 图1
    这将带来两个问题:(1)数据需要尽可能干净不包含异常数据与其他类别数据(2)目标域数据需要潜在的平衡。

    继而,Shot尝试进一步优化,通过对目标域数据进行聚类 DeepCluster,得到目标域上的伪标记与上述目标式一起进行优化。利用聚类与伪标记可以认为是一种,对齐条件分布的方式,这一步缓解了模型对于

    最终的目标是为:
    Do We Really Need to Access the Source Data? Source Hypothesis Transfer for Unsupervised Domain Adaptation - 图2