主要内容
主要交流了以下内容:
(1)两个数据集(星巴克数据集、VISUELLE数据集):可以去找星巴克数据集的图片,这样两个数据集就都有文本特征、图片特征、其它的外部特征,两个数据集就对齐了,可以把跑过VISUELLE数据集的那两个模型拿过来当baseline;
(2)关于domain的划分方法:星巴克数据集可以有两个维度的domain划分方法,比如说门店类型和产品(或产品类别),VISUELLE数据集也可以有两种domain划分的方法,比如说产品和时尚季,产品销量分层级也可以作为一个domain,具体分出来的效果可以看一个domain里的边缘概率分布等是否相近,不同domain是否距离远(可以作为这么分domain的motivation),也就是要分析探查数据集;
(3)迁移学习的方法:用DANN的方法对齐隐空间的分布,如果现在有两种分domain的方法,需要调整DANN的结构,可以参考ICDM2019上那篇论文的方法(DANN以及利用subdomain实现条件概率分布对齐);
(4)特征处理:在文本特征、图片特征等处理上,可以用attention等方法,就类似于KDD2020上那篇新品预测的论文;
(5)迁移的内容:我本来打算只迁移一些外部特征,如是否为节假日、天气特征,但是图片特、文本特征可能也可以迁移。
后续
(1)找星巴克数据集的图片;
(2)想想怎么划分domain;
(3)在两种doamin划分的情况下,想想怎么调整DANN的结构来实现比较好的迁移,可以参考ICDM2019上那篇论文的方法(DANN以及利用subdomain实现条件概率分布对齐);
(4)学习pytorch,开始在B站追李沐。