38. 如何决定是否包含不一致的数据

假设你想学习预测纽约市的房价。考虑到房子的大小(输入特征 x), 您需要预测价格(目标标签 y)。

纽约市的房价非常高。假设你有关于密歇根州底特律的房价的第二个数据集,那里的房价要低得多。你应该在你的训练集中包含这些数据吗?

如果给定相同的 x (房子大小一样),y 房子的价格则根据其是在纽约市还是在底特律(地点不同)而不同。如果你只关心预测纽约市的房价,那么把这两个数据集放在一起就会影响你的算法表现。在这种情况下,最好忽略不一致的底特律房价数据[^3]。

[^3]:有一种方法可以解决底特律数据与纽约市数据不一致的问题,即为每一个城市的训练样本添加额外的特征。给定输入 x ——现在指定了城市—— y 的目标值现在是明确的。然而,在实践中,我并没有经常看到这种做法。

这个纽约市和底特律的例子与移动应用程序和网络猫图片的例子有什么不同?

猫图像的例子是不同的,因为在给定输入图像 x 的情况下,即使不知道图像是互联网图像还是移动应用上传的图像,也可以可靠地预测标签 y 表明是否有猫。也就是说,有一个函数 $f(x)$ 可以可靠的从输入 x 映射到目标输出 y,即使不知道 x 的来源。因此,互联网图像识别任务与移动应用图像识别任务“一致”。这意味着除了计算成本之外,包含所有的样本几乎没有什么负面影响,或许还有一些潜在的显著优势。相比之下,纽约市和密歇根州底特律的数据并不一致,给定相同的 x(房子的大小),根据房子的位置,价格是非常不同的。