52. 直接学习复杂的输出

图像分类算法输入图像 $x$，输出一个表示对象类别的整数。那么，算法可以输出描述图像的句子吗?

比如：

传统的监督学习算法学习函数 $h$：$X\rightarrow Y$，其中输出 $y$ 通常是整数或者实数。例如：

端到端的深度学习中最令人兴奋的发展之一是它可以让我们直接学习到比数字复杂得多的 $y$。在上面的图像字幕示例中，可以让神经网络输入图像 $x$ 并直接输出标题 $y$。

更多的例子：

这是深度学习中的一个趋势：当你有正确的(输入、输出)标记对时，你就可以尝试去使用端到端学习技术，即使输出是一个句子、一个图像、音频或其他比单个数字更丰富的输出。