第1章介绍 - 1.2 什么是机器学习？ - 《《可解释机器学习》（翻译）》

机器学习是计算机根据数据做出和优化预测或者行为的一组方法。
例如，为了预测房屋的价格，计算机需要从过去的房屋销售中学习模式。这本书的重点是监督机器学习，它涵盖了所有预测问题，其中我们有一个数据集，我们已经知道了感兴趣的结果（例如过去的房价），并希望学习预测新数据的结果。例如，聚类任务（=无监督学习）被排除在监督学习之外，在这些任务中，我们没有感兴趣的特定结果，但希望找到数据点的聚类。此外，强化学习也被排除在外，在强化学习中，代理通过在环境（例如玩俄罗斯方块的计算机）中的行为来学习优化某种奖励。监督学习的目标是学习一个预测模型，该模型将数据的特征（如房屋大小、位置、楼层类型等）映射到输出（如房价）。如果输出是分类的，则该任务称为分类；如果输出是数字的，则称为回归。机器学习算法通过估计参数（如权重）或学习结构（如树）来学习模型。该算法由最小化的分数或损失函数指导。在房价示例中，机器将估计房价和预测价格之间的差异最小化。然后，可以使用经过充分训练的机器学习模型对新实例进行预测。
房价估算、产品推荐、路标检测、信用违约预测和欺诈检测：所有这些例子都可以通过机器学习解决。任务不同，但方法相同：
步骤1：数据收集。越多越好。数据必须包含您要预测的结果以及进行预测所依据的其他信息。对于街道标志检测器（“图像中是否有街道标志？”），您将收集街道图像并标记街道标志是否可见。对于信用违约预测，您需要有关实际贷款的过去数据、有关客户是否拖欠贷款的信息，以及帮助您进行预测的数据，例如收入、过去的信用违约等。对于自动房屋价值估算程序，您可以从过去的房屋销售中收集数据，并收集有关房地产的信息，如大小、位置等。
步骤2：将此信息输入机器学习算法，该算法生成路标检测器模型、信用评级模型或房屋价值估计器。
步骤3：将模型与新数据一起使用。将模型集成到产品或流程中，例如自动驾驶汽车、信贷申请流程或房地产市场网站。
机器在许多任务上超过了人类，比如下棋（或最近的围棋）或预测天气。即使机器和人一样好，或者在某项任务上有点差，在速度、再现性和可伸缩性方面仍然有很大的优势。一个一旦实现的机器学习模型可以比人类更快地完成任务，可靠地提供一致的结果，并且可以无限复制。在另一台机器上复制机器学习模型既快又便宜。培训一个人完成一项任务可能需要几十年的时间（特别是在他们年轻的时候），而且成本非常高昂。使用机器学习的一个主要缺点是，关于数据和机器解决的任务的见解隐藏在日益复杂的模型中。你需要数以百万计的数字来描述一个深层的神经网络，而没有办法完全理解这个模型。其他模型，如随机森林，由数百个决策树组成，这些决策树为预测“投票”。要了解决策是如何做出的，你必须查看数百棵树中每一棵树的投票和结构。不管你有多聪明，或者你的工作记忆有多好，这都是行不通的。性能最好的模型通常是几个无法解释的模型（也称为集合）的混合，即使每个模型都可以解释。如果您只关注性能，您将自动获得越来越多的不透明模型。机器学习竞赛中获胜的模型通常是模型的集合或非常复杂的模型，如增强树或深度神经网络。