机器学习是计算机根据数据做出和优化预测或者行为的一组方法。
    例如,为了预测房屋的价格,计算机需要从过去的房屋销售中学习模式。这本书的重点是监督机器学习,它涵盖了所有预测问题,其中我们有一个数据集,我们已经知道了感兴趣的结果(例如过去的房价),并希望学习预测新数据的结果。例如,聚类任务(=无监督学习)被排除在监督学习之外,在这些任务中,我们没有感兴趣的特定结果,但希望找到数据点的聚类。此外,强化学习也被排除在外,在强化学习中,代理通过在环境(例如玩俄罗斯方块的计算机)中的行为来学习优化某种奖励。监督学习的目标是学习一个预测模型,该模型将数据的特征(如房屋大小、位置、楼层类型等)映射到输出(如房价)。如果输出是分类的,则该任务称为分类;如果输出是数字的,则称为回归。机器学习算法通过估计参数(如权重)或学习结构(如树)来学习模型。该算法由最小化的分数或损失函数指导。在房价示例中,机器将估计房价和预测价格之间的差异最小化。然后,可以使用经过充分训练的机器学习模型对新实例进行预测。
    房价估算、产品推荐、路标检测、信用违约预测和欺诈检测:所有这些例子都可以通过机器学习解决。任务不同,但方法相同:
    步骤1:数据收集。越多越好。数据必须包含您要预测的结果以及进行预测所依据的其他信息。对于街道标志检测器(“图像中是否有街道标志?”),您将收集街道图像并标记街道标志是否可见。对于信用违约预测,您需要有关实际贷款的过去数据、有关客户是否拖欠贷款的信息,以及帮助您进行预测的数据,例如收入、过去的信用违约等。对于自动房屋价值估算程序,您可以从过去的房屋销售中收集数据,并收集有关房地产的信息,如大小、位置等。
    步骤2:将此信息输入机器学习算法,该算法生成路标检测器模型、信用评级模型或房屋价值估计器。
    步骤3:将模型与新数据一起使用。将模型集成到产品或流程中,例如自动驾驶汽车、信贷申请流程或房地产市场网站。
    机器在许多任务上超过了人类,比如下棋(或最近的围棋)或预测天气。即使机器和人一样好,或者在某项任务上有点差,在速度、再现性和可伸缩性方面仍然有很大的优势。一个一旦实现的机器学习模型可以比人类更快地完成任务,可靠地提供一致的结果,并且可以无限复制。在另一台机器上复制机器学习模型既快又便宜。培训一个人完成一项任务可能需要几十年的时间(特别是在他们年轻的时候),而且成本非常高昂。使用机器学习的一个主要缺点是,关于数据和机器解决的任务的见解隐藏在日益复杂的模型中。你需要数以百万计的数字来描述一个深层的神经网络,而没有办法完全理解这个模型。其他模型,如随机森林,由数百个决策树组成,这些决策树为预测“投票”。要了解决策是如何做出的,你必须查看数百棵树中每一棵树的投票和结构。不管你有多聪明,或者你的工作记忆有多好,这都是行不通的。性能最好的模型通常是几个无法解释的模型(也称为集合)的混合,即使每个模型都可以解释。如果您只关注性能,您将自动获得越来越多的不透明模型。机器学习竞赛中获胜的模型通常是模型的集合或非常复杂的模型,如增强树或深度神经网络。