表征缠绕
白话
pca
svm
1. 机器学习的工作方式
①选择数据:将你的数据分成三组:训练数据、验证数据和测试数据
②模型数据:使用训练数据来构建使用相关特征的模型
③验证模型:使用你的验证数据接入你的模型
④测试模型:使用你的测试数据检查被验证的模型的表现
⑤使用模型:使用完全训练好的模型在新数据上做预测
⑥调优模型:使用更多数据、不同的特征或调整过的参数来提升算法的性能表现

1. 五大流派
①符号主义:使用符号、规则和逻辑来表征知识和进行逻辑推理,最喜欢的算法是:规则和决策树
名称:符号主义(Symbolists)
起源:逻辑学、哲学
核心思想:认知即计算,通过对符号的演绎和逆演绎进行结果预测
问题:知识结构
代表算法:逆演绎算法(Inverse deduction)
代表应用:知识图谱
代表人物:Tom Mitchell、Steve Muggleton、Ross Quinlan
②贝叶斯派:获取发生的可能性来进行概率推理,最喜欢的算法是:朴素贝叶斯或马尔可夫
名称:贝叶斯派(Bayesians)
起源:统计学
核心思想:主观概率估计,发生概率修正,最优决策
问题:不确定性
代表算法:概率推理(Probabilistic inference)
代表应用:反垃圾邮件、概率预测
代表人物:David Heckerman、Judea Pearl、Michael Jordan

③联结主义:使用概率矩阵和加权神经元来动态地识别和归纳模式,最喜欢的算法是:神经网络
名称:联结主义(Connectionist)
起源:神经科学
核心思想:对大脑进行仿真
问题:信度分配
代表算法:反向传播算法(Backpropagation)、深度学习(Deep learning)
代表应用:机器视觉、语音识别
代表人物:Yann LeCun、Geoff Hinton、Yoshua Bengio
④进化主义:生成变化,然后为特定目标获取其中最优的,最喜欢的算法是:遗传算法
名称:进化主义(Evolutionaries)
起源:进化生物学
核心思想:对进化进行模拟,使用遗传算法和遗传编程
问题:结构发现
代表算法:基因编程(Genetic programming)
代表应用:海星机器人
代表人物:John Koda、John Holland、Hod Lipson
⑤Analogizer:根据约束条件来优化函数(尽可能走到更高,但同时不要离开道路),最喜欢的算法是:支持向量机
名称:行为类比主义(Analogizer)
起源:心理学
核心思想:新旧知识间的相似性
问题:相似性
代表算法:核机器(Kernel machines)、近邻算法(Nearest Neightor)
代表应用:Netflix推荐系统
代表人物: Peter Hart、Vladimir Vapnik、Douglas Hofstadter

回归算法

image.png回归涉及对变量之间的关系进行建模,该变量使用模型预测中的误差度量进行迭代细化。
回归方法是统计学的主力军,并已被纳入统计机器学习。这可能会造成混淆,因为我们可以使用回归来指代问题的类别和算法的类别。实际上,回归是一个过程。
最流行的回归算法是:

  • Ordinary Least Squares Regression (OLSR)
  • Linear Regression
  • Logistic Regression
  • Stepwise Regression
  • Multivariate Adaptive Regression Splines (MARS)
  • Locally Estimated Scatterplot Smoothing (LOESS)

    基于实例的算法

    image.png基于实例的学习模型是一个决策问题,其中包含被认为对模型很重要或需要的训练数据的实例或示例。
    此类方法通常建立示例数据数据库,并使用相似性度量将新数据与数据库进行比较,以找到最佳匹配并进行预测。因此,基于实例的方法也称为赢家通吃方法和基于记忆的学习。重点放在存储实例的表示和实例之间使用的相似性度量上。
    最流行的基于实例的算法是:

  • k-Nearest Neighbor (kNN)

  • Learning Vector Quantization (LVQ)
  • Self-Organizing Map (SOM)
  • Locally Weighted Learning (LWL)
  • Support Vector Machines (SVM)

    正则化算法

    image.png对另一种方法(通常是回归方法)的扩展,该方法根据模型的复杂性对模型进行惩罚,有利于更易于泛化的更简单的模型。
    我在这里单独列出了正则化算法,因为它们很流行、功能强大并且通常对其他方法进行简单的修改。
    最流行的正则化算法是:

  • Ridge Regression

  • Least Absolute Shrinkage and Selection Operator (LASSO)
  • Elastic Net
  • Least-Angle Regression (LARS)

    决策树算法

    image.png决策树方法根据数据中属性的实际值构建决策模型。
    决策在树结构中分叉,直到对给定记录做出预测决策。决策树针对分类和回归问题的数据进行训练。决策树通常快速准确,是机器学习中的一大宠儿。
    最流行的决策树算法有:

  • Classification and Regression Tree (CART)

  • Iterative Dichotomiser 3 (ID3)
  • C4.5 and C5.0 (different versions of a powerful approach)
  • Chi-squared Automatic Interaction Detection (CHAID)
  • Decision Stump
  • M5
  • Conditional Decision Trees

    贝叶斯算法

    image.png贝叶斯方法是那些明确地将贝叶斯定理应用于分类和回归等问题的方法。
    最流行的贝叶斯算法是:

  • Naive Bayes

  • Gaussian Naive Bayes
  • Multinomial Naive Bayes
  • Averaged One-Dependence Estimators (AODE)
  • Bayesian Belief Network (BBN)
  • Bayesian Network (BN)

    聚类算法

    image.png聚类和回归一样,描述了问题的类别和方法的类别。
    聚类方法通常由建模方法组织,例如基于质心和分层。所有方法都关注使用数据中的固有结构来最好地将数据组织成最大共性的组。
    最流行的聚类算法有:

  • k-Means

  • k-Medians
  • Expectation Maximisation (EM)
  • Hierarchical Clustering

    关联规则学习算法

    image.png关联规则学习方法提取最能解释观察到的数据变量之间关系的规则。
    这些规则可以在组织可以利用的大型多维数据集中发现重要且具有商业用途的关联。
    最流行的关联规则学习算法有:

  • Apriori algorithm

  • Eclat algorithm

    人工神经网络算法

    image.png人工神经网络是受生物神经网络的结构和/或功能启发的模型。
    它们是一类模式匹配,通常用于回归和分类问题,但实际上是一个巨大的子领域,由数百种算法和各种问题类型的变体组成。
    请注意,由于该领域的大规模增长和普及,我已将深度学习与神经网络分开。在这里,我们关注更经典的方法。
    最流行的人工神经网络算法有:

  • Perceptron

  • Multilayer Perceptrons (MLP)
  • Back-Propagation
  • Stochastic Gradient Descent
  • Hopfield Network
  • Radial Basis Function Network (RBFN)

深度学习算法

image.png深度学习方法是对利用大量廉价计算的人工神经网络的现代更新。
他们关注构建更大、更复杂的神经网络,并且如上所述,许多方法关注非常大的标记模拟数据数据集,例如图像、文本。音频和视频。
最流行的深度学习算法是:

  • Convolutional Neural Network (CNN) 卷积神经网络
  • Recurrent Neural Networks (RNNs) 递归神经网络
  • Long Short-Term Memory Networks (LSTMs) 长短期记忆网络
  • Stacked Auto-Encoders堆叠式自动编码器
  • Deep Boltzmann Machine (DBM) 深玻尔兹曼机
  • Deep Belief Networks (DBN)深度信念网络

    降维算法

    image.png与聚类方法一样,降维寻求和利用数据中的固有结构,但在这种情况下,以无监督的方式或命令使用较少的信息来总结或描述数据。
    这对于可视化维度数据或简化可用于监督学习方法的数据很有用。许多这些方法可以适用于分类和回归。

  • Principal Component Analysis (PCA)

  • Principal Component Regression (PCR)
  • Partial Least Squares Regression (PLSR)
  • Sammon Mapping
  • Multidimensional Scaling (MDS)
  • Projection Pursuit
  • Linear Discriminant Analysis (LDA)
  • Mixture Discriminant Analysis (MDA)
  • Quadratic Discriminant Analysis (QDA)
  • Flexible Discriminant Analysis (FDA)

    集成算法

    image.png集成方法是由多个独立训练的较弱模型组成的模型,其预测以某种方式组合以进行整体预测。
    在组合哪些类型的弱学习器以及组合它们的方式上投入了大量精力。这是一类非常强大的技术,因此非常受欢迎。

  • Boosting

  • Bootstrapped Aggregation (Bagging)
  • AdaBoost
  • Weighted Average (Blending)
  • Stacked Generalization (Stacking)
  • Gradient Boosting Machines (GBM)
  • Gradient Boosted Regression Trees (GBRT)
  • Random Forest

    Other Machine Learning Algorithms

  • Feature selection algorithms

  • Algorithm accuracy evaluation
  • Performance measures
  • Optimization algorithms

A Tour of Machine Learning Algorithms
机器学习五大流派
一文读懂机器学习:一个概念、五大流派、九种算法
https://ailearning.apachecn.org/#/docs/ml/6
机器学习基础
PCA、SVD、ZCA白化理论与实现
https://en.wikipedia.org/wiki/Machine_learning

https://github.com/AmanPriyanshu/Deep-Belief-Networks-in-PyTorch
https://blog.csdn.net/yao09605/category_9564359.html

https://ke.qq.com/course/277718?taid=1806613568830678